O lançamento do ChatGPT abalou o Google. O popular chatbot representou uma ameaça tão grande para os negócios da empresa que ela teve que declarar um código vermelho e começou a investir para se atualizar no movimento da IA generativa. Esse esforço resultou não apenas no lançamento do Google Bard, mas também do Gemini. Por isso, é importante entender que o Gemini do Google é uma ameaça ao ChatGPT.
O Gemini foi lançado na quarta-feira, 6 de dezembro de 2023 , e, com o passar dos meses, acompanharemos sua jornada. Assim, há uma grande chance de que o Google possa tomar a coroa da IA popular do ChatGPT.
O que é o Google Gemini?
O Gemini é um conjunto de grandes modelos de linguagem (LLMs) que utiliza técnicas de treinamento retiradas do AlphaGo, incluindo aprendizado por reforço e pesquisa em árvore, que tem o potencial de desbancar o ChatGPT como a solução de IA generativa mais dominante do planeta.
A notícia chega poucos meses depois que o Google combinou seus laboratórios de IA Brain e DeepMind para criar uma nova equipe de pesquisa chamada Google DeepMind, e poucos meses depois do lançamento do Bard e de seu PaLM 2 LLM de última geração.
Com a previsão dos pesquisadores de que o mercado de IA generativa valerá US$ 1,3 trilhão até 2032, fica claro que o Google está investindo tudo no espaço para manter sua posição de líder no desenvolvimento de IA.
Tudo o que sabemos até agora sobre Gemini
Embora muitos esperem que o Google Gemini seja lançado no outono de 2023, não se sabe muito sobre os recursos do modelo.
Em maio, Sundar Pichai, CEO do Google e da Alphabet, publicou um post no blog com uma visão geral do LLM, explicando:
“O Gemini foi criado desde o início para ser multimodal, altamente eficiente em integrações de ferramentas e APIs e desenvolvido para permitir inovações futuras, como memória e planejamento.”
Pichai também observou que “Embora ainda seja cedo, já estamos vendo recursos multimodais impressionantes, não vistos em modelos anteriores.
“Uma vez ajustado e rigorosamente testado quanto à segurança, o Gemini estará disponível em vários tamanhos e capacidades, assim como o PaLM 2.”
Desde então, não se falou muito sobre o lançamento oficialmente, além da entrevista do CEO do Google DeepMind, Demis Hassabis, à Wired, observando que o Gemini “combinará alguns dos pontos fortes dos sistemas do tipo AlphaGo com os incríveis recursos de linguagem dos modelos grandes”.
O Android Police também afirmou que uma fonte anônima envolvida com o produto comentou que o Gemini será capaz de gerar texto e imagens contextuais e será treinado em fontes como transcrições de vídeos do YouTube.
Será que a Gemini vai tirar a coroa do ChatGPT?
Uma das maiores conversas em torno do lançamento do Gemini é se o modelo de linguagem misteriosa tem o que é necessário para desbancar o ChatGPT, que este ano atingiu mais de 100 milhões de usuários ativos mensais.
Inicialmente, o Google estava usando a capacidade do Gemini de gerar texto e imagens para diferenciá-lo do GPT4, mas em 25 de setembro de 2023, a OpenAI anunciou que os usuários poderiam inserir consultas de voz e imagem no ChatGPT.
Agora que a OpenAI está experimentando uma abordagem de modelo multimodal e conectou o ChatGPT à Internet, talvez o diferencial mais ameaçador entre os dois seja a vasta gama de dados de treinamento exclusivos do Google.
O Google Gemini pode processar dados obtidos em vários serviços, incluindo a Pesquisa Google, o YouTube, o Google Books e o Google Scholar.
O uso desses dados proprietários no treinamento dos modelos do Gemini pode resultar em uma vantagem distinta na sofisticação dos insights e das inferências que ele pode extrair de um conjunto de dados.
Isso é particularmente verdadeiro se os relatórios iniciais de que o Gemini é treinado com o dobro de tokens do GPT4 estiverem corretos.
Além disso, a parceria entre as equipes do Google DeepMind e do Brain este ano não pode ser subestimada, pois coloca a OpenAI frente a frente com uma equipe de pesquisadores de IA de classe mundial, incluindo o cofundador do Google, Sergey Brin, e o cientista sênior de IA do DeepMind e especialista em aprendizado de máquina, Paul Barham.
Essa é uma equipe experiente que tem um profundo conhecimento de como aplicar técnicas como aprendizagem por reforço e pesquisa em árvore para criar programas de IA que podem obter feedback e melhorar sua solução de problemas ao longo do tempo, o que a equipe da DeepMind usou para ensinar o AlphaGo a derrotar um campeão mundial de Go em 2016.
A corrida armamentista da IA
A combinação de habilidades multimodais do Gemini, o uso do aprendizado por reforço, os recursos de geração de texto e imagem e os dados proprietários do Google são todos os ingredientes de que o Gemini precisa para superar o GPT-4.
Os dados de treinamento são o principal diferencial, afinal, a organização que vencer a corrida armamentista dos LLMs será decidida, em grande parte, com base em quem treinar seus modelos com o maior e mais rico conjunto de dados.
Dito isso, com a OpenAI supostamente trabalhando em um novo LLM multimodal de última geração chamado Gobi, ainda não podemos descartar o gigante da IA generativa. A questão agora é: quem executa melhor a IA multimodal?