A IA Gemini do Google é uma ameaça ao ChatGPT – Saiba o motivo

Por que confiar em nós
Conclusão

A introdução do Google Gemini, um conjunto de modelos de linguagem grande (LLMs) que incorporam técnicas inspiradas no AlphaGo, marca a resposta estratégica do Google ao ChatGPT. Com capacidades multimodais e acesso potencial aos extensos dados de treinamento proprietários do Google de vários serviços, o Gemini visa desafiar o domínio do ChatGPT no espaço de IA generativa. Este movimento ressalta o comprometimento do Google com a inovação e competição de IA no mercado de IA generativa em rápido crescimento, projetado para valer US$ 1,3 trilhão até 2032.

O lançamento do ChatGPT abalou o Google. O popular chatbot representou uma ameaça tão grande para os negócios da empresa que ela teve que declarar um código vermelho e começou a investir para se atualizar no movimento da IA generativa. Esse esforço resultou não apenas no lançamento do Google Bard, mas também do Gemini. Por isso, é importante entender que o Gemini do Google é uma ameaça ao ChatGPT.

O Gemini foi lançado na quarta-feira, 6 de dezembro de 2023 , e, com o passar dos meses, acompanharemos sua jornada. Assim, há uma grande chance de que o Google possa tomar a coroa da IA ​​popular do ChatGPT.

O que é o Google Gemini?

O Gemini é um conjunto de grandes modelos de linguagem (LLMs) que utiliza técnicas de treinamento retiradas do AlphaGo, incluindo aprendizado por reforço e pesquisa em árvore, que tem o potencial de desbancar o ChatGPT como a solução de IA generativa mais dominante do planeta.

A notícia chega poucos meses depois que o Google combinou seus laboratórios de IA Brain e DeepMind para criar uma nova equipe de pesquisa chamada Google DeepMind, e poucos meses depois do lançamento do Bard e de seu PaLM 2 LLM de última geração.

Com a previsão dos pesquisadores de que o mercado de IA generativa valerá US$ 1,3 trilhão até 2032, fica claro que o Google está investindo tudo no espaço para manter sua posição de líder no desenvolvimento de IA.

Tudo o que sabemos até agora sobre Gemini

Embora muitos esperem que o Google Gemini seja lançado no outono de 2023, não se sabe muito sobre os recursos do modelo.

Em maio, Sundar Pichai, CEO do Google e da Alphabet, publicou um post no blog com uma visão geral do LLM, explicando:

“O Gemini foi criado desde o início para ser multimodal, altamente eficiente em integrações de ferramentas e APIs e desenvolvido para permitir inovações futuras, como memória e planejamento.”

Pichai também observou que “Embora ainda seja cedo, já estamos vendo recursos multimodais impressionantes, não vistos em modelos anteriores.

“Uma vez ajustado e rigorosamente testado quanto à segurança, o Gemini estará disponível em vários tamanhos e capacidades, assim como o PaLM 2.”

Desde então, não se falou muito sobre o lançamento oficialmente, além da entrevista do CEO do Google DeepMind, Demis Hassabis, à Wired, observando que o Gemini “combinará alguns dos pontos fortes dos sistemas do tipo AlphaGo com os incríveis recursos de linguagem dos modelos grandes”.

O Android Police também afirmou que uma fonte anônima envolvida com o produto comentou que o Gemini será capaz de gerar texto e imagens contextuais e será treinado em fontes como transcrições de vídeos do YouTube.

Será que a Gemini vai tirar a coroa do ChatGPT?

Uma das maiores conversas em torno do lançamento do Gemini é se o modelo de linguagem misteriosa tem o que é necessário para desbancar o ChatGPT, que este ano atingiu mais de 100 milhões de usuários ativos mensais.

Inicialmente, o Google estava usando a capacidade do Gemini de gerar texto e imagens para diferenciá-lo do GPT4, mas em 25 de setembro de 2023, a OpenAI anunciou que os usuários poderiam inserir consultas de voz e imagem no ChatGPT.

Agora que a OpenAI está experimentando uma abordagem de modelo multimodal e conectou o ChatGPT à Internet, talvez o diferencial mais ameaçador entre os dois seja a vasta gama de dados de treinamento exclusivos do Google.

O Google Gemini pode processar dados obtidos em vários serviços, incluindo a Pesquisa Google, o YouTube, o Google Books e o Google Scholar.

O uso desses dados proprietários no treinamento dos modelos do Gemini pode resultar em uma vantagem distinta na sofisticação dos insights e das inferências que ele pode extrair de um conjunto de dados.

Isso é particularmente verdadeiro se os relatórios iniciais de que o Gemini é treinado com o dobro de tokens do GPT4 estiverem corretos.

Além disso, a parceria entre as equipes do Google DeepMind e do Brain este ano não pode ser subestimada, pois coloca a OpenAI frente a frente com uma equipe de pesquisadores de IA de classe mundial, incluindo o cofundador do Google, Sergey Brin, e o cientista sênior de IA do DeepMind e especialista em aprendizado de máquina, Paul Barham.

Essa é uma equipe experiente que tem um profundo conhecimento de como aplicar técnicas como aprendizagem por reforço e pesquisa em árvore para criar programas de IA que podem obter feedback e melhorar sua solução de problemas ao longo do tempo, o que a equipe da DeepMind usou para ensinar o AlphaGo a derrotar um campeão mundial de Go em 2016.

A corrida armamentista da IA

A combinação de habilidades multimodais do Gemini, o uso do aprendizado por reforço, os recursos de geração de texto e imagem e os dados proprietários do Google são todos os ingredientes de que o Gemini precisa para superar o GPT-4.

Os dados de treinamento são o principal diferencial, afinal, a organização que vencer a corrida armamentista dos LLMs será decidida, em grande parte, com base em quem treinar seus modelos com o maior e mais rico conjunto de dados.

Dito isso, com a OpenAI supostamente trabalhando em um novo LLM multimodal de última geração chamado Gobi, ainda não podemos descartar o gigante da IA generativa. A questão agora é: quem executa melhor a IA multimodal?

Tim Keary
Technology Specialist
Tim Keary
Especialista em Tecnologia

Tim Keary é redator e repórter freelance de tecnologia que cobre IA, segurança cibernética e tecnologia empresarial. Antes de ingressar na Techopedia em tempo integral em 2023, seu trabalho apareceu no VentureBeat, no Forbes Advisor e em outras plataformas de tecnologia notáveis, onde cobriu as últimas tendências e inovações em tecnologia.