O Google lançou nesta semana o Gemini, seu modelo de inteligência artificial que, além de texto, consegue interpretar vídeos e fotos. A tecnologia que promete trazer recursos mais avançados de raciocínio e compreensão superou o ChatGPT-4 da OpenAI num teste de linguagem multitarefa.
Como reportou o New Atlas, o Gemini obteve uma pontuação de 90% no teste de compreensão massiva de linguagem multitarefa (MMLU, na sigla em inglês) que envolve a resolução de problemas em 57 disciplinas como matemática, física, história, direito, medicina e mais.
Com isso, a IA do Google superou o GPT-4 modelo de linguagem amplo utilizado pelo ChatGPT, que obteve uma pontuação de 86,4% e especialistas humanos, que alcançaram 89,8%.
Por ser uma IA multimodal, o Gemini consegue compreender informações visuais e auditivas da mesma forma que entende textos. No vídeo abaixo o Google demonstra que o modelo consegue interpretar o que aparece nas imagens, além de apresentar informações e sugestões de acordo com o que é apresentado.
A ferramenta possui variantes otimizadas para diferentes tipos de plataforma, inclusive os novos celulares e notebooks com inteligência artificial nativa. O Gemini será disponibilizado em três “tamanhos” de modelo:
Gemini Ultra: versão mais poderosa para tarefas complexas
Gemini Pro: versão intermediária para tarefas diversificadas
Gemini Nano: versão mais eficiente para processamento local em dispositivos de consumo, como celulares, tablets e notebooks
A partir desta quarta-feira, 6 de dezembro, o Google Bard passará a utilizar uma versão otimizada do Gemini Pro. Rival do ChatGPT, o chat de inteligência artificial promete raciocínio e compreensão muito mais avançados com seu novo motor, segundo o Google.
Por ora, o modelo está disponível somente em inglês em mais de 170 países e regiões. A expectativa da companhia é ampliar o suporte de idiomas e disponibilidade em breve.
Commentaires