Conhecendo o Google Gemini em 10 perguntas e respostas

O ano de 2023 deve ficar marcado nos livros de História, como sendo o do surgimento dos primeiros grandes modelos de Inteligência Artificial disponíveis para qualquer pessoa com acesso à Internet. E não poderia ter encerrado de outra maneira, graças a um nome que promete receber ainda muita atenção – o Google Gemini.

Para aqueles que têm ouvido e lido alguma coisa sobre os muitos exemplos e lançamentos de IA, mas que não se aprofundaram muito no assunto, devem estar perguntando: “Mais uma inteligência artificial?”.

Ou quem sabe, “o Google já não tinha lançado uma?”. Enfim, como mencionamos, o noticiário de TI foi amplamente dominado pelo assunto e estar a par de tudo a respeito, não é tarefa simples.

Mas se você quer ter respondidas essas e outras questões sobre o Google Gemini, acompanhe o que preparamos para você!

O que é o Google Gemini?

O Google Gemini – ou apenas Gemini, como tem sido chamado – foi lançado em dezembro de 2023 e consiste do novo modelo de linguagem generativo baseado em inteligência artificial, fruto da cooperação entre as equipes do Google DeepMind e Google Research.

Diferentemente do Google Bard, assim como de outros sistemas de IA, como o GPT-4 da OpenAI, por exemplo, o modelo no qual se baseia o Gemini foi desenvolvido desde o princípio para ser multimodal. Em outras palavras, ele tem melhor capacidade de compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagem, áudio e vídeo.

Não que o GPT-4 não possa também, mas os testes demonstram que o grau de eficiência nos resultados apresentados pelo Gemini, é superior ao seu concorrente mais “famoso”.

Gemini vs GPT-4

Tal como o Bard, o Gemini é classificado como sendo um modelo de linguagem grande (LLM ou Large Language Model) desenvolvidos pelo Google AI e que foi “ensinado” e treinado com base em um enorme conjunto de dados de texto (Big Data) e código, no processo que é conhecido como Deep Learning, com o objetivo de que seja capaz de gerar texto, realizar a tradução de conteúdos em diferentes idiomas, escrever diferentes tipos de conteúdos criativos, fornecer informações e responder responder a perguntas diversas.

10 respostas sobre o Google Gemini

Nesse ponto, quem sabe algo sobre o Bard, deve coçar a cabeça, afinal para que mais uma IA, certo? O Bard já não faz isso? Quais as diferenças?

Então vamos lançar um pouco de luz sobre as dúvidas que a maioria deve ter a respeito, quando o tema vem à tona.

1. Quais as diferenças entre o Bard e o Gemini?

Apesar de ambos serem grandes modelos de linguagem (LLMs) desenvolvidos pelo Google, existem algumas diferenças importantes e perceptíveis logo de cara, entre eles:

  • Segundo o Google, o Bard é um modelo de linguagem factual e o Gemini é um modelo generativo e que na prática implica que o primeiro é mais adequado na obtenção de resumos e tópicos relevantes sobre fatos. Já o segundo, é mais orientado à criação de conteúdos originais, como poemas, código, scripts, peças musicais, e-mails, cartas, como o responsável pelo Gemini exemplifica;

  • As diferenças no treinamento e aprendizado de ambos, fica evidente na capacidade do Gemini de gerar imagens realistas, algo que o Bard não possui;

  • Também como consequência do processo de aprendizado e treinamento (multimodal), o Gemini é capaz de fornecer soluções para problemas mais complexos que o Bard e questões que envolvem diferentes disciplinas;

  • Como consequência direta dos pontos acima, o Bard é destinado ao público em geral e para assuntos quotidianos ou mais genéricos e acessível gratuitamente. Já a proposta do Gemini, é para desenvolvedores e empresas, sendo que o seu acesso e uso nessas condições, deve ser pago.

2. O Gemini substituirá o Bard?

Não, o propósito não é que o Gemini substitua o Bard.

De acordo com as informações do Google, desde dezembro / 2023, o Bard passou a usar uma versão especificamente ajustada do Gemini Pro em inglês, que deve aprimorar questões envolvendo raciocínio, planejamento e compreensão de linguagem natural.

Essa é a maior atualização do Bard, que inicialmente era baseada no LaMDA (Language Model for Dialogue Applications) e, posteriormente, recebeu uma atualização para o sistema PaLM 2 (Pathways Language Model versão 2).

A princípio, o Bard “anabolizado” com o Gemini Pro, só aceita comandos baseados em texto e no idioma inglês, mas as entradas multimodais (áudio, vídeos e imagens) devem se tornar disponíveis em breve. Os planos são oferecer o acesso a 170 países e em pelo menos 38 idiomas, de modo gradativo.

3. Quais as versões do Gemini?

A mais nova inteligência artificial inicialmente estará disponível em três versões:

  • Nano – para uso em smartphones, como no caso do Google Pixel 8 Pro. Ele foi desenvolvido para funcionar mesmo quando não há conexão com a Internet, executando ações como sugestão de respostas em aplicativos de bate-papo ou resumir textos ou até áudio;

  • Pro – é a mesma versão que passou a ser disponibilizada no Bard e é destinada rodar uma ampla gama de tarefas e atender a usuários finais. Executada a partir dos data centers do Google, deve ser capaz de melhorar a eficiência do robô “conversador” na entrega das respostas, bem como dotá-lo da capacidade multimodal;

  • Ultra – é a maior e mais poderosa das três versões, destinada para tarefas altamente complexas, deve ser acessível inicialmente por intermédio do Bard Advanced, destina-se a ser capaz de compreender e entregar resultados com base em diferentes tipos de informações (texto, imagens, áudio, vídeo e código de programação).

4. Quais as linguagens o Gemini pode gerar?

Como foi dito, um dos públicos do Gemini, são os desenvolvedores, o que pressupõe sua capacidade de lidar com determinadas linguagens de programação.

Na sua primeira versão, o modelo de IA é capaz de interpretar, gerar e explicar código complexo e de alta qualidade, em uma variedade linguagens de programação, com base em sua popularidade e utilidade, como Python, Java, C++ e Go.

Mas também é capaz de sistemas de codificação mais avançados, como AlphaCode 2, um sistema de geração de código de IA, que se destaca na solução de problemas de programação, envolvendo matemática complexa e teoria da ciência da computação.

5. O que é a API Gemini?

Ainda com foco em desenvolvimento, aqueles que desejarem aproveitar o modelo de IA, podem dispor da API Vertex AI Gemini, a qual é disponível por meio do Google Cloud e o Gemini Pro por meio da API Gemini no Google AI Studio, a ferramenta de desenvolvimento gratuita e baseada na web.

6. Por que o Gemini é melhor?

A chave do conceito por trás do Gemini, é treinamento multimodal da IA.

Nos modelos de IA predominantes até então, o treinamento / aprendizado envolvia tratar cada um dos componentes separadamente, para depois juntá-los para imitar algumas dessas funcionalidades.

Imagine um texto que descreve como deve ser uma cadeira básica. Por mais detalhado que seja, imaginar a cadeira – especialmente para quem nunca viu uma – pode ser um desafio, mas que se torna bastante mais simples quando além da explicação, há imagens e até vídeos de exemplos.

Em termos práticos, significa que a IA pode compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagem, áudio e vídeo, bem como “raciocinar” melhor sobre todos os tipos de informações desde o início, com maior nível de complexidade, trabalhar sobre temas mais conceituais e identificar conhecimentos que podem ser difíceis de discernir em meio a grandes quantidades de dados.

Resumindo, a nova IA “entende” melhor uma variedade maior de entradas e também entrega saídas melhores e mais variadas.

7. Como acessar o Gemini Ultra?

Por ocasião da publicação desse conteúdo, o Gemini Ultra ainda não está disponível, devido à etapa de verificações de confiança e segurança, que inclui entre outras coisas, aprendizagem por reforço a partir de feedback humano (RLHF, na sigla em inglês) antes de implementá-lo em definitivo.

Atualmente o Gemini Ultra só é acessível para clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade, que foram especialmente selecionados para experimentação e fornecer feedback sobre seus resultados.

Deve-se ter ainda no primeiro trimestre, em data ainda não informada, o Bard Advanced, que conforme informamos será uma das vias de acesso ao Gemini Ultra.

8. Como testar / usar o Gemini?

O Gemini Pro já está disponível / acessível por meio do Bard desde dezembro de 2023.

No entanto, só é possível experimentá-lo e constatar do que é capaz, no idioma inglês e o cronograma de outros idiomas ainda não foi oficialmente divulgado.

Para testar, primeiro é necessário ter e estar logado a uma conta do Google. Cumprindo esse requisito essencial, siga os passos abaixo:

  • Acesse no seu navegador google.com.br;

  • No canto superior direito, clique na sua imagem de perfil e, então, aperte "Gerenciar Conta Google";

  • Na página que é exibida, clique no item do menu "Informações pessoais";

  • Role a página e localize "Preferências gerais para a Web" e clique em "Idioma";

  • Altere a língua para "Inglês" e clique em “Salvar”;

  • Em uma guia do navegador, digite “https://bard.google.com/” (sem as aspas);

  • Caso você não tenha usado o Bard anteriormente, clique em "Teste o Bard agora mesmo".

9. Qual o futuro do Gemini?

Quando se conhece apenas um pouco de como funciona a Internet e a gama de serviços digitais de que dispomos atualmente, fica fácil perceber que a inteligência artificial é cada vez mais parte integrante de tudo. Bem antes do Gemini ou do Bard, ela já estava presente em muitos algoritmos.

Mas a medida que modelos mais poderosos e sofisticados se tornam realidade, é de se supor que eles substituam e sejam integrados a praticamente tudo, o que já vem sendo feito por diferentes empresas, como é o caso da Microsoft com o Copilot no Windows.

Segundo o próprio Google, em breve o Gemini estará disponível em mais produtos e serviços, como a Busca, Google Ads, Chrome e Duet AI. Ou seja, embora não

10. O Gemini será pago?

Inicialmente e nessa fase de “lançamento”, o acesso e uso do Gemini é gratuíto. Porém, segundo o Google, haverá pacotes oferecidos a “preços competitivos”.

Os valores, que ainda não foram divulgados oficialmente, compreendem a quantidade de caracteres / imagens / tempo de áudio e vídeo que são submetidos no prompt de entrada, bem como o mesmo para a saída / resposta.

Em outras palavras, quanto mais dados são fornecidos na solicitação e quanto mais são devolvidos como resposta, mais se paga.

Conclusão

O Gemini é mais um passo importante que o Google dá na acirrada batalha das inteligências artificiais e sua integração no mundo digital.

Comentários ({{totalComentarios}})