Conhecendo as IAs brasileiras, Sabiá-2 e Amazônia IA
Para quem pensa que só há “vida inteligente” para além das fronteiras brasileiras, engana-se...
Sim, porque o Brasil já tem gente trabalhando e entregando nossas próprias soluções de Inteligência Artificial!
No bate-papo de hoje, você vai conhecer os grandes modelos de linguagem brasileiros (LLM ou Large Language Model), Sabiá-2 e Amazônia IA.
O surgimento das IAs brasileiras
Para além da proposta do primeiro Plano Brasileiro de Inteligência Artificial (PBIA), que entre outras coisas prevê a compra de um supercomputador e investimentos de até R$ 23 bilhões em quatro anos, bem como o importante objetivo fomentar o desenvolvimento e a aplicação ética e sustentável da inteligência artificial no país, já há iniciativas individuais conduzidas por alguns centros de pesquisa e startups.
Ganharam destaque em 2024 e espaço nos blogs e sites de tecnologia, as startups brasileiras Maritaca AI e WideLabs, responsáveis pelos primeiros modelos de linguagem genuinamente brasileiros.
Ambos já contam com chatbots (robôs de conversação) gratuitos e que mostram do que são capazes.
A MariTalk, é o chat de conversação da IA Sabiá-2, criada pela Maritaca AI. O modelo foi lançado em 13/03/2024 e foi o primeiro LLM especializado em português.
Já o robô da Amazônia IA, é o chat da inteligência artificial de mesmo nome e que foi desenvolvida pela WideLabs, oficialmente lançada em 30 de julho na 5ª Conferência Nacional de CT&I (ciência, a tecnologia e a inovação) e tal como o Sabiá-2, também é um LLM especializado em português.
Mais do que apenas constituírem modelos de IA próprios e desenvolvidos no país, Sabiá-2 e Amazônia IA, foram treinados primariamente com textos em português brasileiro. Isso permite que ambos os modelos sejam capazes de lidar com as nuances linguísticas, gírias e expressões idiomáticas próprias do Brasil.
Além disso, o conteúdo produzido é mais contextualizado e completo quando o tema é essencialmente local, como por exemplo, receitas típicas ou assuntos regionais.
Os conjuntos de dados usados no processo de aprendizagem (Machine Learning) e treinamento, foram prioritariamente fontes de dados brasileiras das mais diversas, da própria Internet, mas também livros da nossa literatura, artigos acadêmicos de universidades brasileiras e entre vários outros conjuntos de dados (datasets) locais.
Como resultado, as IAs são capazes de compreender melhor os prompts em português, incluindo o variado vocabulário regional, além de responder questões relacionadas com a cultura brasileira, de modo mais preciso e com mais profundidade.
Tanto a Maritaca AI, como a WideLabs, fazem questão de destacar que a privacidade dos usuários é uma prioridade, seguindo rigorosamente as diretrizes de segurança legais nacionais, como o cumprimento da LGPD, bem como adotando boas práticas das regulamentações internacionais.
Os dados são protegidos e não são utilizados para treinamento de modelos e tampouco são divulgados, sendo apagados permanentemente após seu uso.
Sabiá-2: O LLM de Inteligência Artificial da Maritaca.ai
A Maritaca AI – fundada em 2022 por Rodrigo Nogueira, engenheiro e cientista da computação, junto com pesquisadores do núcleo de estudos em inteligência artificial da Unicamp – é uma empresa brasileira dedicada à pesquisa e desenvolvimento de IA, responsável pelo lançamento em Março/24, do modelo nomeado de Sabiá-2.
O Sabiá-2 foi desenvolvido por Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira e Ramon Pires, visando criar um modelo de linguagem que não apenas compreende profundamente o idioma português, mas também é capaz de gerar textos coerentes, criativos e informativos nativamente no nosso idioma, sem que seja necessária qualquer tipo de tradução no front ou backend, como fazem o chatGPT, o Google Gemini, ou outros disponíveis na Web.
Características do Sabiá-2
O primeiro LLM da Maritaca AI, o Sabiá-2, está disponível nas versões Small e Medium, as quais permitem aos usuários, escolher o modelo mais adequado às suas necessidades.
Em 15/07/2024 também ficou disponível o acesso ao modelo Sabiá-3, cujas diferenças em relação ao Sabiá-2, ainda não foram oficialmente informadas por ocasião desse post.
Independente da versão escolhida, a IA da Maritaca AI, tem como características principais:
-
Baseada no modelo Transformers, uma arquitetura de rede neural para tarefas de processamento de linguagem natural (PLN), o que favorece o processamento e geração mais preciso e eficiente da linguagem;
-
Preocupação com uso de instruções para garantir respostas precisas, éticas e alinhadas com os "valores humanos" e evitando respostas ofensivas, inadequadas ou que causem desinformação;
-
Inicialmente utilizava modelos pré-treinados estrangeiros como base, adaptando-os para o português brasileiro, mas as versões mais recentes são totalmente proprietárias, criadas e treinadas no Brasil;
-
A Maritaca AI recebeu apoio do Google sob a forma de equipamentos e poder de processamento computacional;
-
Testes realizados em português (Enem, Enade, e os vestibulares da USP e da Unicamp), mostraram que o Sabiá 2 teve desempenho superior aos modelos GPT 3.5 Turbo da OpenAI e Gemini 1.0 Pro do Google e só ficou atrás do Chat GPT-4 Turbo e do Claude 3 Opus, da Anthropic;
-
O MariTalk – robô de conversação do Sabiá – está disponível aos usuários finais gratuitamente, digitando-se https://chat.maritaca.ai/ em um navegador web e escolhendo ingressar por uma conta Google ou Apple;
-
A API MariTalk permite usar os modelos Sabiá, por meio de linguagem Python, pagando um valor proporcional à quantidade de tokens enviados (prompt) e gerados;
-
Há também versões pagas, as quais pode ser hospedada localmente, garantindo maior segurança e a privacidade total dos dados processados pelo sistema;
-
Apesar do treinamento ter envolvido uma grande quantidade de dados públicos em português, o modelo também possui capacidade de desempenhar tarefas em Inglês e Espanhol;
-
Os modelos rodam em GPUs de plataformas de cloud computing da Oracle Cloud, Amazon AWS e Google Cloud. O treinamento é majoritariamente feito em TPUs na Google Cloud;
-
A coleta e curadoria de dados em português brasileiro, incluiu textos de jornais e revistas brasileiras, documentos governamentais, transcrições de programas de TV e podcasts, livros de autores brasileiros, além de conteúdo de redes sociais e blogs.
Amazônia IA: O LLM de Inteligência Artificial da WideLabs
A WideLabs, uma empresa de tecnologia de Porto Alegre, desenvolveu um large language model (LLM), conhecido como Amazônia IA e que é um dos primeiros nativos em português brasileiro.
Tal como o Sabiá, o Amazônia IA foi inteiramente concebido e desenvolvido por pesquisadores brasileiros, desde a arquitetura do modelo até a seleção dos dados de treinamento, com foco nas necessidades e peculiaridades do mercado brasileiro.
Fundada por Nelson Leoni, a WideLabs reuniu uma equipe multidisciplinar de pesquisadores, engenheiros e cientistas de dados para enfrentar o desafio de desenvolver um LLM brasileiro do zero.
Características da Amazônia IA
O modelo Amazônia IA pode fornecer um contexto mais específico sobre questões envolvendo a “cultura brasileira”.
Por exemplo, é possível fazer à inteligência artificial perguntas como “quais as festas regionais mais populares do Brasil?” ou “quais os hábitos alimentares do brasileiro?”. Além disso, o usuário pode obter informações sobre legislação, obras literárias, cultura brasileira, pesquisas científicas locais, entre diversos assuntos nacionais.
As principais características da Amazônia IA, são:
-
A WideLabs contou com parcerias estratégicas e essenciais com a Nvidia (fornecendo as GPUs H-100) e com a Oracle (infraestrutura de nuvem para hospedar e executar o modelo), visto que esses são considerados gargalos no desenvolvimento de modelos do tipo;
-
A versão básica da inteligência artificial é grátis. Para acessá-la, basta digitar a URL https://plataforma.amazoniaia.com.br/ no navegador. Quem ainda não tem uma conta, basta fazer um breve cadastro com nome, e-mail e data de nascimento ou se preferir, usar uma conta Google ou Apple;
-
No treinamento do modelo Amazônia IA, foram usadas fontes de dados brasileiras variadas, como artigos acadêmicos de universidades brasileiras, documentos governamentais e legislação, literatura brasileira, incluindo obras clássicas e contemporâneas, artigos de jornais e revistas nacionais, transcrições de programas de TV e rádio brasileiros, conteúdo de redes sociais e blogs em português;
-
O treinamento aconteceu ao longo de um ano, combinando bases de dados públicas do Brasil e do exterior, além de dados privados protegidas por direitos autorais, mas cuja autorização de uso foi obtida pela WideLabs, bem como bases de dados sintéticos em português;
-
Haverá o lançamento de uma versão premium, sem data divulgada, para assinantes, com mais funcionalidades e o LLM, será disponibilizado para desenvolvedores por meio de uma API;
-
O chat tem janela de contexto de 64k. Em termos comparativos, o ChatGPT por exemplo, tem janela de contexto de 280k, o que permite que tenha mais capacidade para informações. No entanto, os 64K do modelo devem ser suficientes para muitas interações;
-
A empresa pode receber receber um aporte financeiro do Ministério da Ciência, Tecnologia e Inovações, caso consiga fazer com que sua plataforma de IA generativa se torne uma ferramenta de uso do governo.
Conclusão
Com Sabiá-2 e Amazônia IA, o usuário brasileiro conta com modelos de inteligência artificial especializados em resultados em português e temas nacionais.