O impacto oculto da IA: o custo real de cada pergunta

Cada vez que você faz uma pergunta ou apenas agradece a resposta a uma dessas IAs mais populares, o seu mundo, o nosso mundo sofre impactos ocultos diversos, assunto que poucos conhecem e menos ainda falam a respeito.

Enquanto as pessoas se empolgam e testam a capacidade de manter conversas com máquinas que parecem humanas, uma infraestrutura gigantesca e faminta por recursos, funciona nos bastidores.

Nesse post, vamos falar disso e de outras questões relacionadas, como os custos invisíveis que sustentam as IAs e quais as consequências de ignorar esses impactos.

O que acontece quando você aperta "enter"?

Muita gente que tem usado algum desses grandes modelos de linguagem (LLMs ou Large Language Models) como o ChatGPT, DeepSeek, Gemini ou Copilot, muito provavelmente não tenha parado para pensar nas consequências de elaborar um prompt e apertar o “enter no teclado ou tocar na tela para enviar o comando, não é mesmo?

É natural, afinal quem usa um PC ou smartphone, faz isso inúmeras vezes ao longo do dia, todos os dias e durante anos. Tornou-se um gesto automático e natural.

Mas todas as vezes que interagimos – que pode ser apenas “Bom dia” – com uma IA, o que parece mágica, é na verdade o resultado de uma das cadeias logísticas mais complexas já construídas.

De modo bem resumido e simplificado, o processo envolve 4 etapas:

  • Etapa 1 (O front-end) – o texto do prompt é convertido em tokens (fragmentos de palavras) e criptografado para ser enviado ao LLM;

  • Etapa 2 (O envio) – os seus pacotes de dados viaja por cabos submarinos e redes terrestres até o data center mais próximo. Para usuários globais, a necessidade por baixa latência (tempo entre a entrada e a saída do comando), exige clusters (data centers em diferentes localidades que trabalham como se fossem uma única máquina gigante) distribuídos em múltiplos continentes;

  • Etapa 3 (A inferência) – nessa etapa é onde boa parte do trabalho acontece. A sua solicitação – ou apenas um “bom dia” ou “obrigado” – chega a um servidor equipado com várias GPUs, cada uma custando entre US$ 15.000 (L40S) e US$ 30.000 (H100). O modelo é carregado em uma memória HBM (High Bandwidth Memory) e inicia cálculos de probabilidade para prever, palavra por palavra, a resposta mais adequada;

  • Etapa 4 (O resfriamento) - durante o processamento acima, as GPUs geram calor extremo. Bombas de água refrigerada circulam para impedir que o silício derreta. Um data center de grande porte pode consumir algo como 20 milhões de litros de água por dia, o equivalente a uma cidade com dezenas de milhares de habitantes.

Mas conforme mencionamos, esse ciclo está bastante simplificado e há diversas outras variáveis envolvidas para que essa simples operação seja possível.

Imagine o ChatGPT, por exemplo. Ele não é como um software ou um serviço instalado em um servidor. É um modelo “fragmentado” em diferentes camadas distribuídas:

  • Camada de API / edge – servidores locais (edge computing) que recebem sua pergunta, traduzem-na em tokens e fazem cache de respostas comuns (fazem um ping no cluster mais próximo);

  • Camada de computação pesada – os clusters centrais (ex: Iowa, nos EUA) que rodam os modelos maiores quando os servidores locais não são capazes de processar o comando;

  • Camada de sincronia – aqui os clusters conversam entre si, utilizando cabos submarinos para atualizar versões do modelo simultaneamente.

Ou seja, quando você pergunta algo em português a partir de São Paulo, a camada da borda (edge) em SP processa sua requisição. Se for uma pergunta simples ("qual a capital do Brasil?"), a camada da borda responde direto. Se for algo mais complexo, ele encaminha para o cluster de inferência pesada, que pode estar em outro país e para garantir que a resposta seja tão rápida quanto possível, recorre à infraestrutura instalada.

Garantir que tudo isso funcione bem, requer também grande consumo energético e muitas vezes, também emissões de carbono.

As empresas que controlam modelos fechados (OpenAI, Google, Anthropic) não divulgam números a esse respeito, pois tratam a informação como “segredo comercial”. Porém, há dados disponíveis vêm de modelos open source e de estimativas indiretas, que em 2028 só a IA deverá consumir anualmente energia equivalente à de 22% das residências americanas.

Por que as IAs consomem tanto?

Nesse ponto, alguns devem se perguntar: “Os data centers já hospedam todos os sites existentes. Qual a diferença?”.

Diferente de um website, um LLM não entrega conteúdo armazenado, mas cria cada resposta do zero a partir do que o modelo de inteligência artificial aprendeu.

Vamos entender melhor isso?

A diferença entre treinamento e inferência

Quem não conhece muito a respeito, costuma imaginar que a etapa de aprendizado (machine learning e deep learning) e treinamento é quando mais se investe nesses grandes modelos de linguagem. De fato, muita atenção é dedicada nesses estágios em que o modelo "aprende".

Por exemplo, estima-se que só o treinamento do GPT-4 custou US$ 100 milhões para a OpenAI e exigiu 25.000 GPUs rodando por 90 dias consecutivos.

Mas o verdadeiro devorador de recursos, é a inferência, que resumidamente é o processo de produzir conclusões lógicas, interpretações ou deduções a partir de informações, evidências ou premissas conhecidas (treinamento).

Na inferência, são realizados bilhões de acessos ao dia, que demandam 128.000+ GPUs globais, ao custo aproximado de US$ 30-40k por GPU, em operação contínua.

Ou seja, servir um modelo grande exige 5x mais GPUs do que para treiná-lo. E enquanto o treinamento acaba, a inferência acontece 24/7, indefinidamente.

Em termos práticos e respondendo à pergunta sobre a diferença para um website, quando você acessa uma página, a programação do site busca um dado já pronto no banco de dados ou no disco do servidor, tal como folhear um livro. O trabalho pesado – de escrever o livro – já foi feito e, por isso, encontrar a informação é mais fácil e requer muito menos esforço.

Já um LLM fabrica a resposta do zero a cada pergunta. Não existe texto armazenado esperando pelas possíveis perguntas. Cada palavra é gerada em tempo real, com bilhões de cálculos matemáticos decidindo qual termo vem a seguir. É como ter um escritor em tempo real redigindo a página seguinte, sempre que a anterior é virada.

Os custos invisíveis que todo mundo paga

São muitos os recursos utilizados pelas IAs, mas os mais aparentes e que já vem produzindo impactos e preocupações, são a demanda por água, energia e componentes de hardware.

Consumo de água

Segundo um relatório da Unesco de 2025, os dados sobre o consumo de água para garantir a operação dos modelos de IA, são alarmantes. A projeção de consumo de água pela IA em 2027 deve ser entre 4,2 a 6,6 bilhões de m³, o que é mais do que consome toda a Dinamarca em um ano.

As estimativas indicam que o consumo global de água dos principais players de IA, como o Google, a Microsoft e a Meta, poderá triplicar até 2027. Isto não se limita apenas ao resfriamento da infraestrutura, mas também do uso da água na fabricação e construção de hardware destinado a IA, especialmente para arrefecer componentes eletrônicos durante a fabricação.

Não fosse suficiente, em regiões de escassez hídrica, a indústria de IA compete diretamente com agricultura e abastecimento para consumo humano. A UNESCO alerta: "a expansão da infraestrutura de IA compete com necessidades sociais críticas".

Energia elétrica

De acordo com um artigo do Los Angeles Times, em termos médios, uma consulta simples como “Qual a capital da França?”, feita a uma IA, consome 23 vezes mais energia elétrica do que uma busca no Google sem o “Modo IA”!

Se em vez disso for feita uma pergunta mais complexa, um LLM pode consumir 210 vezes mais energia do que uma pesquisa no Google sem IA. Um vídeo de três segundos, consome 15 mil vezes mais energia.

Devido ao conhecido Paradoxo de Jevons, segundo o qual os avanços tecnológicos que aumentam a eficiência no uso de um recurso tendem a aumentar o seu consumo total, em vez de diminuir, a evolução da inteligência artificial vai demandar cada vez mais recursos. De fato, já temos observado isso, pois a cada 100 dias, a demanda energética da IA dobra.

Em 2025, um bilhão de pessoas usaram IA generativa diariamente. Isso representa 310 Gwh/ano, o que equivale ao consumo anual de eletricidade de mais de 3 milhões de pessoas em países africanos de baixa renda.

E se esses dados não fossem suficientes para acender o alerta, a infraestrutura de fornecimento de energia renovável (hidrelétricas, eólicas ou solares) não acompanha a velocidade de construção dos novos data centers de IA, especialmente nos países onde eles estão mais concentrados.

O resultado, é que a maioria das novas instalações usa energia elétrica de usinas alimentadas por combustíveis fósseis e, portanto, emissões de carbono na atmosfera.

Componentes de hardware

Outro “ingrediente” dessa receita que tem produzido efeitos ainda mais imediatos, é o encarecimento de alguns componentes de hardware e já é possível sentir os impactos no bolso.

Se você andou pesquisando e fazendo cotações para adquirir seu próximo notebook, quem sabe um desktop, ou uma máquina gamer, deve ter notado que os preços estão em franca elevação, ou quando se mantém estáveis, o hardware está “enfraquecendo”.

Já não é fácil encontrar uma máquina intermediária com 32Gb de RAM e que dependendo do seu padrão de uso, em breve será o mais adequado. Em 2026, só os equipamentos mais caros dispõem dessa quantidade de memória.

E aqui os que conhecem mais sobre o assunto, vão questionar: “Mas os servidores dos data centers de IA, não usam os mesmos componentes dos PCs domésticos!”.

De fato não. Nem mesmo alguns dos componentes dos servidores “comuns”, também é verdade.

Acontece que a matemática nos negócios é implacável. Quando a indústria tem que escolher entre usar o silício e a sua infraestrutura para fabricar chips que podem chegar a dezenas de milhares de dólares cada um, ou uma memória de apenas algumas dezenas de dólares para um PC, em qual alternativa a escolha vai recair?

Ao consumidor doméstico, sobrou o resto. Com a escassez de componentes, é natural ver a escalada de preços.

O dilema da “educação digital”

É óbvio que mesmo diante dos fatos, ninguém vai deixar de usar as IAs. Elas vieram para ficar, querendo ou não, gostando ou não.

Mas é possível fazer um uso mais consciente.

Você cumprimenta o ChatGPT? "Bom dia! Tudo bem? Poderia me ajudar com…".

Se sim, saiba que isso tem custo ambiental. Isso porque quanto mais complexidade, mais extensão e mais contexto se inclui nas mensagens, mais processamento e tudo o que isso acarreta.

Experimentos da UNESCO que constam do mesmo relatório anteriormente mencionado, demonstraram que:

  • Respostas mais curtas consomem 54% menos energia. Quando combinadas com prompts concisos, a economia pode chegar aos 75%;

  • Modelos grandes são 50 vezes mais poluentes que modelos pequenos para tarefas simples.

Ou seja, usar uma arma nuclear para matar uma formiga não é só ineficiente e desnecessário, mas é ecologicamente criminoso.

E se você pensou que apenas ser mais objetivo no seu bate-papo com o Copilot ou Gemini, é pouco, a UNESCO propõe três iniciativas para conter, ainda que modestamente, a demanda por recursos:

  • Compressão de modelos (quantização) – essa é uma medida que cabe aos responsáveis pelas LLMs, por meio da redução de casas decimais dos cálculos efetuados. O resultado representaria uma economia de 44% de energia, mas ainda mantendo 97% de precisão nas respostas;

  • Prompts e respostas concisas – além do usuário elaborar prompts mais concisos e objetivos, sempre que possível optar pelas respostas rápidas, o que pode representar entre 54% e 75% menos energia e ao consumir menos energia, gera menos calor e consome menos água também ;

  • Modelos menores para tarefas simples – em vez de usar os grandes modelos, quando oportuno, recorrer a um SLM (Small Language Model), o qual consome 50x menos que um LLM para a mesma tarefa básica.

Ao combinar as três iniciativas, estima-se uma redução energética de 90%.

Se você apoia essa ideia, há algumas medidas que podem contribuir bastante:

  • Seja direto e seco com a IA – Não é necessário usar "por favor", ou "obrigado". A máquina não se ofende e não guarda mágoa e o planeta agradece;

  • Prefira buscas tradicionais – se for usar a busca do Google, acrescente “-ai” (sem aspas) ao final de pesquisas para evitar respostas generativas desnecessárias por parte da IA embutida na ferramenta de pesquisa;

  • Use IAs locais – quando disponíveis, os modelos rodando no próprio computador (via NPU) eliminam o custo do data center;

  • Evite geração de imagens por IA – uma imagem HD (alta definição) consome energia equivalente a carregar meio celular;

  • Elabore melhor as perguntas – uma única consulta bem elaborada gasta menos do que 10 perguntas iterativas sobre o mesmo assunto.

A UNESCO é clara sobre a importância da conscientização: "Os consumidores desconhecem esses custos e pouco tem sido feito para educá-los" .

Talvez o maior impacto que a IA ainda possa causar não venha de modelos mais inteligentes, mas de humanos mais conscientes.

Conclusão

Apesar de digital, a IA parece que tem corpo, sede e fome de energia. Entender que cada "obrigado" enviado ao chat consome recursos vitais do planeta, é o primeiro passo para um futuro sustentável. A tecnologia deve ser uma aliada da produtividade, mas o seu uso consciente é o que garantirá o equilíbrio e o futuro do nosso mundo.

Comentários ({{totalComentarios}})