Inteligência Artificial

Bots de inteligência artificial, bloquear ou não?

Se você tem um típico site de conteúdo, um blog repleto de postagens, ou outros tipos de conteúdos ricos em termos de informações, alguma vez pensou que você está ajudando outras empresas a ganhar dinheiro e até a “concorrer” com a sua?

Sim, isso mesmo!

Quer entender como o conteúdo que você produz tem ajudado outros que não são os seus clientes finais e pode estar até minando suas receitas?

Então atenção ao bate-papo de hoje!

O polêmico treinamento das IAs generativas

A questão não é nova e há muito tempo tem se falado sobre a ética nas práticas adotadas por diferentes startups de tecnologia e Big Techs no treinamento dos seus modelos de inteligência artificial generativa, que estão surgindo todos os dias.

Para citar apenas dois casos que ganharam grande repercussão, temos as polêmicas envolvendo a Meta (dona do Facebook, Instagram e WhatsApp) e a Perplexity.

No caso da Meta, foi aberto um processo contra a empresa, nos Estados Unidos, sob a acusação de que no treinamento do Llama (seu modelo de inteligência artificial), foram utilizados mais de 80 terabytes de dados, obtidos de fontes como LibGen, LibTorrent e Z-Library, que são bibliotecas online de distribuição ilegal de conteúdo, via protocolo torrent. Em outras palavras, foi utilizado conteúdo protegido por direitos autorais e, portanto, sem a devida autorização dos seus detentores.

Quanto à Perplexity, responsável pela Perplexity AI, a empresa foi acusada pela Forbes e Condé Nast (responsável pelo Wired, Ars Technica, entre outros) de ignorar as configurações do arquivo robots.txt, fazendo uso de endereços IPs rotativos, spoofing (disfarçar-se como outros navegadores), para assim acessar conteúdos protegidos e sites sem autorização.

Se você está se perguntando, “mas, e daí?”, saiba que se algum site que você administra e mantém, possui conteúdo útil, ele pode estar sendo usado para “alimentar” o treinamento desses e de outros LLMs (Large Language Models ou Grandes Modelos de Linguagem), como essas IAs também costumam ser referidas.

Caso ainda não tenha ficado claro, com o avanço e popularização dessas IAs, cada vez menos os internautas acessam os sites que antes usavam para obter informações e em vez disso, recorrem aos chatbots de IA.

Resumindo, se a sua estratégia era atrair clientes em potencial (Inbound Marketing) por meio dos conteúdos que você investe tempo, conhecimento, experiência e muitas horas trabalhadas, tudo isso tem sido usado por terceiros para lucrar – e como lucram! – e se não fosse tudo, ainda diminuem o fluxo de visitantes no seu site.

Em um mundo onde dados são o novo petróleo, talvez esteja na hora de decidir se você quer continuar abastecendo os tanques alheios, ou se quer proteger seu patrimônio digital.

Por que bloquear bots de IA?

O primeiro grande motivo para bloquear os robôs de inteligência artificial, já esclarecemos no tópico anterior e em muitos casos, já seria bastante.

Mas há ainda outras boas justificativas para bloquear os bots de IA:

Sobrecarga – poderá haver uma alta demanda dos bots no seu servidor web, já que a visitação por parte dos seus agentes, pode afetar diretamente a velocidade de carregamento das páginas, por excesso de requisições, por exemplo e do que mais houver hospedado no seu servidor;
Custo de hospedagem – a depender do impacto do aspecto anterior, pode haver influência no custo da hospedagem, como por exemplo, a necessidade de um plano personalizado para que o site comporte o tráfego excessivo gerado;
Busca orgânica – a popularização dos chatbots como fonte de informação, pode reduzir o tráfego oriundo das buscas orgânicas, afetando os sites que têm alta dependência do trabalho de SEO. Como consequência, menos cliques, nos resultados;
Publicidade – se sua empresa recorre à publicidade online, a diminuição no tráfego orgânico pode significar menos impressões e cliques em anúncios, prejudicando as campanhas de tráfego pago;
Conversão – a taxa de conversão ainda deve ser a mesma, porém a conversão final cai devido ao menor número de visitantes e menor geração de leads;
Tempo na página – o tempo de permanência nas páginas e no site, também devem ser negativamente afetados, pois agora os usuários podem encontrar mais facilmente o que buscavam usando o prompt dos chatbots;
SEO – consequência direta de alguns fatores acima (sobrecarga, busca orgânica e tempo na página), aliado aumento de conteúdos criados por IAs, a eficiência do trabalho de SEO pode ser menor, devido à saturação dos buscadores com textos similares, dificultando a diferenciação de conteúdo original;
Engajamento – outro impacto decorrente de alguns pontos acima, é o menor engajamento produzido, que pode afetar métricas de qualidade do site e, por consequência, o ranqueamento;
Propriedade intelectual – a coleta de conteúdo original (textos, imagens, dados) para treinar modelos de IA sem consentimento, levanta questões legais e éticas sobre uso indevido de propriedade intelectual;
Concorrência – as empresas concorrentes podem usar bots de IA para extrair dados estratégicos (preços, descrições, avaliações) e alimentar seus próprios sistemas ou modelos;
Privacidade e compliance – sites que lidam com dados sensíveis ou regulamentados (como dados de usuários) podem correr riscos à privacidade e compliance, caso os bots acessarem áreas não públicas ou coletarem informações inadvertidamente, com implicações em leis como LGPD, GDPR, etc.

Por que não bloquear bots de IA?

Nessa altura do nosso bate-papo, muitos devem estar convencidos que não permitir que as inteligências artificiais generativas, façam Web Scraping (raspagem da Web) em seus conteúdos, é a melhor decisão, não é?

Mas é preciso calma e serenidade, porque o debate é complexo e envolve outros fatores que precisam ser considerados:

Tráfego indireto – alguns bots de IA citam, fazem referencias e até incluem links para o seu conteúdo em algumas respostas aos usuários, o que constitui tráfego indireto, reconhecimento de marca ou ajudam a constituir autoridade tópica, especialmente se o conteúdo for atribuído corretamente;
Visibilidade – alguns assistentes de IA (como Gemini, Perplexity, Bing AI) usam dados indexados por mecanismos de busca. Bloqueá-los pode reduzir a visibilidade dos conteúdos do seu site;
Impacto no SEO – alguns bots de IA – e em especial o Googlebot – compartilham os dados que coletam com buscadores para indexação dos resultados da busca e, sendo assim, ao bloqueá-los, afetará a indexação por mecanismos de busca importantes, se o procedimento de restrição não for bem configurado;
Eficiência – alguns métodos de bloqueio não garantem total eficiência, pois os bots maliciosos podem contornar essas barreiras. Logo, o esforço para bloquear, pode não compensar se não houver impacto significativo no seu tráfego ou na monetização que o site produz;
Parcerias e monetização – algumas empresas de IA fazem acordos com alguns sites para licenciamento de conteúdo (ex: OpenAI e The Associated Press, Axel Springer e outras). Fechar as portas aos bots pode significar perder oportunidades de receita extra;
Papel social – se o seu site tem conteúdo educativo, de caráter científico ou de utilidade pública, permitir que IAs acessem suas informações pode contribuir para melhorar a precisão das respostas dos assistentes virtuais e ainda contribuir para aumentar sua autoridade nos temas relacionados;
Melhora da experiência do usuário – determinadas ferramentas de IA também são usadas para criar resumos, gerar metadados e outros elementos que melhoram a forma como seu conteúdo é exibido em buscadores e redes sociais e assim, um bloqueio restringirá essa apresentação e impactará negativamente a experiência do usuário;
Passado – esse é um argumento importante e que não deve ser ignorado, uma vez que a eventual restrição, não tem efeito sobre os dados que os robôs já coletaram. Somente os conteúdos novos e os que sofrerem atualização, deixarão de serem utilizados, algo útil apenas para sites que geram volumes importantes de informação, ou para sites novos.

Ou seja, o bloqueio indiscriminado de robôs de IA pode prejudicar a visibilidade, a acessibilidade e o alcance do seu site. Bloquear ou não bloquear, não deve ser encarada como uma decisão rígida e única. É uma escolha estratégica que depende de vários aspectos, como o tipo de conteúdo, do seu modelo de negócio, dos objetivos do site e até do perfil do público que se pretende alcançar.

Cada caso, é um caso!

Como bloquear os bots de IA?

Se, após avaliar os prós e contras, você decidir que bloquear bots de IA é o melhor caminho para preservar o seu trabalho, existem algumas ferramentas e métodos que podem ser utilizados.

É importante destacar que o nível de eficiência e a complexidade de cada abordagem podem variar conforme o tipo de site, a infraestrutura utilizada e os objetivos da sua presença digital.

Por isso, vamos apenas apresentar os principais recursos disponíveis, sem nos aprofundar em aspectos técnicos pois isso envolve conhecer a sua infraestrutura de hospedagem. Se for o caso, é indicado buscar auxílio técnico especializado e/ou suporte do seu hosting.

1. Bloqueio via robots.txt

Para quem não está familiarizado, o robots.txt é um arquivo de texto simples que deve ser armazenado na pasta raiz do site (ex: www.meusite.com.br/robots.txt). Ele segue uma convenção específica de escrita e serve para fornecer instruções a quaisquer robôs de internet (web crawlers) que acessam o site.

Esse é o método mais simples e rápido na tarefa de tentar restringir o acesso de bots, mas sua eficiência é limitada e incerta. Isso porque:

Nem todos os bots respeitam e alguns simplesmente ignoram as instruções contidas no robots.txt, especialmente os maliciosos ou não colaborativos;
Alguns bots podem contornar o bloqueio utilizando user-agents alternativos ou disfarçados com outros nomes;
Não se conhece os nomes de todos os user-agents utilizados pelos LLMs mais populares;
O arquivo não impede o acesso ao conteúdo em si, apenas solicita que ele não seja rastreado.

O bloqueio é feito por meio da identificação do user-agent do bot e da diretiva “disallow”, que indica quais partes do site não devem ser acessadas.

User-agent: GPTBot
Disallow: /

No exemplo acima, a instrução diz ao bot da OpenAI (GPTBot) para não acessar nenhuma página do site.

Embora seja uma ferramenta útil para sites que desejam sinalizar restrições de acesso, não pode ser encarada como uma medida definitiva.

Caso ainda assim, seja considerada como uma opção viável, eis os nomes dos principais user-agents, sendo que é necessário criar as declarações para todos que desejar incluir:

GPTBot – principal rastreador da OpenAI, usado para coletar dados públicos da web para treinar seus modelos, como o GPT-4o;
OAI-SearchBot – utilizado para indexar páginas para recursos de pesquisa em tempo real do ChatGPT;
ChatGPT-User – um agente de IA que busca conteúdo de URLs compartilhadas diretamente pelos usuários no ChatGPT;
Googlebot – é o rastreador principal do Google, usado para indexar páginas para a pesquisa do Google. Embora não seja exclusivamente um "bot de IA", ele é a base para muitos dos sistemas de IA do Google;
Anthropic-ai – trata-se do rastreador geral da Anthropic para coletar dados para o desenvolvimento do modelo Claude e para a sua ferramenta de busca;
ClaudeBot – esse bot é também da Anthropic e é utilizado especificamente para buscar URLs que são citadas durante uma conversa com o Claude;
PerplexityBot – conhecida por seu mecanismo de busca e respostas baseadas em IA, a Perplexity tem um rastreador dedicado, visando indexar sites e construir seu motor de busca de IA;
FacebookBot – esse é o rastreador da Meta (antigo Facebook), usado para coletar informações de links compartilhados na plataforma e para alimentar sistemas internos de IA;
Amazonbot – a Amazon usa esse user-agent para rastrear sites da web e coletar dados para seus serviços e para a busca na plataforma;
Bytespider – a ByteDance, empresa dona do TikTok, nomeia seu robô como Bytespider. Ele é uma parte fundamental da estratégia da empresa para coletar informações e treinar seus algoritmos de recomendação e outros sistemas de IA;
CCBot – esse é um rastreador da Common Crawl, uma organização sem fins lucrativos, que cria e mantém um enorme arquivo de dados da Web. Esses dados são usados por pesquisadores e desenvolvedores para treinar modelos de IA;
ExaBot – a Exa, uma startup de IA, tem seu próprio rastreador usado para construir seu banco de dados de pesquisa;
Diffbot – pertence a uma plataforma de inteligência artificial especializada em extrair, analisar e estruturar dados da web automaticamente, simulando a forma como um ser humano visualiza e interpreta páginas. Ele é usado para web scraping profundo.

2. Meta tags

As tags meta de controle de indexação, são instruções inseridas diretamente no código HTML de uma página, com o objetivo de orientar mecanismos de busca sobre como devem tratar o respectivo conteúdo.

Elas são especialmente úteis quando se deseja controlar a indexação ou o rastreamento de páginas específicas, sem depender do arquivo robots.txt.

A mais comum é a tag robots, que pode conter diferentes diretivas:

<meta name="robots" content="noindex, nofollow">

Essa configuração indica que:

noindex – a página não deve ser incluída nos resultados de busca;
nofollow – os links presentes na página não devem ser seguidos pelos bots.

Outras combinações possíveis incluem:

index, follow – permite indexação e rastreamento (padrão);
noindex, follow – impede a indexação, mas permite que os links sejam seguidos;
index, nofollow – permite indexação da página, mas não dos links.

Entretanto, é preciso estar ciente que:

Tal qual ocorre com o bloqueio via robots.txt, essas tags dependem da boa conduta dos bots. Os maliciosos ou não colaborativos podem simplesmente ignorá-las;
Elas só funcionam se inseridas corretamente no <head> do HTML da página;
O procedimento tem que ser feito em página por página;
Não bloqueiam o acesso ao conteúdo, apenas orientam sobre como ele deve ser tratado.

3. Configurações no servidor – .htaccess

O presente método de bloqueio requer um conhecimento técnico um pouco maior do que os anteriores e consiste em criar regras para impedir o acesso, editando o arquivo .htaccess, para aqueles que usam um servidor Apache.

Da mesma forma que no caso do robots.txt, é necessário conhecer os nomes dos user-agents e, portanto, quando utilizarem outros nomes ou não saber um em especial, a medida se torna ineficaz. Por outro lado, se o nome for idêntico, o servidor web entrega um erro, em vez do conteúdo da página.

Adicione as seguintes regras ao arquivo .htaccess na raiz do seu site:

<IfModule mod_rewrite.c>
    RewriteEngine On

    # Bloquear GPTBot (OpenAI)
    RewriteCond %{HTTP_USER_AGENT} GPTBot [NC]
    RewriteRule ^ - [F,L]

    # Bloquear Claude AI (Anthropic)
    RewriteCond %{HTTP_USER_AGENT} anthropic-ai [NC]
    RewriteRule ^ - [F,L]

    # Bloquear Google-Extended (Google AI)
    RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC]
    RewriteRule ^ - [F,L]

    # Bloquear PerplexityBot
    RewriteCond %{HTTP_USER_AGENT} PerplexityBot [NC]
    RewriteRule ^ - [F,L]

    # Bloquear CCBot (Common Crawl)
    RewriteCond %{HTTP_USER_AGENT} CCBot [NC]
    RewriteRule ^ - [F,L]

    # Bloquear Diffbot
    RewriteCond %{HTTP_USER_AGENT} Diffbot [NC]
    RewriteRule ^ - [F,L]
</IfModule>

Com as instruções acima, a primeira linha é responsável por verificar o user-agent da requisição, ignorando maiúsculas e minúsculas (case-insensitive) e a segunda linha, retorna um erro de servidor “HTTP 403 Forbidden” e encerra a regra.

4. CAPTCHAs e desafios de verificação

Os agentes que raspam conteúdo ou tentam acessar áreas restritas, não são especializados em resolver desafios visuais ou lógicos complexos, especialmente se exigirem interpretação que ultrapassa simples OCR (Reconhecimento Óptico de Caracteres) e por isso, introduzir um CAPTCHA ou algum tipo de desafio, pode barrá-los.

A seguir algumas alternativas que podem surtir o efeito desejado:

ReCAPTCHA v2 – contém os “famosos” botões de "Não sou um robô", somados a validações visuais e tem boa eficiência no bloqueio;
ReCAPTCHA v3 – apesar de não exigir uma interação, apenas avaliando o comportamento do “visitante”, tem uma aceitável eficiência em alguns cenários;
Seleção de imagens – o tradicional desafio de escolher imagens que correspondem a objetos determinados, funciona razoavelmente na contenção dos bots;
CAPTCHA de tempo – considera o padrão de tempo de interação médio de usuários humanos, para identificar um robô, mas não é tão certeiro como os métodos anteriores;
Invisible CAPTCHA ou honeypots invisíveis – baseia-se no princípio de inclusão de campos ocultos que usuários humanos não enxergam e, portanto, não interagem, mas os agentes sim e, por essa razão, é um meio excelente para flagrar automatismos.

No entanto, é importante destacar que CAPTCHAs devem ser usados com moderação para não prejudicar a experiência do usuário humano. O ideal é aplicá-los em áreas críticas ou após comportamentos suspeitos, como múltiplas requisições em pouco tempo.

5. Bloqueio por IP ou geolocalização

Uma forma eficaz de restringir acessos indesejados é o bloqueio por IP ou por região geográfica.

Essa abordagem é útil quando se identifica que os agentes automatizados estão operando a partir de ranges de IP específicos ou até mesmo de países que não fazem parte do público-alvo do site. Particularmente nesse caso, essa medida também contribui para a segurança do site em outras situações, como tentativas de invasão.

Há algumas diferentes forma de instituir esse tipo de bloqueio:

Lista negra de IPs – bloqueia diretamente os ranges de endereços IP conhecidos por atividades maliciosas ou suspeitas. Pode ser feita manualmente e temos um tutorial de como “bloquear acessos de IP de outros países via .htaccess”;
Lista branca de IPs – permite acesso apenas a IPs previamente autorizados. Ideal para sistemas internos ou áreas restritas ou quando há muitos ranges que se queira bloquear, tornando a lista negra extensa demais. Nessa abordagem, escolhe-se o que se quer autorizar, em vez do que bloquear;
Bloqueio por país / região – com base na geolocalização do IP, é possível impedir acessos de determinadas localidades. Ferramentas como GeoIP ajudam a implementar essa tática;
Firewall de aplicação (WAF) – soluções como Cloudflare, AWS WAF ou Azure Front Door oferecem bloqueios inteligentes por IP e geolocalização, com atualizações constantes de ameaças.

6. Firewall de aplicação web (WAF)

Desde 2024 a Cloudflare vem disponibilizando uma espécie de firewall que possibilita barrar bots, scrapers e crawlers de IA com um único clique!

Essa funcionalidade, que promete boa eficiência no controle dos agentes aos seus conteúdos, está disponível para todos os clientes, inclusive os de nível gratuito.

A habilitação é simples, bastando acessar a seção “Segurança > Bots” no painel de controle da Cloudflare e clicar no botão de alternância denominado “Raspadores e Crawlers de IA”.

Segundo a Cloudflare, o recurso será atualizado automaticamente e permanentemente, conforme identificarem bots ofensivos e destinados a Web Scraping para treinamento de LLMs.