Busca

O que é robots.txt e qual sua importância?

Antes se preocupar com as mais avançadas técnicas e tendências para seu site aparecer bem posicionado nas páginas de resultados dos sites de busca, todo administrador de site precisa conhecer o que é e a importância de um aspecto ainda mais básico e que deve estar presente em todo site – o arquivo robots.txt.

Apesar de ser bastante simples e ser usado desde o avanço da Internet comercial, ele ainda cumpre função importante e pode ajudá-lo na administração do site e na sua adequada indexação por parte dos buscadores.

Por isso, hoje vamos tratar de tudo o que você precisa saber sobre robots.txt.

O que é robots.txt?

Para aqueles que têm familiaridade com desenvolvimento de sites em termos mais profundos, como o conhecimento do HTML e do PHP, provavelmente será desnecessário responder a essa pergunta.

Mas por conta da adoção maciça dos CMS e do no code e o ato de apenas procurar um plugin que resolva um problema ou atenda uma necessidade, fez com que não seja raro encontrar administradores de site que não conhecem a fundo tudo o que faz um site funcionar ou ainda para que serve cada coisa presente em um.

O robots.txt é um arquivo de texto que deve ser armazenado na pasta raiz do site e que deve ser escrito obedecendo certas convenções, contendo regras e instruções dadas aos robôs de internet que eventualmente acessarem o site.

Para que serve o arquivo robots.txt?

Muito se fala sobre aplicação aos sites de técnicas de SEO e Marketing de Conteúdo para os robôs dos sites de busca e especialmente o Googlebot, mas bem antes dele se tornar tão popular e dispensarmos tanta atenção a ele, o arquivo robots.txt já era usado com o objetivo de orientar qualquer robô, sobre o que fazer – ou não fazer – ao “visitar” o respectivo site.

Mesmo tanto tempo depois e com tantas mudanças na Internet, o robots.txt é o primeiro arquivo que o Googlebot - e muitos outros bots – verificam ao acessar um domínio.

Assim, suponhamos que por alguma razão, você não deseje que uma determinada URL ou página seja acessada, ou ainda que as imagens de uma página não sejam exibidas nos resultados de uma busca, é possível ter uma instrução para que o robô não faça a inclusão nos resultados.

Alguns podem pensar – especialmente aqueles que estão iniciando – por qual razão alguém não desejaria ter todo o seu conteúdo aparecendo nos resultados das pesquisas dos buscadores, certo?

Porque pode ser uma página ou todo um diretório ainda em desenvolvimento, ou em testes. As imagens podem conter informações restritas, como no caso de um infográfico. Ou seja, podem haver motivos justificados e importantes e que só dizem respeito ao administrador do site para impedir o seu rastreamento.

Qual a importância do robots.txt?

Para além do que já vimos, o robots.txt tem importância por uma razoável lista de razões:

Desempenho – ao determinar apenas o que é importante, evita-se que o os robôs consumam largura de banda, façam muitas requisições e que de alguma maneira possa afetar o desempenho e a experiência de usuários legítimos do site;
Sitemap – o arquivo sitemap e que é uma das principais maneiras de garantir a indexação completa do seu site, é informado no robots.txt;
Indexação – sites muito grandes, com muitas páginas, como sites de conteúdo e portais, têm muitos arquivos, o que torna o processo de rastreamento demorado e mais lento e que no caso do Google – mas não apenas – tem um tempo limite para ocorrer (Crawl Budget). Ao informar ao bot apenas o que deve ser “lido”, evita-se que se perca tempo varrendo o que é irrelevante;
Download – conteúdo para download e restrito a, por exemplo, usuários que se cadastraram para receber o respectivo conteúdo;
Páginas especiais – páginas de agradecimento, páginas duplicadas (ex: versão para impressão), arquivos PDF e quaisquer páginas que você não deseja ou não possa que sejam rastreadas, devem ser informadas no robots.txt.

Como funciona o robot.txt?

Tal como os arquivos HTML ou mesmo PHP, é um arquivo de texto, o qual precisa ser escrito segundo algumas regras – a sintaxe – para ser “compreendido” por um robô e para que ele atue segundo o que se deseja.

Como trata-se de uma convenção, por padrão os robôs que a “respeitam”, ao acessarem um determinado site, procurarão o arquivo e o “leem”, para só então procederam com a varredura do site e dos seus conteúdos, observando o que é permitido (instrução allow) e que não é (instrução disallow).

A regra “allow”, é uma redundância, o que significa dizer que na maior parte das vezes não é necessário definir o que é permitido varrer por parte do bot. Já no caso da regra “disallow”, é diferente.

Como exemplo, a instrução para orientar quaisquer robôs para desconsiderarem um diretório específico, é:

User-agent: *
Disallow: /usuarios/

O termo “User-agent”, refere-se ao nome do robô e que no caso por ser um asterisco (*), deve ser interpretada como sendo qualquer robô, bot, crawler ou spider, sendo que estes três termos são outras formas de chamar um robô de internet.

Se quiséssemos que a instrução fosse exclusivamente direcionada ao Googlebot, em vez de “*”, devemos usar o seu nome – Googlebot.

No caso, existe uma relação dos bots mais conhecidos e seus respectivos nomes, a The Web Robots Pages.

Ainda entendendo nosso exemplo, a instrução “Disallow” (não permite) diz aos bots que eles não têm permissão para varrer o conteúdo da pasta “usuarios”, contida na raiz do site.

Mas se eventualmente tivéssemos uma terceira linha como esta?

Allow: /usuarios/publico/

Nesse contexto, não há permissão para varrer os arquivos e outros diretórios dentro da pasta “usuario”, exceto o nomeado como “publico” e que tem a instrução “allow” associada, indicando que seus arquivos e eventuais pastas / diretórios estão liberados e, portanto, neste caso allow faz sentido constar como instrução.

Quando não usar o robots.txt?

O arquivo robots.txt deve estar presente sempre, no entanto, há algumas finalidades ou situações nas quais ele não é o método mais indicado.

Se você descobriu agora que é possível não permitir o acesso de determinados arquivos e diretórios, usando a instrução disallow, saiba que esse não é o mecanismo de “proteção” ou segurança de conteúdos sensíveis por alguma razão.

Inclusive se você tinha a intenção de fazê-lo, terá o efeito contrário diante de um possível invasor, que conhecendo o que você pretende esconder, saberá o que vasculhar.

Para tal tipo de conteúdo, é preciso usar outros métodos, como diretórios protegidos com senha, entre outras ações.

O arquivo robots.txt baseia-se em convenções

Conforme mencionamos anteriormente, o seu uso e leitura por parte dos robôs de internet, baseia-se em convenções e não em regras rígidas e sempre seguidas.

A primeira consequência direta disso, é que um bot não é “obrigado” a seguir o que consta como instrução ou sequer precisa consultá-lo antes de varrer o seu site.

O maior exemplo disso – varrer um site e desconsiderar o robots.txt – são as ferramentas de web scraping e que funcionam como um robô e que muitas vezes nem têm um nome conhecido. Praticamente a totalidade delas ignorará a existência do arquivo.

Diferentes bots, diferentes comportamentos

Aqui vale o que já dissemos, ou seja, por conta de ser apenas uma convenção, nem todo bot apresentará o mesmo comportamento.

Além disso, a interpretação das instruções pode apresentar particularidades de acordo com o robô. Sendo assim, se você incluiu alguma instrução e precisa que uma determinada ferramenta comporte-se apropriadamente, é preciso certificar-se que a sintaxe usada está adequada.

Alguns poucos bots oferecem informações e páginas com conteúdos sobre parâmetros de rastreamento e indexação e que podem ser úteis para escrever instruções eficientes, como por exemplo, o Bingbot.

Impedir a indexação

Os robôs “éticos” e que seguem as convenções, não vão “desobedecer” uma instrução, porém a indexação ou não de conteúdos não depende apenas do que consta no robots.txt.

Se por exemplo, houver um link em um site externo ou uma postagem de um usuário em uma rede social, informando um link que você não desejaria que fosse indexado, ele poderá ser.

Resolver questões como essa, depende de outro método e que consiste em usar as meta tags do HTML específicas para os robôs, diretamente nas páginas em que se deseja que tenham efeito, como no exemplo a seguir:

<meta name=”robots” content=”noindex” />
<meta name=”robots” content=”nofollow” />

Na primeira informa-se que o conteúdo da página não deve ser indexado pelos sites de busca. Já na segunda, os links presentes não devem ser seguidos.

Alternativamente, quando se deseja ambas as coisas, pode-se usar apenas uma linha, como abaixo:

<meta name=”robots” content=”noindex, nofollow”>

Conclusão

O arquivo robots.txt é a primeira e mais básica ajuda aos mecanismos de pesquisa na classificação adequado do seu conteúdo para os resultados de busca.