Googlebot: saiba o que é e como funciona

No momento em que escrevemos este artigo, há mais de 1 bilhão e 820 milhões de sites no mundo e se não todos, boa parte deles têm seu conteúdo indexado pelo Google, o que significa dizer que pelo menos uma vez – em alguns casos muitas vezes – muitos desses sites recebeu uma visita do Googlebot!

Há muitas dúvidas e perguntas não respondidas sobre o papel, o comportamento e funcionamento do robô do Google, como também é conhecido.

Então vamos tentar responder as principais e porque é importante você saber mais sobre esse assunto.

O que é o Googlebot?

Assim como muitos outros robôs de Internet, pode-se dizer de modo bastante simplista, que o Googlebot é um programa de computador.

É uma definição muito básica, mas que já serve para esclarecer àqueles que chegaram aqui sem saber nada sobre o assunto, que não se trata dos clássicos robôs físicos, ou seja, um objeto eletrônico e/ou mecânico.

Como muitos dos robôs de Internet, o robô do Google é mais do que um simples software programado para fazer algo.

Atualmente e principalmente com a implantação do Google Bert, ele é parte integrante de um conjunto de sistemas que faz uso de volumes assombrosos de informação categorizada, organizada e armazenada em infraestruturas gigantescas, nas quais também há uso massivo de Inteligência Artificial, Machine Learning e algoritmos sofisticados, entre outros e que no caso do Google, é um exemplo clássico de Big Data.

Mas nem sempre foi assim.

Nos primórdios da Internet, existiam muito mais robôs.

Muitas das ferramentas de busca daquela época nem existem mais como foi o caso do Cadê, uma iniciativa brasileira que alcançou tanto sucesso, que foi incorporado pelo Yahoo!, em uma época em que este liderou o segmento.

Havia nomes fortes, como o InfoSeek, Altavista, WebCrawler e Lycos, para citar apenas alguns.

Dentre os mencionados, o WebCrawler representa em seu nome, uma outra designação comum na época para os robôs – os crawlers, que varriam a Web em busca de sites e seus conteúdos.

Outra denominação também comum para eles, eram os spiders (aranhas). Seja qual fosse o nome, todos faziam o mesmo. O tempo passou e basicamente o que sobrou foram o Google, o Bing e o Yahoo!.

O Googlebot como programa de computador, tem o papel de realizar o rastreamento de uma lista de endereços da Web, com base em sitemaps, que por sua vez são arquivos de texto em formato XML, por meio dos quais são fornecidas informações sobre as páginas, imagens, vídeos e outros arquivos que compõem um site.

Um sitemap é um recurso antigo e que não se restringe ao uso do Google.

Assim, toda ferramenta de busca é capaz de “ler” esse arquivo com a finalidade de facilitar o rastreamento do conteúdo de um site.

Como o nome sugere, é um mapa de site em um formato compreensível a um mecanismo de busca, que relaciona quais páginas e conteúdo do site são tidos como relevantes.

Como funciona o Googlebot?

Não é necessário que exista um arquivo sitemap para que o Google e demais mecanismos de busca sejam capazes de chegar ao seu site e criar um índice do conteúdo associado a ele e que é chamado de indexação.

A existência de um único link de uma página do seu site, presente no texto de outro site ou rede social cujo conteúdo esteja indexado, é suficiente para que uma visita do Googlebot ocorra.

Se você realiza um bom trabalho de criar links internos (SEO On Page) para outras páginas de seu site, isso fará com que o Google chegue ao restante do conteúdo.

A isso soma-se uma série de outras “técnicas” e procedimentos de criação de cada página e como se utilizam as tags meta, por exemplo.

Assim, o Googlebot percorre todos os caminhos contidos em links internos (no próprio site) e externos (em outros sites na Internet), que é parte do SEO Off Page.

Os próprios menus de um site e que também são links, são um ponto de partida para que o robô faça a varredura de todo conteúdo que puder encontrar e que é composto dos textos, fotos, vídeos e tudo que puder ser indexado.

Mas engana-se quem pensa que o robô do Google seja apenas um acumulador de conteúdo.

O processo de identificação e categorização de conteúdo relevante, já é feito a medida que ele identifica as informações que compõem cada porção do site.

Portanto, se ele encontra dois ou mais links que apontam para um mesmo conteúdo, apenas o primeiro é considerado e a partir daí os critérios para ranqueamento das páginas já começam a influenciar o posicionamento.

E diferentemente da leitura que um visitante humano faz de uma página qualquer de um site, o robô do Google lê o código HTML correspondente a cada página, avaliando e considerando cada elemento com base nas tags do HTML.

Dessa forma, ele é capaz de diferenciar parágrafos, diferentes níveis de títulos, tabelas e considerar o conteúdo textual de acordo com as estruturas que ele está associado.

Isso é possível graças a um sofisticado algoritmo – conjunto de regras e passos para execução de ações – que orienta como é feito o rastreamento da informação que compõe cada página.

Todo esse conjunto de ações é fundamental para a classificação da informação e influencia diretamente o quão relevante é o conteúdo que seu site contém, de acordo com as pesquisas que são feitas.

Com base nisso, para uma determinada palavra-chave, o número de ocorrências no texto, em títulos, nos links e até mesmo presença no nome e nos metadados de imagens, vão ter um peso no posicionamento que esta página apresentará nos resultados das buscas.

E se isso tudo não bastasse, o robô do Google – e demais robôs também – sempre que chega a um site, busca por um arquivo nomeado por convenção, como robots.txt, que nada mais é do que um arquivo de texto que orienta ou estipula regras de como o conteúdo deve ser rastreado e nele, pode-se por exemplo, informar páginas que eventualmente não se deseja que sejam indexadas.

Embora o robô leia o código do site e vários elementos que fazem parte de uma página, há determinados conteúdos que não são lidos, como JavaScript, frames, DHTML, Flash e Ajax.

Por essa razão, o uso de tais tecnologias deve ocorrer apenas quando forem absolutamente necessárias para o visitante, tendo em mente que podem prejudicar o seu ranqueamento, quando dados importantes só são vistos sob sua utilização, como uma apresentação Flash, por exemplo.

E de tempos em tempos, o Googlebot retorna ao seu site, para ver se há atualizações, modificações e conteúdo novo.

A frequência com que ele retorna, tem a ver com uma série de fatores, que incluem a frequência com que ele encontra novos conteúdos, com seu próprio posicionamento orgânico nos resultados, com a relevância do seu conteúdo, entre outros aspectos de uma lista razoavelmente extensa.

Use as “Ferramentas para Webmasters” do Google

O Google para Webmasters é uma ferramenta simples, gratuita, mas que pode dar pistas importantes de problemas que o Googlebot pode estar tendo ao visitar o seu site.

Na parte em que são informados os erros, é possível saber ser há erros de servidor e que são os erros com começam com 5 (ex: 503), páginas indisponíveis (erro 404), erros de acessos proibidos (erro 403 ou forbidden). produzidos pelo ModSecurity, por exemplo.

Também é possível saber quantas páginas e o volume de dados que são rastreados por período, o que é particularmente útil na produção de novos conteúdos e consequentemente influenciará a frequência futura com que o crawler do Google retorna às suas páginas.

Há ainda o recurso “Buscar como o Google”, que basicamente mostra o site da mesma forma que o robô do Google o "enxerga", o que é especialmente útil, para uma abordagem mais técnica e consequentes ajustes visando um melhor posicionamento e nos ajustes das estratégias de SEO.

Conclusão

O Googlebot – também conhecido como robô do Google – é parte de um vasto e intrincado sistema de coleta e organização dos dados dos sites da Internet, responsável em parte pelos resultados que são exibidos a cada pesquisa que é feita.

Comentários ({{totalComentarios}})