Google

O que é o Googlebot, como funciona e importância em SEO?

No momento em que escrevemos esse post, havia mais de 1,50 bilhão de websites no mundo, mas a informação que mais impressiona e importa, é que senão todos, boa parte deles têm o seu conteúdo indexado pelo Google!

Para que isso seja possível, todos esses sites costuma receber visitas do Googlebot.

Mas afinal, o que é o Googlebot, como ele funciona e porque ele é importante para os sites na Web?

Compreender essas e outras questões relacionadas, é essencial para todos que querem seu site seja encontrado por seu público-alvo.

O que é o Googlebot?

O Googlebot nada mais é do que um dos muitos robôs de Internet, o qual tem por principal função, rastrear, indexar e ranquear as páginas de todos os sites que ele tem acesso na Web, para entregar os melhores resultados quando os internautas fazem uma pesquisa no Google.

Visto de uma forma ainda mais simplista, também se pode dizer que o Googlebot é um programa de computador, ainda que bastante especializado e rodando a partir de servidores é verdade, mas nada mais é do que um software.

Como muitos dos robôs de Internet, o robô do Google é mais do que um simples software programado para fazer algo.

Atualmente e principalmente pelas sucessivas e frequentes atualizações que recebe, ele é parte integrante de um conjunto de sistemas que coleta e faz uso de volumes assombrosos de informação categorizada, organizada e armazenada em infraestruturas imensas de dados (Big Data), nas quais também há uso massivo de Inteligência Artificial e Machine Learning, a fim de entregar os melhores resultados para cada pesquisa feita.

Mas nem sempre foi assim.

Nos primórdios da Internet, existiam muito mais robôs. Muitas das ferramentas de busca daquela época, nem existem mais como foi o caso do Cadê, uma iniciativa brasileira que alcançou tanto sucesso, que foi incorporado pelo Yahoo!, em uma época em que esse liderou o segmento.

Mas havia outros nomes fortes, como o InfoSeek, Altavista, WebCrawler e Lycos, para citar apenas alguns.

Dentre os mencionados, o WebCrawler contém em seu nome, uma outra designação comum na época para os robôs – os crawlers, designação de rastreadores em inglês – que varriam a Web em busca de sites e seus conteúdos.

Outra nomenclatura também bastante comum na época, era spider (aranha em inglês).

Seja qual for o nome, todos tinham papel semelhante.

No entanto, o tempo passou e basicamente o que sobrou foram o Google, o Bing e o Yahoo! e outros menores e mais especializados ou mais regionais, como o Yandex (Rússia) e o Baidu (China).

Como funciona o Googlebot?

A primeira informação relevante que é preciso conhecer, é que existem dois tipos de robôs: Googlebot Desktop e Googlebot Mobile.

O objetivo de cada um, é simular o que os usuários humanos encontrarão nos respectivos ambientes, ou seja, no caso do acesso por meio de um desktop ou notebook (tela grande) e no caso de uso dos dispositivos mobile (smartphones e tablets).

Essa diferenciação é importante, pois são avaliados aspectos relacionados com a experiência na página, a qual é influenciada a depender do dispositivo usado no acesso, ainda mais porque parte significativa dos acessos é por meio dos dispositivos móveis, o que ressalta a importância de ter uma versão mobile do site.

O segundo ponto importante a saber, é que o Googlebot é um sistema que tem como principal função encontrar os endereços da Web que tenham conteúdos relevantes e para tanto, ele realiza rastreamentos usando diferentes métodos, conforme veremos a seguir.

1. Sitemaps

A primeira forma de rastreamento, é por meio dos sitemaps, que por sua vez são arquivos de texto geralmente em formato XML, nos quais são fornecidas informações sobre as páginas de um site.

Como o nome sugere, o sitemap é um mapa em um formato compreensível por parte dos motores de busca, que relaciona as páginas de um site e os respectivos conteúdos, como por exemplo, os textos, as imagens relacionadas aos conteúdos, os vídeos e outros arquivos, além naturalmente das páginas que devem ser indexadas pelos robôs.

Um sitemap é um recurso antigo e que não se restringe ao uso do Google. Toda ferramenta de busca é capaz de “ler” o sitemap com a finalidade de facilitar a identificação e o rastreamento do conteúdo de um site.

Fornecer um sitemap no Google Search Console (gratuito), é o método recomendável para garantir que tudo que precisa ser indexado, efetivamente seja. No entanto, essa não é a única forma.

2. Links externos

Não é necessário que exista um arquivo sitemap para que o Google e demais mecanismos de busca sejam capazes de chegar ao seu site e criar um índice do conteúdo associado a ele, em processo que é chamado de indexação.

A existência de um único link de uma página do seu site, presente no texto de outro site cujo conteúdo esteja indexado, é suficiente para que uma visita do Googlebot ocorra.

Se você realiza um bom trabalho de criar links para outras páginas do site, conhecido como link building interno, isso fará com que o Google chegue ao restante do conteúdo.

Porém, esse é um processo que pode ser mais demorado para produzir a indexação e bem menos eficiente do que fornecer um sitemap completo.

3. Outros elementos

Uma vez que o robô acesse uma página qualquer de um site, ele realiza uma análise extensiva do respectivo código e da estrutura usada na sua criação, como as tags meta, por exemplo.

Os próprios menus de um site e que também são uma coleção de links, servem como um ponto de partida para que o robô faça a varredura de todo conteúdo que puder encontrar a partir dos links e que é composto dos textos, fotos, vídeos e tudo que puder ser indexado.

Mas se engana quem pensa que o robô do Google seja apenas um “leitor” de conteúdo.

O processo de identificação e categorização de conteúdo relevante, já é feito a medida que ele identifica as informações que compõem cada porção do site. Assim, se encontra dois ou mais links que apontam para um mesmo conteúdo, apenas o primeiro é considerado e a partir daí os fatores para ranqueamento das páginas já começam a influenciar o posicionamento.

E diferentemente da leitura que um visitante humano faz de uma página qualquer de um site, o robô do Google lê o código HTML correspondente a cada página, avaliando e considerando cada elemento com base nas tags do HTML.

Assim, ele é capaz de diferenciar parágrafos, diferentes níveis de títulos (h1, h2, h3), tabelas e considerar o conteúdo textual de acordo com as estruturas com as quais ele está associado. Isso é possível graças a um sofisticado algoritmo – conjunto de regras e passos para execução de ações – que conduz como é feito o rastreamento da informação que compõe cada página.

Isso é fundamental para a classificação da informação e influencia diretamente o quão relevante é o conteúdo que seu site contém, de acordo com as pesquisas que são feitas.

Sendo assim, para uma determinada palavra-chave, o número de ocorrências dela no texto, nos títulos e subtítulos dos conteúdos, as palavras usadas no texto âncora dos links e até mesmo presença no nome e nos metadados de imagens, vão ter um peso no posicionamento que esta página apresentará nos resultados das buscas.

Todas essas informações são lidas, vinculadas e armazenadas, para uso posterior.

4. Arquivo robots.txt

Além de tudo que vimos anteriormente, sempre que o Googlebot – e demais robôs também – chega a um site, busca por um arquivo nomeado por convenção, como robots.txt, que nada mais é do que um arquivo de texto que orienta ou estipula regras de como o conteúdo deve ser rastreado e nele, pode-se por exemplo, informar páginas que eventualmente não se deseja que sejam indexadas.

O arquivo robots.txt, permite ao administrador do site determinar o que é rastreável e o que não é, por meio de instruções padrão, como o comando ‘disallow’, por exemplo.

5. Exceções

Embora o robô leia o código do site e vários elementos que fazem parte de uma página, há determinados conteúdos que não são lidos, como JavaScript, frames, DHTML, Flash e Ajax.

Assim, o uso de tais recursos deve ocorrer apenas quando forem absolutamente necessárias para o visitante, tendo em mente que sua utilização pode prejudicar o ranqueamento da página, especialmente quando dados importantes só são vistos sob o uso do recurso, como na execução de um JavaScript, por exemplo.

Por que o Googlebot é importante?

Ao longo dos últimos anos, o gigante das buscas tem tido cerca de 90% de preferência nas buscas, ou seja, ele é o ponto de partida para que um site apareça para a maioria esmagadora dos internautas.

Nesse ponto, você já deve imaginar o quão importante é o robô do Google no trabalho de fazer cada site aparecer nas páginas de resultados da busca, as chamadas SERPs.

Em caráter permanente e periódico, o Googlebot retorna ao seu site, para ver se há atualizações, se há modificações nos conteúdos e novas páginas que precisem ser indexadas.

A frequência com que ele retorna, tem a ver com uma série de fatores, que incluem a frequência com que ele encontra novos conteúdos, com o posicionamento para buscas orgânicas nos resultados, com a relevância do seu conteúdo, com o PageRank, com a autoridade do domínio, entre outros aspectos de uma lista razoavelmente extensa deles.

Em outras palavras, parte importante das ações que um administrador realiza no seu site e o robô identifica, reflete-se nos resultados exibidos em cada pesquisa feita.

Isso porque os dados indexados pelo Googlebot, são submetidos a um algoritmo sofisticado e que leva em consideração uma série de fatores para efetuar o ranqueamento do gigantesco número de páginas existentes.

Esse algoritmo, é atualizado frequentemente, para garantir que seja capaz de entregar exatamente o que os usuários buscam, como foi o caso do Core Update de agosto / 2024, o qual dá ênfase aos sites cujos conteúdos sejam úteis e originais.

Sendo assim, conhecer o funcionamento desse sistema é essencial para efetuar um trabalho de SEO On Page e SEO Off Page eficientes e consequentemente, posicionar bem nos assuntos de interesse do seu site.

Por que usar as “Ferramentas para Desenvolvedores” do Google?

O Google para Desenvolvedores é um conjunto poderoso de ferramentas e que pode dar pistas importantes de problemas que o Googlebot pode estar tendo ao visitar o seu site.

Na parte em que são informados os erros, é possível saber ser há erros de servidor e que são os erros com começam com 5 (ex: 503), páginas indisponíveis (erro 404), acessos proibidos (erro 403 ou forbidden).

Também é possível saber quantas páginas e o volume de dados que são rastreados por período, o que é particularmente útil na produção de novos conteúdos e consequentemente influenciará a frequência futura com que o crawler do Google retorna às suas páginas.

Há ainda o recurso “Buscar como o Google”, que basicamente mostra o site da mesma forma que o robô do Google o vê. Isso é especialmente útil, para uma abordagem mais técnica e consequentes ajustes visando um melhor posicionamento e nos ajustes das estratégias de SEO.

Conclusão

Conhecer o Googlebot, ajuda a compreender o sofisticado sistema de coleta e organização dos conteúdos dos sites e a classificação dos resultados nas buscas feitas.