Como funciona a busca do Google?

Já faz algum tempo que a resposta para qualquer pergunta significa para muitos de nós, “dar um guglada”. Ou seria, “dar uma googlada”?

Na verdade não importa o jeito certo de escrever, já que a maioria deve ter entendido que a intenção é usar a busca do Google para ter praticamente qualquer resposta, certo?

E o que mais importa na verdade, é: você sabe como funciona o site mais acessado no mundo e que em setembro de 2023 completa 20 anos?

Se você tem apenas curiosidade em saber o que há por trás das mais de 3,5 bilhões de pesquisas que são feitas todos os dias ou quer entender melhor para colocar seu site na primeira página do Google, então se interessará pelo conteúdo de hoje.

Como funciona a pesquisa do Google?

Responder a pergunta acima, começa com uma resposta que o pessoal da própria Google gosta de dar a respeito do papel que deve cumprir a ferramenta mais usada na Web: “Organizar a informação do mundo e torná-la universalmente acessível e útil”.

Não esclarece logo de cara o seu funcionamento, até porque ele não é simples, embora também não seja um bicho de sete cabeças. Mas serve de guia para o que a busca deve fazer para cumprir esse papel.

Para os mais ansiosos por uma explicação, parece muito vago, é verdade. Mas prometemos que logo ficará claro!

Vamos separar esse objetivo em quatro partes e que são distinguíveis por fundamentos essenciais:

  1. Informação do mundo;

  2. Organizar;

  3. Útil;

  4. Universalmente acessível.

Nota-se que invertemos as ordens em que aparecem os termos, mas logo ficará clara a necessidade didática da mudança e que não haverá prejuízo da sua significação.

1. Informação do mundo

Tudo começa com reunir / coletar toda a informação disponível / acessível e que inicialmente eram apenas os sites existentes na Internet. Atualmente, vai além, como por exemplo, livros antigos que foram digitalizados ou a quantidade de informação que o Google Maps fornece direta e indiretamente.

Esse trabalho consiste do que o próprio Google chama de rastreamento e que nada mais é do que descobrir a informação e que são os textos, as imagens, os vídeos disponíveis nos mais diferentes formatos e que existem na Web.

O rastreamento é feito por robôs de Internet, também chamados de crawalers, spiders ou rastreadores e que nesse caso, “atende pelo nome“ de Googlebot.

Nessa etapa do processo, que é designada como descoberta de URL, o que o rastreador faz é basicamente visitar as páginas associadas ao domínio para verificar seu conteúdo (texto, imagens, vídeos, etc), bem como links nessas páginas para outras páginas, sejam do próprio domínio, como de outros domínios.

A varredura de cada URL existente, é possível por um conjunto de razões:

  • O administrador de um site o cadastra e submete um sitemap, o qual é basicamente uma relação das páginas do site;

  • Quando há links no próprio site para outras páginas internas ao domínio (link building interno);

  • Links de outros sites (backlinks) que direcionam para páginas do seu site.

Sendo assim, pretende-se que todo site existente e que conceda permissão, seja visitado e rastreado e que implicitamente contempla duas condições:

  • Quando fazemos menção a conceder permissão, determinadas páginas podem não ser acessadas, seja porque significam áreas restritas de um site, seja porque por alguma outra razão não se queira que seu conteúdo seja rastreado e assim o responsável pode impor essa restrição ao Googlebot no arquivo robots.txt;

  • O rastreamento é feito tal como se fosse o acesso de um usuário usando o Google Chrome, para que o Googlebot tenha condições de colher informações do quão boa é a experiência do usuário e também porque alguns conteúdos estão disponíveis apenas mediante o acesso, como no caso em que há execução de javascript, por exemplo.

2. Organização

Uma vez que o robô realiza o rastreamento de todo o conteúdo acessível, é preciso organizar a imensidão da informação disponível e nesse ponto justificam-se os vários data centers que a empresa mantém.

São incontáveis servidores que armazenarão os dados, mas não sem antes serem submetidos ao que se chama de indexação e que é classificar a informação como em um índice similar ao que existe nos livros, por exemplo, mas que inclui a análise e classificação dessa informação.

Assim, desde identificar as principais palavras-chaves contidas e a que conteúdos se referem, bem como tags e atributos do conteúdo, títulos e subtítulos, tópicos, metadados e tudo que permita organizar a informação para posterior uso.

É nessa etapa que alguns algoritmos são aplicados. Sim, contrariamente ao que algumas afirmações fazem-nos supor, não há apenas um algoritmo responsável por tudo, mas há vários e cada qual tem funções específicas.

Por exemplo, como resultado do rastreamento, já há dados que permitem determinar a autoridade de cada domínio para determinados assuntos, com base na qualidade e quantidade dos conteúdos, das referências por parte de outros domínios e quais suas respectivas autoridades.

Existem vários outros fatores que são usados no ranqueamento quando da exibição nas páginas de resultado da busca e que são aplicados no momento da indexação, de modo que quando for necessário apresentar uma resposta qualquer, possa ser definida a ordem que cada link aparecerá, sempre considerando o primeiro como o mais relevante e o último, como o menos.

3. Utilidade

O fundamento utilidade do funcionamento da busca, é um dos principais responsáveis pelas constantes melhorias que são implementadas nos diferentes algoritmos usados pela ferramenta de busca.

Há implementações diárias e normalmente mais de uma por dia, apesar de que nem todas são visíveis, como foi o caso do mecanismo de autopreenchimento, incorporado em 2010 e que tenta adivinhar o que as pessoas querem antes delas terminarem de escrever, dando sugestões.

Antes do Google se destacar, seus concorrentes, como Altavista, Yahoo, Lycos e muitos outros, apenas “preocupavam-se” em entregar correspondências para as palavras contidas nas pesquisas.

A partir dele veio a busca semântica, ou seja, a que prioriza contemplar o significado e a intenção do usuário.

Isso ficou ainda mais evidente e ganhou ainda mais força a partir da atualização BERT, a qual pretende identificar as sutis, mas importantes presenças de outras palavras contidas no campo de pesquisa.

Assim, “comunicação na empresa” e “comunicação da empresa”, diferem em apenas uma preposição, mas significam situações distintas. Logo entregar respostas considerando essa diferença, é muito mais útil.

Após a atualização BERT, outra que vem ganhando importância e que também serve ao modelo de inteligência artificial Bard, que por sua vez também cumpre função de utilidade, é o uso de modelos de processamento de linguagem natural, que resumidamente são capazes de interpretar a forma como nos comunicamos naturalmente, com amplo uso nas pesquisas por voz, por exemplo.

Mas diferentemente do primeiro fundamento (rastreamento da informação do mundo), o qual como processo é facilmente distinguível de forma isolada, a utilidade dos resultados já começa no fundamento anterior, seja por conta de determinar o PageRank e que interfere no posicionamento para buscas orgânicas, seja para distribuir e armazenar as informações indexadas dos sites, em cada um dos data centers geograficamente espalhados no mundo.

Assim, com um servidor tão próximo quanto possível de cada usuário, é mais fácil – ou menos difícil – entregar uma resposta em menos de um segundo. Ou bem menos ainda.

A utilidade também se manifesta de outras formas, quando na página de resultados para uma pesquisa, há links para diferentes formatos de conteúdos, ou quando encontramos respostas para questões relacionadas e que aparecem sob a opções “As pessoas também perguntam…”, ou quando nem é preciso clicar em um link porque a conhecida posição zero do Google (featured snippet), que entrega ao usuário uma resposta objetiva, sucinta e geralmente curta, mas que satisfaz sua necessidade por uma resposta.

É também por tudo o que vimos que confere utilidade aos resultados apresentados, que conteúdos que usam técnicas condenáveis de SEO (black hat SEO), como usar uma nuvem de tags com objetivo de tentar enganar o rastreamento, ou conteúdo que promova desinformação e fake news, ou discurso de ódio, ou ainda questões que violem suas políticas, sejam ilegais ou faltem com princípios de ética.

Há algoritmos especializados em verificar tudo isso e remover conteúdos que infrinjam essas diretrizes.

4. Disponibilidade universal

Tal como o fundamento anterior, se visto como processo, também não pode ser isolado.

Ter servidores em data centers em vários países, além de menor tempo na entrega dos resultados, devido à menor latência, também tem como justificativa a disponibilidade universal.

Mas que também se faz notar pela quantidade de idiomas nos quais a ferramenta está disponível. São 50 diferentes idiomas na busca textual e 42 línguas na busca por voz.

Essa disponibilidade também se apresenta na forma como entrega os resultados, tentando identificar quando para uma pesquisa pela palavra “pizza”, o que se quer saber são quais as opções de negócios há nas imediações de onde você está, ou talvez vídeos em que se ensina dicas para o preparo ou quem sabe ainda, um pouco da história da iguaria.

Dependendo da intenção, quando identificável, mudam os resultados apresentados.

Mas é também motivo para que exatamente a mesma pesquisa feita por alguém no Japão e alguém no Brasil, resulte bem diferente para além do idioma, porque haverá também a influência do histórico de cada usuário.

Por fim, mas não menos importante, incluir o Google como ferramenta de busca interna do site, é também uma forma de abreviar o trabalho e emprestar a tecnologia que eles já vem desenvolvendo há 20 anos e torná-la disponível a todos.

Reunindo tudo na busca

Se você dispõe de boa velocidade de conexão com a Internet, a qual é decisiva também nas buscas, a depender do que você pesquisar, a página de resultados começa a ser exibida em menos de meio segundo. É pouco mais do tempo necessário para um piscar de olhos.

Isso porque conforme você digita, um dos algoritmos já vai selecionando as possibilidades. Lembra do preenchimento automático? Pois então, a cada letra fornecida, as possibilidades vão diminuindo.

Quando você digita “comunicaç”, antes que você termine e complete com o “ão”, todas as possibilidades de sites contendo “comunicação”, já estão “selecionadas”.

Se você usa uma palavra de cauda longa, como “comunicação eficaz nas empresas”, o mesmo processo se repete, ou seja, é possível ver que as alternativas sugeridas vão sendo eliminadas a medida que você avança na digitaçao e deve sobrar para completar apenas a palavra “empresas”.

Nesse ponto, além de todos os sites em que há coincidência para o termo, na etapa de indexação, já houve o ordenamento segundo a relevância de cada página que foi rastreada, com base na autoridade do domínio, na qualidade do conteúdo, da presença de sinônimos, de exatidão ou proximidade da pergunta feita com subtítulos presentes no conteúdo, etc.

Soma-se a isso, determinar qual servidor da sua infraestrutura está fisicamente mais próximo, graças a sua localização geográfica que é possível determinar por conta do seu endereço IP e que todo o conteúdo necessário, está devidamente armazenado em cache e, portanto, não dependente do desempenho dos respectivos sites.

Por que é importante conhecer o funcionamento do Google?

Se você não tem ou não administra um site, a relevância é limitada pelo conhecimento e/ou curiosidade que o tema tem.

Mas conhecer as minúcias por trás do funcionamento do Google, ajuda a compreender melhor os porquês dos muitos conceitos de SEO.

Suponhamos que você tenha um blog sobre culinária e que seu público é predominantemente composto por pessoas que são leigos no assunto. Depois do que você aprendeu hoje, se resolver escrever sobre “branqueamento de legumes”, provavelmente não criará um conteúdo com esse título.

Em vez disso, talvez use “Como manter os legumes verdinhos com o cozimento?” e depois de explicar o processo e o porquê, informar que “branqueamento” é o nome dessa técnica, porque é mais provável que o leigo faça uma pesquisa semelhante.

Quem sabe também, ao descobrir que diariamente em meio ao contingente de pesquisas feitas, 15% delas são inéditas, você se preocupe em trabalhar a carência ou escassez de conteúdos e que seus concorrentes falham em fazer.

Ou ainda, que tal como os seus visitantes, há um algoritmo que valoriza quando você não “enrola” o internauta e entrega a respostas rápidas, objetivas e logo no começo, sempre que possível, ainda que invista em exemplos, analogias e forneça uma série de dados adicionais para enriquecer o conteúdo.

E finalmente, ao compreender tudo o que envolve a frase “Organizar a informação do mundo e torná-la universalmente acessível e útil”, também compreenda que apesar de haver o envolvimento de um robô, seu conteúdo deve ser útil para pessoas.

Conclusão

Conhecer o funcionamento da busca do Google, além de matar sua eventual curiosidade, pode ajudar a fazer um trabalho de SEO bem mais eficiente.

Comentários ({{totalComentarios}})