Quando a maioria das pessoas fala sobre os mecanismos de busca da Internet, elas, de fato, se referem aos mecanismos de busca da World Wide Web.
Antes de a Web se tornar a parte mais visível da Internet, já existiam mecanismos de busca para ajudar as pessoas a encontrar informações na Rede.
Programas com nomes como "gopher" e "Archie" mantinham índices de arquivos armazenados em servidores conectados à Internet e reduziam drasticamente a quantidade de tempo requerida para encontrar programas e documentos.No final da década de 1980, extrair o máximo valor da Internet significava saber usar o gopher, Archie, Veronica e outros.
Hoje, a maioria dos usuários da Internet limita suas buscas à Web; assim, limitaremos este artigo aos mecanismos de busca que se concentram no conteúdo das páginas da Web.
Um começo tímido
Antes de um mecanismo de busca poder dizer a você onde um arquivo ou documento está, ele deve ser encontrado. Para encontrar informações em centenas de milhões de páginas da Web, um mecanismo de busca emprega robôs de software especiais, chamados aranhas, para construir listas de palavras encontradas nos sites da Web. Quando uma aranha está construindo suas listas, o processo é chamado de rastejamento da Web. (Existem algumas desvantagens em chamar parte da Internet de World Wide Web: um grande conjunto de nomes "aracnídeos" para as ferramentas é uma delas.) Para construir e manter uma lista útil de palavras, as aranhas de um mecanismo de busca precisam olhar várias páginas.
Como qualquer aranha começa suas viagens na Web? Os pontos iniciais usuais são as listas de servidores muito usados e páginas muito procuradas. A aranha começará por um site popular, indexando as palavras em suas páginas e seguindo cada link encontrado dentro do site. Dessa forma, o sistema de aranhas inicia rapidamente a viagem, alastrando-se pelas partes mais amplamente usadas da Web.
Manter tudo executando rapidamente significava construir um sistema para alimentar as informações necessárias para as aranhas. O primeiro sistema do Google tinha um servidor dedicado a fornecer URLs às aranhas. Em vez de depender de um provedor de serviços da Internet para um servidor de nome de domínio (DNS) que traduz um nome de servidor em um endereço, o Google tinha seu próprio DNS, para manter os atrasos em patamares mínimos.O Google.com começou como um mecanismo de busca acadêmico. No documento que descreve como o sistema foi construído, Sergey Brin e Lawrence Page dão um exemplo do quão rapidamente suas aranhas podem funcionar. Eles construíram seu sistema inicial para usar múltiplas aranhas, geralmente três ao mesmo tempo. Cada aranha poderia manter cerca de 300 conexões com páginas da Web abertas ao mesmo tempo. Em seu desempenho máximo, usando quatro aranhas, o sistemas deles poderia rastejar sobre 100 páginas por segundo, gerando cerca de 600 kilobytes de dados a cada segundo.
Quando a aranha do Google olhou para uma página HTML, ela anotou duas coisas:
As palavras que ocorrem no título, subtítulos, meta tags e outras posições de relativa importância foram anotadas para consideração especial durante a busca de usuário subseqüente. A aranha do Google foi criada para indexar toda palavra significante em uma página, desconsiderando os "um", "uma", "o" e "a". Outras aranhas seguem abordagens diferentes.
Essas abordagens diferentes geralmente tentam fazer a aranha operar mais rápido ou permitir aos usuários buscar com mais eficiência, ou ambos. Por exemplo, algumas aranhas controlarão as palavras no título, subtítulos e links, juntamente com as 100 palavras mais freqüentemente usadas na página e cada palavra nas primeiras 20 linhas de texto. Acredita-se que oLycos (em inglês) use essa abordagem para vasculhar a Web com suas aranhas.
Outros sistemas, como o AltaVista (em inglês), vão em outra direção, indexando cada palavra de uma página, incluindo "um", "uma", "o", "a" e outras palavras "insignificantes". O avanço em direção à totalidade dessa abordagem é equiparado por outros sistemas na atenção dada à parte não vista da página da Web, as meta tags.
As meta tags permitem aos proprietários de uma página especificar palavras-chave e determinar sob quais delas a página será indexada. Isso pode ser útil, especialmente nos casos em que as palavras na página podem ter significados duplos ou triplos: as meta tags podem guiar o mecanismo de busca para escolher qual desses vários possíveis significados para essas palavras é o correto. Existe, porém, um perigo em se confiar em excesso nas meta tags, porque um dono de página inescrupuloso ou descuidado pode acrescentar meta tags que se encaixem em tópicos muitos populares, mas que não tenham nada a ver com o real conteúdo da página. Para se proteger contra isso, as aranhas correlacionam as meta tags com o conteúdo da página, rejeitando aquelas que não coincidam com as palavras na página.
Tudo isso presume que o proprietário de uma página, de fato, deseja que essas palavras sejam incluídas nos resultados das atividades de um mecanismo de busca. Muitas vezes, o proprietário da página não deseja que ela seja mostrada em um mecanismo de busca grande, ou não deseja a atividade de uma aranha acessando a página. Considere, por exemplo, um jogo que cria páginas ativas novas sempre que as seções da página são exibidas ou novos links são seguidos. Se uma aranha da Web acessar uma dessas páginas e começar a seguir todos os links para novas páginas, o jogo poderia confundir a atividade para um jogador humano muito veloz e sair de controle. Para evitar situações como essas, o protocolo de exclusão de robô foi desenvolvido. Esse protocolo, implementado na seção de meta tag no início de uma página da Web, diz a uma aranha para deixar a página: não indexar as palavras na página nem tentar seguir seus links.