domingo, 20 de junho de 2010

Conheça o Caffeine, o novo índice de pesquisa do Google

Conheça o Caffeine, o novo índice de pesquisa do Google


O Google anunciou, há alguns dias, o novo sistema de índice de pesquisa da empresa, chamado Caffeine. Em comparação com o sistema de pesquisa anterior, o Caffeine consegue oferecer resultados 70% mais atualizados para as pesquisas na web.
Atualmente, quando fazemos uma pesquisa no Google Search, ela não é feita em tempo real. Os resultados exibidos fazem parte, na verdade, do sistema de índice da web do Google. Fazendo uma rápida analogia, o índice do Google funciona como o de uma revista: ele auxilia o usuário a encontrar o que quer, da maneira mais rápida e fácil possível.
Em um vídeo muito interessante, que pode ser visto abaixo, Matt Cutts, engenheiro chefe do time de webspam do Google, explica como funciona o sistema de indexação da empresa. Infelizmente, o vídeo está disponível somente em inglês.




Com o crescimento do número de imagens e vídeos, e com atualizações de páginas e divulgação de notícias em tempo real, o conteúdo da web está cada vez maior, com páginas mais ricas e complexas. A essência do Caffeine é acompanhar a gigantesca evolução pela qual a internet passa a cada segundo. Afinal, quem pesquisa, quer um resultado relevante e o mais atualizado possível. E, quem publica, quer que seu conteúdo seja encontrado o mais rapidamente possível.
Para que vocês consigam compreender a real diferença entre o sistema antigo de indexação e o Caffeine, vou tentar explicar o modo com que cada um indexa a web.
O sistema antigo era composto por várias camadas. A atualização de umas era mais frequente que a de outras. A camada principal era atualizada a cada duas semanas. Para a atualização de cada camada, era necessário analisar toda a web, fazendo com que houvesse um delay significativo entre a indexação e a disponibilização nos resultados de buscas.
Já no caso do Caffeine, a análise da web é dividida em pequenas partes, que são atualizadas continuamente e no mundo todo. Assim, sempre que uma nova página é encontrada, ou uma atualização em uma página já indexada, ela é adicionada diretamente ao índice, fazendo com que os usuários encontrem os resultados mais atuais, independente de quando e de onde foram publicados.


Segundo informações divulgadas pelo Google, o Caffeine tem capacidade de processar, simultaneamente, centenas de milhares de páginas por segundo. Se transformássemos o conteúdo encontrado em uma pilha de papel, o resultado seria um crescimento de cinco quilômetros a cada segundo.
O novo sistema possui, aproximadamente, 100 milhões de gigabytes de armazenamento em um banco de dados, e ganha, diariamente, centenas de milhares de gigabytes de informações. Dando um exemplo, o Google diz que seriam necessários 625 mil iPods com capacidade máxima para armazenar tanta informação. A empresa diz, ainda, que se fosse uma pilha de papel, ela teria quase 65 quilômetros de altura.
"Nós desenvolvemos o Caffeine com o futuro em mente. Não é apenas um sistema atualizado, é uma base robusta que nos permitirá desenvolver um mecanismo de pesquisa ainda mais rápido e completo, capaz de acompanhar o crescimento das informações on-line e de entregar resultados ainda mais relevantes para suas pesquisas", disse Carrie Grimes, engenheira de software do Google.
 
BlogBlogs.Com.Br