|
Google今天宣布,新的Web索引系统Caffeine(咖啡因)正式完成,其索引结果是当前Google索引工具的1.5倍,这也是Google迄今为止所提供的Web内容的最大量。无论是新闻、博客、论坛帖子,你都可以在其发布后更快地找到其链接。
在解释为什么开发新的搜索索引系统时,Google表示:“Web内容欣欣向荣,它不仅在大小和数量上取得了增长,内容也不断变化,出现了视频、图片、新闻和实时更新,普通的网页变得更加丰富和复杂。此外,人们对搜索的要求也在比从前高很多,搜索者希望找到最想要的内容,发布者希望新发布的内容立刻被找到。”
“为了适应Web的变革并满足人们日益增长的需求,我们开发了Caffeine(咖啡因),下图描述了传统索引系统与Caffeine的区别:”
传统的索引分为很多层,其中一些会以较快的速度更新,而主要内容层则会每几周才更新一次。在更新一个层时,Google需要对整个Web进行分析,这也就意味着在Google发现一个页面与提供给用户这之间有一个延迟。
在Caffeine中,“我们只在小的范围内分析Web内容,并不间断地更新索引,进而设计全球网络内容。一旦我们发现新的页面或现有页面上更新了内容,我们可以直接将其添加到索引中,也就是说,你可以更快地搜索到新的Web内容。”
Caffeine每秒可以并行处理数以万计的页面,如果这些网页以纸张堆积起来,那么每秒钟它可以增高近5000米。Caffeine在每个数据库中占据100,000,000 GB的存储空间,每日的新增量也十分惊人。你需要625000个最大容量版本iPod才能存储这么多数据,它们首尾相连能超过64公里。 |
|