每当一种新技术出现时,很少有人真正懂得怎样去恰当运用。通常只有第二代公司才能取得实质性进展。对于搜索引擎而言,这确是事实。在整个20世纪90年代,搜索引擎先是根据某站点的特定关键词的发现次数来检索网页。这些引擎并未利用互联网的互联特性,只是寻找站点、存储信息。互联网所要求的新技术尚不存在,是拉里缔造了它。当谷歌的搜索引擎在1998年12月正式推出时,它在一个杰出特质方面卓尔不群:它确实管用。它的核心是PageRank系统,这是由拉里(并以其名字命名)在攻读博士期间发明的。它利用了网络的独特优势——与其名称如此贴切的互联网络。
加西亚·莫利纳回忆了公司起步阶段的点点滴滴。他是佩奇的顾问,1995年的一天,他的学生走进办公室,给他看所发现的巧妙把戏。AltaVista搜索引擎不仅从各个站点收集关键词,还能显示出与其链接的其他网站。AltaVist并没有以谷歌的方式利用这一链接信息,但那天在加西亚·莫利纳的办公室里,佩奇暗示这是一个排名网站重要程度的好办法。
起先,这只是一个游戏。“我们那天很开心,一直在看哪些计算机科学网页在各个大学中最受欢迎。”加西亚·莫利纳回忆道。他们高兴地发现,像斯坦福大学的数据库小组就比对手威斯康星大学的类似部门吸引了更多链接。
拉里对于链接有自己的看法。他告诉加西亚·莫利纳:“既然它对我们如此重要,为什么不把它作为搜索程序的一部分?”
拉里的想法是受其科学背景的启发。众所周知,在科学界,当研究人员在自己的论文中引用你的论文时,就会提高你的论文的可信度。你被引用的次数越多,你的论文就越被科学界关注。这个想法体现在尤金·加菲尔德(Eugene Garfield)1960年创建的科学引文索引数据库上,尤金是科学情报研究所的创始人。拉里推断,网络链接与科学引文相似,链接最多的引文,可能就是最受研究人员
欢迎的引文,并将被证明最为有用。这些站点应该在搜索结果中首先列出。然后他开始开发自己的软件,用于分析站点之间的链接。
这需要一些棘手的程序。该系统不仅需要计算某个特定站点的链接次数,还要进一步确定所链接网站的重要性。这要通过计算对反向链接网站的链接数来实现,从而大大增加了分析的复杂性。为了计算相关性,PageRank还必须反向追踪两步链接,并将数据与关键词关联。鉴于该系统反向追踪链接的特性,拉里最初称其为BackRub,但他后来将其命名为更复杂的PageRank,这是他姓氏的双关语。
也是出于偶然,谢尔盖开始了搜索引擎的研究。在斯坦福大学主修数学和计算机科学博士课程时,他在数据库小组里致力于一个研究项目。1995年,他和布赖恩·兰特试图研究另一种被称为“关联数据挖掘”(associative data mining)的计算机科学方法。这往往同时发生的信息片段。零售商用它来查询其销售记录,并确定客户是否经常一并购买其他物品。不过,数据挖掘是计算机科学的一个新领域。它需要存储大量的网络数据,所以谢尔盖不得不写了一个“爬虫”(Crawler)程序——用来访问网站、总结其内容并在研究生和搜索公司可以访问的中心位置存储数据的软件。其他搜索引擎已经有了自己的爬虫程序。
谢尔盖是一个了不起的程序员和工程师。他的互联网数据挖掘工作涉及对海量数据的解析。“他的大手笔其他人根本不会去考虑,”谢尔盖的顾问杰弗里·乌尔曼(Jeffrey Ullman)说。(谢尔盖关于谷歌搜索引擎概况的论文,被他自己在另一篇科学论文《服务质量和电子报纸:Etel解决方案》中引用。)
谢尔盖也是一个聪明的硬件工程师。他需要磁盘驱动器来存储所收集的数据,但是他资金不足,所以他买下了所能找到的最便宜的驱动器。但是当他试用时,驱动器却不够快。谢尔盖没有将它们扔掉,而是想出了一个办法,通过加倍驱动器接口的终端数量,总算使它们可以使用。“我从未想过这么做,”乌尔曼说,“这是一流的工程技术。”1995年年底,拉里和谢尔盖各自的项目使两人走到了一起。“我和拉里聊了很多,”谢尔盖回忆说,“我们相处得很愉快。”如果拉里要搜索网页,他也需要一个爬虫。所以他招募谢尔盖参与数字图书馆项目,将他的搜索技术和谢尔盖的网络爬虫结合起来。这是一个伟大的结合。“谢尔盖喜欢数学方面的东西,”斯坦福大学教授安德烈亚斯·佩普基(Andreas Paepcke)说,他负责数字图书馆项目。“拉里只喜欢开发,这正好合乎成长之道。”
另一位与拉里和谢尔盖共事的斯坦福大学研究生斯科特·哈桑回忆说,“那个项目主要以拉里为主。对于拉里而言,那是他最重要的事情。谢因为感兴趣。”他们常常工作到深夜,在供应5美元“学生特餐”的帕罗奥多“新选择”餐馆编写网页索引,并进行解析。他们经常忙碌到凌晨5点。