设为首页 | 设为首页  
  热点关注
Google排名,Google优化推广研究中心
电话:0577-25655858 25655859
手 机:
Q Q:372248606
 
 
PageRank

谷歌算法始于PageRank,这是1997年拉里佩奇(Larry Page)在斯坦福大学读研究生时开发的。佩奇的创新性想法是:基于入链接的数量和重要性对网页进行评级,也就是通过网络的集体智慧确定哪些网站最有用。随着谷歌迅速成为互联网上最成功的搜索引擎,佩奇和谷歌的另一名创始人塞吉布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。

但这并不是故事的全部。曼博表示:人们信赖PageRank是因为它是可以进行确认的,但要提供最有用的结果还需要其他技术。这涉及对某些信号、上下文的利用,这样对于任何查询,搜索引擎都能将最有用的结果排在最前面。

网络搜索是一个多方过程。首先,谷歌机器人获取每个可访问网站的内容。这些数据将被分解成一个索引(通过文字进行组织,就像书本的目录),这样就可以根据内容找到任何页面。每当用户键入一个查询,谷歌就会在索引中搜寻相关页面,然后返回一个包含多达数百万页面的列表。最复杂的是对列表进行排序,也就是决定哪些页面应该出现在最上面。

此时,上下文便有了用武之地。所有搜索引擎都会引入上下文,但没有一个像谷歌那样引入得那样多、应用那样自如。PageRank本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性,其中的一些信号在现在看来是显而易见的。

一直以来,谷歌算法都对页面的标题给与特别的关注,因此标题成为确定相关性的重要信号。另一个重要技术是锚文本,指的是超链接中的可见文本。因此,当你进行搜索时,搜索引擎总能给出正确的页面,即使该页面中没有你找的关键词。这是谷歌早期架构师斯科特哈桑(Scott Hassa)的观点,他曾与佩奇和布林一起在斯坦福工作。之后,搜索引擎关注的信号还包括新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标,会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜索结果的排序。

谷歌工程师发现,一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入了搜索引擎:成千上万的网站民主地决定将链接指向哪些网站。但辛格表示,谷歌工程师还利用了另一种民主成千上万使用谷歌搜索的用户。用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的个性化搜索这是一个可选功能,利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。更通常的方法是,谷歌利用其收集的大量数据支持其算法,谷歌对此有极深的理解,可以解读隐秘查询的复杂意图。
热狗与煮狗

以谷歌确定同义词的方法为例。辛格表示:我们很早就有了一个有趣的发现,那就是用户会更改查询的关键词。比如有人会搜索dog,然后改成 puppy,因此搜索引擎就会得知dog和puppy可能是可以互换的。引擎也会知道,当你烧(boil)水时,水会变热(hot)。我们从人类的语义中学习,这是一个很大的进步。

但这也有障碍。谷歌的同义词系统知道dog和puppy类似,沸(boiling)水是热的(hot)。但它同时会认为hot dog(香肠夹心面包)和boiling puppy(煮狗)是一样的。通过路德维希维特根斯坦(Ludwig Wittgenstein)的理论,该问题于2002年得以解决。该理论涉及上下文如何决定词语的意思。当谷歌抓取并存储数以亿计的文件和网页时,它会分析哪些词是彼此邻近的。包含hot dog的页面通常也包含面包、芥末、和棒球,而不会包括对杂种狗的猎杀内容。这就帮助了搜索引擎理解hot dog和其他成千上万个词语的意思。辛格说:现在,搜索引擎会知道bio在Gandhi bio中是biography(传记)的缩写,而在bio warfare中是biological(生物)的缩写。

在谷歌的发展过程中,该公司不断设法增加新的排序信号,并且兼顾不会影响用户的核心体验。每几年就会对系统做一次重大修改(有点像 Windows的新版本),这在山景城是人尽皆知的,但其他人不会关注。

辛格说:我们的任务是对这架以每小时1000公里在三万英尺高空飞行的飞机的系统进行根本性更改。2001年,为了应对互联网的飞速发展,辛格事实上完全改写了佩奇和布林的算法,以便使谷歌可以快速增加新的信号(新信号之一可以区分商业页面和非商业页面,从而为购物者提供更好的结果),也是在这一年,一位名叫克利什纳伯哈拉特(Krishna Bharat)的工程师认为权威网站上的链接应该具有更大的权值,因此设计了一个强大的信号以便赋予这些链接更大的可信度(这是谷歌的第一个专利),最新的一项修改的代号为咖啡因,对整个系统进行了修改,从而使得工程师可以更容易地增加新的信号。

谷歌识别语义的过程

谷歌以善于鼓励这些创新而闻名,每年公司都会举办疯狂搜索创意内部展示活动,以便鼓励那些离奇但有应用潜力的创新。但大多数时候,改进的过程是充满艰辛的,需要矢志不渝的精神,需要面对尝试过程中的打击。有一个不成功的搜索已经成为传奇:2001年,辛格得知输入audrey fino时无法搜到预期内容,而只是返回一些赞扬奥黛丽赫本(Audrey Hepburn)的印度网页,因为在印度语中fino是好的意思。辛格说:我们知道audrey fino是个人名,但我们的系统没这么聪明。

这一失败使辛格花了多年时间,试图改进谷歌对姓名的搜索结果因为姓名占总搜索量高达8%。为了解决这一问题,他不得不掌握bi-gram 拆分,也就是将多个词分割成独立的单元。比如,new york合在一起组成一个bi-gram,指的是纽约。但也有三个字的情况,比如new york times,意思是纽约时报,很明显二者指的不是同一样东西。如果用户输入的是new york times square,意思又变成了纽约时代广场。人类可以很容易做出区分,而谷歌不是由人工控制的,它依靠的是算法。

Mike Siwek这一搜索可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后,我们就可以看到信号是如何决定搜索结果排序的:通过bi-gram可以确定mike siwek是一个人名,lawyer是一个同义词,mi是一个地名。辛格说:从工程师的角度进行解构,系统会对这些词进行分割,它会发现lawyer不是姓氏,siwek不是中间名。同时lawyer也不是密歇根的一个镇,因此它是attorney的同义词。

这是谷歌从无数次搜索中获得的可贵知识。石头可以是rock,可以是stone,还可以是boulder(漂石)。如果用户输入 rokc,谷歌仍会知道他想找的是rock。但如果在rokc前加little,谷歌则会知道这是Arkansas(阿肯色州)的首府。Arkansas的缩写是ark,与诺亚方舟同形,但谷歌会将二者区分开来。辛格说:搜索中最重要的是理解用户的意图,因此你不是在匹配词语,而是在匹配意思。

谷歌一直在不断改进。近期,谷歌工程师莫琳海曼斯(Maureen Heymans)发现了Cindy Louise Greenslade的搜索结果的问题。用户输入这些单词时,算法会认为应该找一个名叫Cindy Louise的人,于是在加利福尼亚的加登格罗夫市找到了一名心理学家,却没有把姓名为Cindy Louise Greenslade的人的网页放在结果的前十名。海曼斯发现,这是因为Cindy Louise Greenslade习惯将名字缩写成Cindy L. Greenslade。她表示:我们的搜索引擎应该更聪明一点。于是她增加了一个信号,用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。