Google黑板报

谷歌中文网站管理员博客

Google 黑板报

Google新闻

Google AdSense China Blog

Google Developer Blog China

与G共舞

非官方的google黑板报

2008年10月29日星期三

搜索质量 续

几个星期前,伍迪•曼伯介绍了搜索质量小组,而此前发布的这个系列的几篇文章都有谈论搜索排序。虽然Web文件的搜索排序是谷歌搜索运作良好的核心因素,但您的搜索体验仅靠这些是远远不够的。在这篇博客里,我会介绍引导我们开发整体搜索体验的原则,以及它们如何应用于搜索工作的几个关键方面。我会还描述我们如何通过严格的实验,确保自己沿着正确的轨道前行。这个系列的下一篇博客将介绍目前正在进行的一些实验项目。

自我介绍一下,我叫本•戈麦斯,从1999年起一直在谷歌研究搜索技术,大部分工作集中于搜索质量。我的运气不错,从网页检索到网页排序,我对于搜索引擎的各个方面的研究都有所贡献。最近,我一直负责搜索功能界面和搜索特性的开发。

当朋友们听说我现在正致力于谷歌搜索的用户界面时,他们的一个共同反应就是:"你干了什么?界面从未改变过!"然后,他们怀疑地看着我,并告诉我说,不要把好东西糟蹋了。谷歌现在的样子就已经很不错了:页面朴实,反应迅速,简单干净。这样非常好,这有什么困难可言吗?

为了回答这个问题,还是让我从我们网络搜索的主要目标谈起:尽快让您看到您想要的网页。搜索本身不是目的;它只是一种手段。这个目标似乎非常显而易见,但恰恰就是这样一个目标让搜索引擎与互联网上大部分其他网站从根本上区别开来,衡量普通网站成功与否的标准是看它们能让用户停留多久。而我们衡量Web搜索成功的标准,至少是标准的一部分,是您在多短的时间内离开(我们当然希望您满意地离开!)。为了让您尽可能快地获得所需信息,我们坚持几项原则:

•小网页。页面小的网页下载迅速,并且通常能够更快地显示在您的浏览器上。这就是所谓"极简抽象主义设计美学";页面上太多花哨的设计只能减缓网页下载的速度,而且并不能给您带来多少好处。
•复杂的算法,简单的呈现。许多搜索特性需要大量的复杂算法和数据分析才能良好运行。所以诀窍在于将所有复杂计算隐藏在一个简洁、直观的用户界面背后。例如,拼写纠错、摘录、网站链接和查询优化等都是依赖精密算法的搜索特性,并且还在不断改进之中。从用户的角度来看,搜索算法是不可见的,但搜索功能越来越好用。
•无处不在的特性。设计网页特性时,必须保证其运算算法和呈现方式适应所有的语言和国家。设想一下中文书写检查问题,中国用户的查询往往不能分解成单字;在希伯来文或阿拉伯文中,文字书面是从右至左的(有趣的是,人们相信这是"先下手遭殃"的例证——在石头上刻字时,用右手掌握锤子更容易!)
•数据驱动决策——实验,实验,实验。我们尝试通过实验来证实我们所做的事是正确的。看起来大有前途的设计在测试的表现可能糟糕透顶。

这里有一种内在的关系。举例来说,在每一个搜索结果中显示更多的文字(或图像)可能帮助您更好地选出最佳结果。但一个堆放太多信息的搜索结果页面需要更长时间来下载和阅读。所以我们添加到结果页上的每一条信息都要经过仔细考虑,以确保它们给用户带来的益处大于处理更多信息所需的代价。这对搜索体验的每一步都是适用的——从输入查询关键词,到浏览搜索结果,再到进一步搜寻。

您的搜索是从输入查询关键词开始的。大家面临的共同苦恼是有时你并不知道单词的正确拼写!拼写纠错——一个看似简单而明了的特性——隐藏着许多技术上的挑战。比如说,没有哪一本通用英语字典将Britney Spears等词汇的正确拼写收为词条(对此可能是完全不知情的她却成了这项特性的典型案例)。我们对在互联网上的数十亿网页和我们的查询记录进行了大量分析研究,以确定什么是"用户真正想查询的关键词",以及哪些词可能拼写错误。帮您更正拼写错误的系统需要在几分之一秒内分析数量巨大的您可能原本希望键入的单词(大大超过人类写就的任何字典的单词数量),并确定是否存在您可能更希望查询的关键词。当我们确信您实际上想键入其他查询词时,我们会十分罕见地行使一下我们的"自由"权利,调整搜索结果:我们会设法转移你的注意力,不让您只盯着最靠上的搜索结果。在搜索结果页面上,经过拼写校正的关键词放在您的视线范围内,并且用非常醒目的红色标出。此外,我们确保网页上没有任何其他的红色文字——除非它与您的拼写纠错同等重要!(到目前为止还没有发现)。拼写校正所涉及的算法正在不断改善。这种方法现在可用于很多种语言的搜索查询,在检测您的拼写错误时更为有效。查询关键词的正确拼写是如此重要,以至于我们正考虑在网页的中间位置显示经过拼字校正后的查询结果(以防您没看见我们在网页的顶部和底部鲜红色文字!)

正确输入查询关键词之后,下一个任务是从结果列表中挑选一个搜索结果。对于每个搜索结果,我们都会显示标题和URL,以及两行简短的摘要。用户通常会忽略标题不正确的网页。近期一个较大的变化是,我们可以从一个没有明确给出HTML标题的网页中提取标题——虽然网页上的标题非常清晰,仿佛盯着你看似的。为了"看见"在该网页作者原定的标题,我们必须对HTML网页加以分析,以确定符合作者原意的标题。这能帮助到你不会因为只顾搜寻一个好标题而忽视了网页内容。标题下面是一段摘要,摘要中显示的内容源于谷歌公司早期的一个关键性的创新。最初,搜索引擎只能显示网页内容的头两行;而谷歌则不同,它向您展示含有您实际搜索的关键字的部分(信息检索专家称其为"上下文关键词")。在上下文中显示关键词看起来很简单,几乎难以与网页的更为简单的摘录区分开来,但它们对于帮助您确定访问哪个网页却有用得多。这种简单的假象掩盖了其背后的复杂性:为了创建一段摘要,我们必须审查每一个搜索结果所包含的文字,并从中找到最相关的部分(也就是包含您的关键字的部分),而不是只向您提供头几行文字。

过去一段时间,我们一直在用确定网页相关部分的算法改进网页摘录。搜索的变化包括细微的变化——我们在搜索结果中标志您所查询关键词的同义词——以及更为显著的变化。下面的一个范例截图中,当用户搜索"arod"一词时,您可以看到,搜索结果摘录中的"Alex"和"Rodriguez"都以粗黑体显示,因为基于我们的分析,您的查询词可能会是指他的名字:
    


一个更明显的变化的例子是,我们现在可以从提取并显示网页的署名日期。这些署名日期的格式五花八门,但我们将它提取之后以统一的格式显示出来,这样您可以方便地浏览搜索结果:
    


对于最常见的用户查询类型——导航查询(键入一个您已知的网站名称)——我们引进了一些"捷径"(我们称之为站内链接)。这些站内链接允许您直接访问网站的主要部分,并体现了上文所述的相同原则;它们是在搜索结果页中增加少许文字,是对置顶搜索结果的简单补充。
    


举例来说,惠普公司网站主页上有近60个链接,采取两级菜单系统。我们的算法综合使用不同的信号,挑选出我们认为您最有可能希望访问的链接。

如果你没能在置顶结果中找到您所需的内容,该怎么办呢?如果是这样的话,您可能需要尝试进行另一个查询。我们会通过在搜索结果的页面底部的一套相关查询优化词来帮助您——即便它们不包括您所需的查询词,也能提示不同方向的搜索建议(或许可以让搜索更成功),供您明确你的查询词。我们把查询优化放在页面的底部,这样不会分散用户的注意力,只是在搜索结果未能满足用户需要时提供帮助。

我已经介绍了搜索体验的几个关键方面,包括我们一直在改进的方面——有些很细微,另一些则更为显而易见。在对搜索体验的改进过程中,我们怎样才能知道自己取得了成功,而不是搞砸了呢?我们是通过与您共享来不断地评估的!我们向一小部分用户推出已改进的搜索特性,评估这些改进是改善还是损害了他们的搜索体验。我们使用很多指标来判定自己是成功或失败。评测这些改进特性的过程本身就是一门科学,其中藏着许多潜在的困难。我们的实验方法使我们能够探索各种各样的可能性,并推出最佳的产品。针对谷歌提出的每项特性,我们经常进行大量实验,而这些努力却从未见过天日。

所以,让我回答文章开始时提出的问题:我们实际上每天都在不断改善谷歌的搜索结果页面,并已经这样努力了相当长一段时间。我们决不会把好东西弄糟,因为用户不会允许我们这么做。

在这个系列博客的下一篇,我会谈谈我们正在进行的一些实验,以及我们希望从中学习什么。

没有评论:

发表评论

欢迎你的评论:

欢迎留言