搜索引擎

当你向互联网上传一个页面,来自世界各地的无数“蜘蛛”便会蜂拥而至。它们抓取并复制你的网页,跟踪着网页中的链接,悄悄地爬上更多的页面,用触角将它们纳入索引数据库。数据库像轰鸣的机器,拆解网页上的文字内容、标记关键词的位置、字体和颜色,并生成庞大的表格。这时,你输入一个单词,点击Google或百度上的“搜索”按钮,它会在0.2秒内得到响应,带着单词奔向索引数据库的每个神经末梢,检索到所有包含搜索词的网页,依据它们的浏览次数与关联性等一系列算法确定网页级别、排列出顺序,最终按你期望的格式呈现在网页上。

这就是一个“关键词”的云端之旅。在过去的10多年里,类似的旅程总共进行过数十万亿次。它催生了搜索引擎的先驱Overture,成就了本世纪最早期的创新明星Google,还有Yandex、Navar和百度等来自全球各地的Google效仿者。它让搜索引擎成为人们最依赖的互联网工具,以及推动人类信息自由流动的传福音者……

但现在,这一切可能都不再重要了。设想一下,当你同时打开RSS订阅工具、Twitter(新浪微博)和Facebook(开心网)坐在电脑前的时候,你更倾向于用哪种方式获得信息?那些通过社交工具推送到你面前的内容,是不是通常比你主动搜索的信息更有价值?你搜索“美洲豹最便宜的价格,”得到的结果是车还是棒球杆?如果你对腾讯与360的战争完全没兴趣的话,在你搜索“周鸿祎”的时候,真的一定希望“马化腾”跳出来吗?

这就是当下的搜索引擎在几何级网页数量爆炸时面临的困境:即便搜索引擎优化(SEO)工具越来越普遍地被网页设计者们纯熟地应用,但它仍然不能确保人们在第一时间搜索到他们需要的信息——甚至,成功几率越来越低。

“目前上万亿的网页,其中大约有250亿的页面可被检索,有可能出现在用户搜索结果里的页面,最多占5%,未来几年这个数字甚至会降低到1%以下,”微软亚洲研究院常务副院长马维英说。当下的搜索引擎技术就像图书馆检索那样为所有的书建立检索码,但最后有可能带给用户的价值越来越少——它被持续膨胀的网页数量稀释了。

那么,未来人们需要什么样的搜索引擎?

Google试图提供最新的解决方案是:超快速的自动搜索。Google首席执行官施密特在最近的一次演讲中提醒人们永远不要低估速度对搜索的重要性。他还认为,搜索最终将不仅仅是搜索网页,而是个人的几乎所有信息——包括电子邮件、音乐和你关注的话题。在得到你的允许后,它将成为你专属你个人的搜索。

这似乎解决了搜索引擎的个性化需求和匹配问题,但Google未曾真正提及的是:与任何一类以“你”为中心的媒介相同,“你搜索”需要建立在社交网络化的基础之上——例如你搜索到的内容被你的朋友推荐,它会在搜索结果中得到提升,从而进入你个人搜索的优先级。在这个过程中,朋友的“顶”就进入了搜索引擎,成为整个搜索的一部分。

但奉逻辑学与数学为宗教的Google却并不擅长社交网络领域——它甚至站在全球最大社交网站Facebook的对立面。让搜索“社交化”意味着赋予搜索引擎社会学和心理学的属性,而这会改变Google的基本逻辑。事实上,搜索引擎领域逻辑更替的核心是:搜索引擎将越来越通晓人类的语言和意图,为用户抓取他们最想知道的网页内容,甚至能识别语音、图像及表情等非文本材料——不但返回更精确的文本结果,还包括大量的多媒体内容。

越来越多中小型公司试图沿着这条道路证明Google代表的当下“客观主义”搜索技术的简陋:当你在一家名为Powerset的搜索引擎网站搜索“谁曾打败过安德烈·阿加西(Andre Agassi,美国著名职业网球运动员)”的时候,呈现在第一位的搜索结果是另一位网球运动员皮特·桑普拉斯(Pete Sampras)的页面。而在Google上,最前面的结果仍然是阿加西的个人信息。如果在另一家搜索引擎Cognition的页面上输入相关的法律和诉讼问题,也能得到相关条款的精确回应。

这就是人们通常所谓的“语义搜索”,但割据的小型语义搜索网站采集的信息量有限,并不足以在全面抗衡Google这样的巨头。但它们被召集在一面旗帜下,意义就完全不同了。这个“召集者”不是别人,正是在互联网时代落寞许久的巨头微软。

在收购雅虎的交易失败后,微软对互联网和搜索引擎的布局走向了一条隐蔽但颇具技巧的道路。2008年7月,微软宣布收购上文中提到的语义搜索引擎Powerset。紧接着又推出了购物比较引擎Live Cashback、旅游搜索引擎Farecast以及健康搜索引擎health.live.com等基于语义的搜索分支。2009年6月微软发布全新搜索品牌Bing之后,它们又被整合进入Bing的框架体系。

但它们尚未构成一个完整的搜索产品。这是因为语义搜索技术的处理能力和速度仍是主要缺点,有时甚至需要长达20秒才能分析完一个页面。但微软的不同在于,它有能力投资更大型的服务器集群,这使语义搜索成为微软在搜索引擎领域树立的壁——当然,你也可以把它看作微软搜索引擎计划的Plan B。

不容忽视的是,支持微软在语义搜索领域有望抢先获得一席之地的,是它背后的基础研究力量。在基础的计算科学领域,语义搜索并非一个崭新的话题。至少在微软内部,围绕它的研究至少已经有10多年的历史。而现在,是它们集中爆发并转化为现实产品的时候了。

“尽管人们不该让科学家预测一项研究计划转化为现实产品的周期有多长,但是我们在搜索引擎领域的多年基础研究,正好到了收获果实的时候,因为人们对搜索的需求正在发生变化,这就是你现在看到的一切。”微软全球高级副总裁里克·雷斯特(Rick Rashid)对《环球企业家》说。至少在目前,微软相信它能在语义搜索上扳回一局的原因,是因为搜索引擎技术的门槛并非轻易地能被任何玩家企及。

在雷斯特看来,搜索引擎的技术至少在四个方面设置了门槛,并把大量试图觊觎这一领域的玩家过滤在了最终的游戏之外:其一是服务器抓取数据的能力,它将不仅仅来自普通网页,还将来自各类垂直的数据库与社交网站中的关键信息;其二是在几何级增长的互联网数据和信息爆炸面前维系处理它们的速度;其三是巨额投资在全球各地建设大规模的服务器集群;最后一点,是能追踪分析用户的行为与心理,通晓用户的意图和心理。“而这也恰恰是语义搜索的基础,”

而有了庞大的服务器集群,也能够保证处理几何级增长信息的速度,这种能感知人们输入语言意图的“智慧搜索”,又将如何实现?微软给出的答案是:重新制定搜索引擎的规则。

“搜索引擎必须了解到底需要在网上完成什么样的任务,我们现在需要看到的是一个任务,然后帮助用户做出决策并采取行动,而不是给用户十个链接再让他们逐个打开去寻找信息是否有用,”微软亚洲研究院常务副院长马维英对《环球企业家》说,“这有机会对搜索的格局产生颠覆式的创新。”

这意味着当下搜索引擎的原理从一开始就被打破了——搜索的起点将不再是关键词,而是一个包含着关键词的短文本和信息群,机器需要通过对它的分析和判断,再排列出相应的文本和网页顺序,推送到用户的浏览器上。

也就是说,必应(Bing)将更像是一个路由器:它了解用户的搜索目的,把目的与任务结合起来,以更多的搜索表现形式,理解搜索目的,抽取出所有的知识,把知识按照目的组织起来,甚至提供一个新的搜索生态系统。

它对研究人员来说是完全不同的工作流程。传统互联网搜索的最小排序单元是网页,但当搜索的对象(entity)从网页转移到某一个人、事物和现象的时候,尽管搜索出结果仍然是网页,但它需要机器对相关的内容进行知识抽取、整合并总结,以一套完整的框架性结构的呈现在网页上。其中,搜索与社交网络的结合,以及专业问答类社区可能会发挥更重要的价值。

至少在微软内部,实现这一切并不容易。搜索团队必须渗透到微软研究院的基础架构、机器学习、自然语言等领域的大量核心资源当中。至少,它得允许研究员和工程师轻松地修改代码,这是在微软第一代搜索引擎的架构中难以实现的。

以微软即将发布的“学术搜索”为例:它旨在帮助用户快速找到某个学术研究领域内的顶尖学者、学术会议和期刊,获得一个学术领域的兴趣与发展的详细信息,发现某个研究领域的学术论文和学术新星。它是完全建立在“对象”基础上的搜索,甚至可以搜索研究人员之间的关系、论文的共同作者,以及哪所院校在这某个领域研究最出色,过去五年哪些机构排名上升等相当“琐碎”的信息——只要你向搜索引擎提出这些问题。

更现实的应用是微软的中文旅游搜索——它没有抓取浩如烟海的旅游网页信息,而是将抓取的对象锁定在社交网站和个人博客上的20多万篇网友游记,从中提炼出超过3万个热门景点的旅游状况。当用户提出针对某一景点的旅游问题时,它会自动抽取相应的信息,组合答案呈现给用户。它还与必应(Bing)地图相结合,鼓励网友上传旅游路线和图片,创建旅行计划,以期进一步丰富旅游搜索的信息资源和语义库。

 “它会提供给你最终的答案,直接找出答案的结果,而且完全不同于社区问答类产品,是搜索的结果,”微软亚洲研究院院长洪小文说。而这种颠覆式的数据挖掘、知识提取与算法逻辑,甚至使人们对多媒体的感知也可以通过搜索的形式呈现。微软研究院还开发了一个可扩展的解决方案,通过索引超过两百万张网页图片,建立了一个名为MindFinder的系统,可以实现高效、基于素描的图像寻回——这意味着你使用任何一种触屏数字设备的时候,可以用简单的手势勾勒某个事物的草图——它将被视为搜索的指令,然后在屏幕上呈现出你预期中的画面。你一动念头,搜索结果就会冒出来。

搜索即服务

尽管以语义搜索为代表的智能化未来充满了想象力,但它却并非下一代搜索引擎的终极使命。至少在微软看来,搜索引擎并不一定局限在“必应”(Bing)的搜索框当中。看看它的语义搜索实验能在Twitter上发生些什么:在全球已有1.45亿注册用户的Twitter每天承载着9000多万次的更新和超过8亿次的搜索——它已经成为世界上全面的和鲜活的数据库,也是政府、企业和公共机构体察舆情的重要来源。

但这些Tweets(指Twitter上的用户言论)中有很大的比例是毫无意义的空话和垃圾内容,且夹杂着各种缩写和不规范语言,这导致传统的关键字搜索所返回的内容列表,其分析价值相当有限。而语义搜索能对海量Tweets和大规模用户之间的联系进行分析,提取关键信息。当你输入“Barack Obama”(美国总统奥巴马)的时候,它能自动统计出数十亿条Twitter信息中对奥巴马的“正面”(positive)和“负面”(negative)评价的比例,并列出诸如“聪明”、“善良”、“决断”、“吝啬”和“愚蠢”等一系列用户形容奥巴马的最频繁的关键词。

这意味着搜索引擎本身不仅以搜索框的形式出现,还可以化身成一种互联网服务的工具。“只有当搜索引擎能够被开发出更多应用的时候,万维网才会被带到下一个时代,”微软全球高级副总裁雷斯特说。而社交网站的搜索开发显然是其中的一个方向——它不仅可以提升搜索本身在当下的重要性,也符合语义搜索的趋势需要。维基百科创始人吉米·威尔斯(Jimmy Wales)曾试图创建一个结合用户意志和语义关联的搜索引擎网站Wikia Search(请于gemag.com.cn参看《我爱维基》),但后来放弃了。他曾表示过未来的搜索形态可能分散在各种互联网的角落里,而不是搜索框。

而据称Facebook也试图将其庞大的数据源进行全面探索,以结构化的数据和开放图谱(open graph)为基础,推出一款语义搜索引擎的计划。在它的背后,是微软与Facebook的搜索战略合作关系——必应搜索(Bing)已成为Facebook诸多服务的一部分。随着微软在语义搜索领域基础研究的产品变现,它将进一步体现在用户在Facebook的搜索体验中。如果Facebook用户使用“必应”搜索“比萨”一词,搜索结果将会出现食物的图片、食谱以及最近的比萨店地图,而不仅仅是提供一些比萨店的网址链接。

从内容走向应用和服务,这是搜索的宿命。