IT龙门阵第14期
交流主题:Google对未来搜索的展望
主讲嘉宾:Google全球副总裁、大中华区总裁李开复
主讲人:刘兴亮
主办单位:腾讯科技、大度咨询、TechWeb
时间:2007年11月6日晚上7:30-9:30
地点:清华紫光国际会议中心一层紫悦厅
主持人:现在是IT龙门阵第十四期,这一期很容幸有请到了李开复老师来和大家交流,主题是Google对未来搜索的展望。下面我们以热烈的掌声欢迎李开复老师。
李开复:很高兴有机会跟大家交流,这么大的龙门阵我还没有参加过,今天程天宇跟我说来聊聊天,所以主要是交流,那我想交流的话,可能先把一个主题铺开,我想不会讲太长。很多人说搜索是不是已经做到极致了,没什么好竞争的了?大家差不多了?今天我郑重的、彻底地否认这个看法。
我想谈的一部分就是说,我们在过去的一年多以来,在中文搜索上,把过去的不足,尽我们的能力弥补了,然后我们在传统的网页搜索上做到了什么样的绩。
另外我在想,现在已经开始对未来的工作,就是对网页搜索到整合搜索,有什么样的一些更大的契机。然后最后我再想讲一下除了整合搜索之外,还有什么样的搜索的一个机会?
从这个宏观的角度来看,我们肯定是需要搜索,而且越来越需要,越来越难,为什么这么说呢?信息,互联网的信息是越来越多还是越来越少?是越来越多元化?还是越来越一元化?那么东西越多、越多元化、越复杂,那么平常的浏览方式,就像我们在以前在Windows里面,我们可以把我们所有的电子邮件都能够非常好的分类,后来慢慢不行了。
所以在刚开始的雅虎做了分类之后,慢慢大家觉得分类不行了,不可能靠分类浏览的方式需要搜索。这个是1995年的情况,那12年之后信息越来越多,而且越来越复杂,有视频、有各种不同的新闻、图片,还有更多结构化的数据库的信息,所以越来越复杂,越来越多。当然要找到它,让人能够简便的找到它,就和当时Google的第一个版本是一样的,非常简单,打进去要找什么,然后给我很多的选择,让我有很大的概率能找到我想找到的。这样的理念我认为至少未来十年还是需要。
还有一点我想谈到的就是说,搜索的技术不是说好,技术开发出来以后,信息再来,我就兵来将挡,不是这么简单的事情。因为信息越来越多了,就表示你搜索引擎会越来越坏,我们在Google做了很多的内部评估,今天当然不能分享这些评估的信息,但是我可以告诉你,当你看到的一个搜索引擎,他没有继续投入,我有一些搜索引擎是这样的情况,然后它会在我们的衡量下会每况愈下。因为信息越来越多了,其实很简单,所以我们的评估会越来越难,所以一个不再往上推进的引擎,它会越每况愈下。就算你要维持现状也要花很多时间去努力,何况还有那么多视频,还有多媒体信息,还有结构信息的出现。首先我想谈一下就是苦功夫,我们Google中国,怎么把中文的搜索做好的?
首先我想坦诚一下,两年前我们的中文搜索确实有很多问题存在,也有好多人认为说中文搜索不是太好,不管是精确度体验,或者从它的涵盖度或者是新鲜,等等各种问题,反正用户的抱怨还是很多的。我们在中国开始建立团队的时候,前三个月的工作基本上全部在自我批评、自我批判,我们的搜索引擎哪些方面做的不好,怎么样去改进。那么一个传统的网页搜索引擎,它的评估和改进,其实就在几个比较简单的地方,一个是够不够精确,还有就是有没有作弊,搜的广度够不够多,还有他的新鲜事做的够不够好,这个是它的一个精确还是我们很重视的事情。在多次的网民调查,当然还有用户体验、新的功能,但是一个不精确的搜索引擎,还是本质上不能够被用户接受的,最重要的事情。所以在精确度方面,我们在这两年有了很大很大的提升,这个提升大概就是说,刚来的时候,和美国的英文搜索引擎差距非常地大,所以中国用户对我们当时有意见确实是有道理,因为我们的中文搜索远远不及我们的英文搜索。
在今天的情况,我们非常自豪地说是基本上中文搜索精准度,已经差不多赶上了英文的精准度,所以你们都知道美国的用户是多么认可我们的搜索,我们这方面也能够在这两年之内做了很大的提升。在中国至少有4、5次不同的盲测,每一次都从精准度来看的话,都是中国最好的搜索引擎。有一些在博客里面说还不见得是Google是最好的中文搜索,在这里我就邀请任何在座的一位听众,如果不认可我刚才讲的这句话的话,你们回去就把Google和你最喜欢的搜索引擎做一个对比,你想十个词出来,两边搜一下,然后两边评估一下是谁做的好。如果做出来我们还没有最好的话呢,我是不相信会有这样的事情发生的。所以你测一个词是我们不能保证,因为我想就是说,其实每个搜索引擎还是做的不错的,一个词、两个词,三个词,都可能A比B好,B比C好,但是十个词的话,我有99%的把握。所以这个精确度最重要,在多次的盲测,你们自己回家去测,都可以确认这样一个事实。这是第一点。
第二点就是说,抓得够不够多,我们这两年抓的网页至少多了三倍左右,我们抓的完整度至少比以前多了三倍左右。所以我认为从各种不同的评估来说,我们抓得应该是相对比较完整,我们也在这方面花了很多苦功夫,你可以想象要做很多功夫,找到你们不能抓取的网页。所以如果你有一个很奇怪的博客、或者一个很新奇的网页,我相信你在我们的搜索引擎都可以找到。
第三个是新鲜度。我昨天有一个很重要的信息出来,多快能够捕捉到?这个其实是不容易的事情,因为我们不可能一秒钟爬遍整个中国的网页,所以这个我们的做的方法其实我们有很多这种聪明的方法,我们会去判断一个网页的重要性,对重要的网页,我们可以几分钟就抓到,你放一个东西上去几分钟内在Google可以搜到,如果你不相信的话,其实很简单你到新浪、搜狐或者任何一个网页,你可以试试,你把一分钟前、两分钟前刚出来的新闻,你到Google里面,你会发现很多,很多我们的员工在比,在几分钟之内能抓到,但是我看到7分钟之内的、5分钟之内的,非常非常快就能捕捉到。当然这不是每个网页都能抓到,因为不是每个网页都和新浪新闻一样那么普遍,在中国的网民心中,把它排名排的这么高。但是重要新闻网页几分钟就可以抓到,不相信你可以自己去试试看,5秒钟就可以测试出来,这是新鲜度。
还有作弊,作弊的意思就是说,我好好的搜索一个比如说IT龙门阵,结果突然跳出来了一个做广告、想卖东西的搜索结果排在IT龙门阵前面,但是它和IT龙门阵并不相关,这个我们有一个相当大的团队做了各种技术,这个不是靠人去一个一个封闭,我们基本上不用人,我们用机器。人可能会标注一些东西让机器去学习,这样在降低所谓的作弊,我们也认为我们的中文已经超过了我们英文的水平。所以在这几方面,我们都非常自豪,所以整体来说这个网页的搜索,我们认为如果对这几点精准,然后快,然后够全,没有作弊,就是一个搜索用户其实心中最渴望的几件事情,我们认为我们都已经做到了非常好。而且甚至比我们自己英文在美国的结果都更好。这里面有很多工程师的苦功夫,也是我们过去50到100个人,花了一年到两年的心血,而且往往是5个人做了很久,最后把我们的精确度提升了0.1%,然后都是这么多的0.1累计出来的,所以当你们用到搜索引擎无论是我们的,还是其他的,希望你们能够体会,然后工程师的辛苦,怎么样能够把一个搜索引擎做的比较精确,这绝对不是一个一步登天的一个可能做出来的结果。
那么这是今天的网页搜索,所以我们对中文的网页搜索我们相当自豪。在过去一年半中做了这么多工作,我们认为是今天最好的中文搜索。做到这样的地步是不是就结束了,很显然没有。第一个中文的网页搜索,如果我们不继续的把这每一个0.1%都争取的话,这个网页搜索它的精准度就会下降,因为每天网页越来越多,然后有各种的作弊方式会发生,还有各种不同的新的网站、新的内容等等问题会出现,所以我们一定要继续努力,我们几十个人、上百人的团队会不停的、永远的专注在看搜索的质量,这是今天的搜索。
现在我想谈一下在未来搜索会走向什么样的一条路?未来方面我认为最重要的一点就是整合搜索,我们说未来其实不太精确,其实今天已经有不少整合搜索的功能已经上线了。待会儿会有一些想法,是怎么测试的。整合搜索的概念大概是这样,网页搜索能够把很多的文字做一个排序,它靠很多不同的排名方式,一个排名就是看一个网页多有权威性。另外就是我搜索的词和网页的词有没有出现,做一个匹配,这些都是传统的网页搜索非常重视的一些特征。但是,后来有不少的网站发现了一件事情,用这些特征来做,排名网页和文字相当好,但是很多特殊的信息用它来排名就不太对了。比如说书本的排名,如果你要搜索的是图片,那图片本身我们没有办法理解它,但是你可能找附近的词,还有图的下面有没有图注的存在,把这些东西加全来处理。比如你要排的是学术论文,一个学术论文它排高还是排低,可能更多的要看这篇论文和作者还有期刊,它本身权威性高不高,那怎么决定一篇文章的权威性高不高呢?就要看其他的文章有没有来引用它。这是一个不同的方式。
新闻搜索当然很重要是新,就是你做一个新闻搜索,一个十天前的匹配更好的文章,也许不应该排再一个5分钟之前匹配较低的文章上,因为新闻搜索新很重要。比如说视频、比如说博客搜索,比如说论坛搜索,比如说公交路线、地图、比如说餐饮的搜索,比如说我们的二手货的搜索等等,今天可能有一百个不同的搜索,他们用传统的网络搜索排名就是排的不好。为什么不好呢?因为网络排名所用的特征,他们所用的信号不适合这一种文本,这一种类别,不适合。所以就有很多的垂直网站,他们就产生了,有些是做比如说二手货的搜索、餐饮的搜索、或者是书名的搜索,非常多的垂直网站就出现了,有一些是Google做的,有一些是我们的竞争对手做的,有一些是一个小公司做的,他们每一个都能在这个领域里比网页搜索做的更好,这个是毫无疑问的。因为他们挑选的那个类别就是你网络搜索搜不好,亿我又来做一个垂直搜索,比你做的更好,这个对用户来说是一个好消息。
但是今天我们看是上百个、甚至上千个不同的垂直搜索,但是这个就违背了当时搜索的理念,搜索的理念就是所有天下事,你在我这一个框里打一个词都可以帮你搜到,但是慢慢搜论坛到那去,搜公交到这儿去,搜地图到这儿去,找餐饮到哪去,找视频到这个网站。慢慢的我们的脑袋就爆炸了,而且一般的用户,在座都是互联网的元老,用了很多互联网的,还有很多初级的用户,他们不可能会记得每一个垂直搜索到什么地方去,这是一个很大的问题。还有很多的就是说,有些东西到底要去哪里找?比如说有关周杰伦的信息,我应该到视频找、新闻找、音乐找?还是博客找?粉丝俱乐部找?还是论坛找?因为周杰伦到处都出现。你要找李开复的话,你要到他的学术论文还是他的书本,还是演讲的内容,还是视频?还是公司?还是个人博客等等,很多不同的结果,到底去哪找?就算你知道各种不同的垂直搜索,可能你也不知道要去多少个地方?所以我们认为这个又是开始了对用户的一个不方便。所以我们整合搜索的概念,就是又回到了一个搜索框,我们去处理一个很困难的技术问题,就是当你搜索周杰伦的时候,他的一个图片和他的博客、还有粉丝俱乐部,我们要把它做一个排序,怎么去做排序,当然是我们公司的机密,在这里不能够分享。而且你可以想想,比如你只搜周杰伦的时候,我们可能就会想说大部分的人,想到周杰伦是想到音乐呢?还是演员呢?还是粉丝俱乐部、还是新闻呢?还是其他的?但是如果一个人搜索周杰伦唱歌,这个时候哪些排的高一些?如果周杰伦专辑、周杰伦绯闻等等的,你可以想象所有匹配周杰伦的搜索词这个排序又不一样,所以我们要做一套技术能够处理单个或者多个的搜索词,而针对这些搜索词,我们要把多元的不同信息,他们用不同的方式排名,能够做一个动态的排序,你可以想象这是相当困难的一件事情。我们所有的搜索都不号称能够做到完美,因为不可能的,我们尽力把它做好,对于用户来说,我们认为如果你要找的某一个信息,如果找的是周杰伦的视频,但是你只打了周杰伦进去,我们如果只要能把它放在第一位,我们就相当满足,并不强求他一定要排在第一位。整个搜索的概念就是这样,排第一位还是比较困难,排到第一页大部分用户比较满意了。
那整合搜索就是我们要把多元的信息整合起来,然后做一个动态的排序,这样的情况之下,用户就不需要知道这些垂直搜索。这不表示垂直搜索就要灭亡了,垂直搜索还是存在的。那些明明知道自己要到哪找的人,还是可以去垂直搜索,只是那些不确定的人,或者要开始做一个搜索的人,我们欢迎他来我们的整合搜索,然后我们会给他不同的路线,让他发现一个比如我打周杰伦,看到了周杰伦的视频,点击看更多周杰伦视频,去看更多的内容,这个是整合搜索的概念,是要把各种垂直搜索做好,然后做一个动态的整合,真正用户搜索的任何东西,我们都可以做一个很好的排序。这样就降低了用户的负担,他不需要去认识一千个不同的垂直的搜索。这个是我们明年最重要的一个方向。
最后我还想讲几点我们也认为很重要的发展。先讲一下,整合搜索今天在我们的网站上已经开始推出了,所以你可以试试不同的词,当你做一个搜索,图片出来了、地图出来了、视频出来了,这个时候你就会看到了有一个、两个或三个的搜索,而且不一定排在第一个,可能第二、第五、第十,都有可能,欢迎你们去试一试,你会发现每一个月我们的整合搜索里会有越多的非网页搜索。三个月以前你去搜几乎都是网页,今天的话我想至少有10%到15%有这种多元的结果,未来越来越多,30%、40%等等,越来越多。这是一个我们发展的方向。
另外我想再谈几个,我们认为很重要的方向,第一个方向我想谈的就是智能化。怎么样让搜索变的很聪明,刚才谈的搜索的排序,然后把整合搜索的信号整合起来,里面还有很多很有趣的东西,只是用户不见得能够看得出来,因为我们并不没有把这里面的机制暴露出来,我可以举个例子,让你们知道网页搜索是相当困难的事情。
一个例子怎么把它做的智能?
我想第一个是智能化,比如你去Google搜索WTO。但是可能在座的有少数的人知道,还有一个WTO,世界旅游组织。如果你只是照一个标准的搜排序的话,那这个旅游的组织,绝对排不到第一页,因为对它有兴趣人的人,100个人可能只有一个,但是作为一个搜索引擎,对我们非常重要,这样100个人不会有一个人非常生气,觉得我是不是打错了,是不是应该是别的词?所以我们也要平衡这两者,要有多元化的信息出现。这是第一。
第二个是不同的国家。Google在全球有不同的网站,Google.cn是中国的网站,它是为中国的网民设立的,美国的叫什么?Google.us。英国的叫Google.uk。所以现在你就知道了,以后你如果假装英国人、日本人、韩国人、美国人你可以直接从那个网站进去。你可以把Google.us或者Google.cn打开了,发现我们是针对了美国人的习惯和中人的习惯做了动态的不同的排序。所以我们会分析各国不同使用的方式来,对语言做一个合适的排序,这也是一个很有趣的东西。
另外一个更有趣的例子,你到Google.cn去打JAY,我想搜出来的结果基本上全是周杰伦,但是你到美国去打JAY打进去,出来的各种棒球员、喜剧员、政治家都会出来,就非常有趣,因为我们知道,从这个信息你知道什么呢?你知道美国人是不迷周杰伦的,你如果打一个JACKIE,成龙那就排的很高,因为美国人很喜欢成龙的。但是他们还不认识周杰伦。所以这些你可以做各种有趣的研究,还有跟有趣的,你在中国图片打一个JAY,第一页还是有鸟出来,刚才谈的多元化,到底还是有那么多的中国的学生在准备这个考四、六级的时候,想知道JAY这个鸟长什么样子,还是会有多元化的结果出现,这也是一个非常有趣的东西。多元化还有的多语言、多国家的不同的排序,刚才谈的。
下面还有机器翻译。我们认为的多语言是不够好的,我们认为没有一个人可以学会多种语言,但是未来的互联网上,除了英文、中文的很多,还有不同的语言,我们的目标是把每两种语言,他们的语言能够进行一个翻译,所以今天你有兴趣,你可以到translate.google.com,这里可以把任何一个网页或者任何一段文字输进去,让它翻译到另外一个语言。首先我想讲这个技术不是完全地成熟,也不能跟人的翻译来做比较。但是对于一个不懂对方语言的人,他要做一个初步的翻译,大概理解一下大意还是相当有帮助,所以以后有了这样的工具,至少你可以做一个初步的浏览,不管你是对阿拉伯语或者法文,其他的语言感兴趣,这是相当的工具,所以希望大家有机会可以尝试一下。
这些是我们一些未来的对搜索的技术的一些开发。这些东西已经推出以后会做的更好,另外几点我们认为也是非常有趣的,一个是个性化。
因为每一个人想要得到的东西其实是不一样的,一个人打JAY,一个是想知道周杰伦,一个人想知道鸟,两个人打桥,一个可能是要知道桥,一个想要知道桥牌,中国也是一样的,有很多的字有不同的歧异,比如你打一个苹果有些人想要找水果,有些人想要找电脑,那么我们怎么样能够根据一个人,过去的搜索,或者是我们知道的一些个人的信息,能够把结果排的更好,也许或者是如果他愿意补充一些信息,你能不能更聪明的做一些排序。我们也希望把这个做的越来越智能化。
还有一个我们重视的是移动的搜索,我们认为在移动的时候,有些东西搜索是非常非常重要的,就算你有PC的话,你需要知道餐馆,哪家餐馆更好吃,能不能帮你定位,或者是找路找不到了,你想知道你的股票涨了还是跌了,需不需要购买,这些东西我觉得在移动搜索非常重要。所以我们会把PC上所有的功能都一步一步移到你的手机上,手机的重要性,我们知道中国5亿的手机用户,这是一个毫无疑问的重要的市场。但是在这个,除了很多用户之外,我们还可以看到的是3G时代的来临,而且手机越来越聪明,其实它跟PC差得不远,其实你几乎可以看到整个的网页,现在大部分手机还没有到这个地步。所以我们认为手机上面的使用是非常有潜力的,当然手机也有挑战性的,输入也比较困难等等一些问题,但是手机上也会有更多的机遇。比如在手机上会有两点,你PC上不容易捕捉的信息,这个手机知道你是谁,这手机知道你的联络户,其他人,你过去曾经打什么电话,而且你比较放心的,因为这个是你个人的一台及其,把东西储存在上面,这个会个性化,也会更好。另外一点是手机上以后都会有GPS,所以它会知道你在什么地方,所以你搜索的时候,它会给你很聪明的结果,这是一个智能化的促成,所以我们认为这是非常好的一个方向。
最后的话,我们认为智能化以后,还会推广到更智能。更智能包括什么呢?包括了多种方式的搜索,你可以想象,你可以用语音搜索,现在当然我们也可以打电话,对方有一个人肉的语音搜索,一个人在帮你搜索。还有一个方向,我们除了声音可以做搜索之外,以后的图片也可以做搜索,你可以把一个图片提供出去说,我要找跟多像这个图片。当然这个问题会比较困难一点,以后你可以想象你在逛街的时候,看到你非常喜欢的手机,上面贴一个牌子,然后你可以拿你手机出来,照那个手机的条幅,它会识别这个条幅,知道这个型号,它会用这个型号做一个商品搜索,然后它会告诉你说你要买这个,别到大中买,到国美买更便宜,这个也是指日可待的。这个不是一个很困难的技术。所以我们认为搜索智能化可以做到语音搜索、形象图片搜索,我们还认为可以不需要搜索就搜索,最高境界的搜索就是你还没有去搜,它就知道是什么,然后