论文部分内容阅读
在美国曾经做过一次网络调查,“如果是砍掉一个手指,或者被终生剥夺使用搜索引擎的权利,你会选择哪个?”近三分之一的网民选择了前者。越来越多的人已经离不开搜索引擎,他们将自己的衣食住行、求医问药、教育求职等诸多需求向搜索框求助。
在搜索引擎领域中,最初称霸的是google,但是百度后来居上,成为新的霸主。这其中的关键在于百度与众不同的模式创新。
2003年,使用搜索引擎的互联网用户比例是50%,而google独占其中60%的市场份额。2004年,百度开始宣传“百度更懂中文”,很多用户也开始从其他搜索引擎滑向百度。2005年,“低端用户”进一步成为百度的“签约客户”,他们不光从百度搜自己的排名,还去搜竞争对手以及同产业客户的排名结果,从而进一步加强了对百度的信赖。百度知道、百度百科、百度贴吧等创新产品,从百度变身搜索门户开始后一直就没停过,吸引了越来越多互联网用户的眼球。
创新要从不一样开始,“百度更懂中文”观念的植入,初显百度“不一样”的创新方法。
图书馆学、全文检索技术、倒排技术和互联网技术的发展,推动了搜索引擎的诞生。互联网内容的不断扩充和网民数量增长,使覆盖率、检索粒度和语义等因素逐渐被考虑到搜索引擎中来。
基于对用户需求的把握,以及对搜索相关性、精准度等衡量搜索引擎最重要的技术指标的提升诉求,2009年8月,在百度的年度技术盛会“百度世界”上,百度CEO李彦宏前瞻性地提出了“框计算”这一技术理念,以推动最优质的内容和服务、与用户需求实现精准匹配,从而引发业界强烈关注。
随着“框计算”的问世和逐步实现,早上起床,百度一下“今天限行号码”,网民可看到北京市公安交通管理局发布的一周机动车尾号限行贴心提示;开车去上班时,百度一下“实时路况”,选一条车辆畅通的道路以免迟到;到了公司准备工作,百度一下“豆瓣电台”,即可在搜索框内播放音乐,还可以选择华语、欧美、粤语等不同频道或者不同的音乐风格……
在百度框计算的架构之下,网民对互联网的任何需求,几乎都可以通过搜素引擎得到满足。而每一次需求对百度而言都是“大海捞针”的任务,百度不仅要在200毫秒之内读取人脑,还要调用最优秀的资源,以最好的方式呈现在用户面前。
在框计算下,百度中文搜索已全面领先于世界。在“框计算”为网民勾勒出的美好前景背后,带给百度工程师们的却是一项项艰辛的技术挑战。框计算背后有四个核心技术难点,包括“需求识别和解析”、“用户行为分析”、“检索技术”和“特效展现”,而这是搜索引擎最具技术难度的领域。
“需求识别和解析”的核心在于自然语言处理和语义识别,即机器要判断用户关键字搜索背后真实的需求:一个简单的天气查询需求,用户也许有94种不同的表达方式;无论用户搜索的是人民币兑美元还是英镑、日元,结果出现的都将是“汇率换算器”。
机器如何识别千变万化的用户需求,是自然语言处理团队面临的最大挑战。据框计算语义分析团队负责人柴春光介绍,他们将用户需求与资源提供方建立联系,一方面分析用户行为习惯,一方面让机器模拟人类认知学习过程,去理解用户表达的内涵。识别用户需求之后,要通过检索来调用最精准的信息或资源也并不容易。
对于一般的信息需求,传统搜索技术中的“倒排检索”即可实现,但对于更复杂的需求,就要引入单一数据值检索、数据库检索、交互操作等特殊检索方式。例如用户搜索“计算器”时,并不想找到文本中包含“计算器”的链接,而是想直接进行计算;搜索“三个火念什么”时,是想找“焱”字的读音。
检索完成后,框计算检索策略团队就要分析资源的质量、用户的历史行为习惯等复杂的影响因素。例如“天龙八部”这一需求,百度的搜索结果是把电影排前面,还是把游戏排前面,就要根据搜索用户的历史行为进行匹配;又如“2012”,以往它可以直接指向一趟南宁至张家界的火车,而《2012》电影出现之后,搜索结果排序就要发生相应的变化。
结果展现方面,框计算的展现团队要保证用户从点“百度一下”到他看到结果,一定不超过0.5秒。为了保证用户最顺畅的浏览,展现团队还会定期到全国各地进行用户行为调研,不断优化各种技术细节。
框计算的每个技术点背后都有一个专门的团队:包括测试、自动化运维、自然语言处理、排序、架构、产品、用户行为评估、展现等,这可以将责任落实到每一个具体环节上,也能够发挥“专注”的效力。此外,还有一个由各技术团队派出专人组成的技术决策团队,每个团队中的任何人有任何新的想法,是否适合做成产品,都可以拿到这里来讨论做决定。
框计算,正引领着互联网产业进行一次彻底的技术革命。
无论是框计算,还是百度每天上线的近200项创新及技术升级,惊人的技术创新背后是工程师的劳动与协作。百度的所在地,也是创新者的集聚地。员工有任何想法都可以直接敲开领导的办公室,一个创意可以第一时间抄送给所有人。
框计算语义分析团队负责人柴春光说:“我们工作在互联网技术最前沿的领域,这个领域从没有前人做过。我们做出的东西能够直接影响超过4亿网民的生活,这本身就是最大的价值和认可。未来,相信这里才是互联网的中心。”
百度有一套成文的职称评定标准,包括员工达到了怎样的技术能力,想到和完成哪些技术创新等。只要是认为自己符合条件的员工,都可以在规定时间内提出申请,由专门的职称评定委员会审批。另外,对于在技术创新上有特殊贡献的技术人员,百度还会给予专门的“技术创新奖”,少则几千元,多则十万或者以上。
在百度,新人的成长速度是迅速的。百度的晋升与其他公司的论资排辈不同,只要你能达到一定的技术水平,就可以提出申请,由技术委员会审批评定,这让百度更像一个学术机构。而百度的“谁提出,谁推动,谁实现,谁负责”机制就保证了百度的技术人员可以自下而上发起项目。即使是初来乍到的员工,也可以提出自己的项目方案,在大家的支持和帮助下完成技术创新,实现自身能力的提升。
百度每一次技术创新的小改进,都是诞生自这种自下而上的推动力中。
在百度内部,“技术影响力”代表了一个技术人员在百度的价值,它使得百度核心技术、最新思想和最牛创意的分享得到保证。“百度的工程师不仅在自己的项目领域中努力创新,还都非常乐于分享、乐于帮助他人,因为帮助别人对提升自己的技术影响力也是很有好处的。”
百度是创新人才的创意乐园,它极力推崇创新人才,并将源源不断地补充新鲜血液。
在搜索引擎领域中,最初称霸的是google,但是百度后来居上,成为新的霸主。这其中的关键在于百度与众不同的模式创新。
2003年,使用搜索引擎的互联网用户比例是50%,而google独占其中60%的市场份额。2004年,百度开始宣传“百度更懂中文”,很多用户也开始从其他搜索引擎滑向百度。2005年,“低端用户”进一步成为百度的“签约客户”,他们不光从百度搜自己的排名,还去搜竞争对手以及同产业客户的排名结果,从而进一步加强了对百度的信赖。百度知道、百度百科、百度贴吧等创新产品,从百度变身搜索门户开始后一直就没停过,吸引了越来越多互联网用户的眼球。
创新要从不一样开始,“百度更懂中文”观念的植入,初显百度“不一样”的创新方法。
图书馆学、全文检索技术、倒排技术和互联网技术的发展,推动了搜索引擎的诞生。互联网内容的不断扩充和网民数量增长,使覆盖率、检索粒度和语义等因素逐渐被考虑到搜索引擎中来。
基于对用户需求的把握,以及对搜索相关性、精准度等衡量搜索引擎最重要的技术指标的提升诉求,2009年8月,在百度的年度技术盛会“百度世界”上,百度CEO李彦宏前瞻性地提出了“框计算”这一技术理念,以推动最优质的内容和服务、与用户需求实现精准匹配,从而引发业界强烈关注。
随着“框计算”的问世和逐步实现,早上起床,百度一下“今天限行号码”,网民可看到北京市公安交通管理局发布的一周机动车尾号限行贴心提示;开车去上班时,百度一下“实时路况”,选一条车辆畅通的道路以免迟到;到了公司准备工作,百度一下“豆瓣电台”,即可在搜索框内播放音乐,还可以选择华语、欧美、粤语等不同频道或者不同的音乐风格……
在百度框计算的架构之下,网民对互联网的任何需求,几乎都可以通过搜素引擎得到满足。而每一次需求对百度而言都是“大海捞针”的任务,百度不仅要在200毫秒之内读取人脑,还要调用最优秀的资源,以最好的方式呈现在用户面前。
在框计算下,百度中文搜索已全面领先于世界。在“框计算”为网民勾勒出的美好前景背后,带给百度工程师们的却是一项项艰辛的技术挑战。框计算背后有四个核心技术难点,包括“需求识别和解析”、“用户行为分析”、“检索技术”和“特效展现”,而这是搜索引擎最具技术难度的领域。
“需求识别和解析”的核心在于自然语言处理和语义识别,即机器要判断用户关键字搜索背后真实的需求:一个简单的天气查询需求,用户也许有94种不同的表达方式;无论用户搜索的是人民币兑美元还是英镑、日元,结果出现的都将是“汇率换算器”。
机器如何识别千变万化的用户需求,是自然语言处理团队面临的最大挑战。据框计算语义分析团队负责人柴春光介绍,他们将用户需求与资源提供方建立联系,一方面分析用户行为习惯,一方面让机器模拟人类认知学习过程,去理解用户表达的内涵。识别用户需求之后,要通过检索来调用最精准的信息或资源也并不容易。
对于一般的信息需求,传统搜索技术中的“倒排检索”即可实现,但对于更复杂的需求,就要引入单一数据值检索、数据库检索、交互操作等特殊检索方式。例如用户搜索“计算器”时,并不想找到文本中包含“计算器”的链接,而是想直接进行计算;搜索“三个火念什么”时,是想找“焱”字的读音。
检索完成后,框计算检索策略团队就要分析资源的质量、用户的历史行为习惯等复杂的影响因素。例如“天龙八部”这一需求,百度的搜索结果是把电影排前面,还是把游戏排前面,就要根据搜索用户的历史行为进行匹配;又如“2012”,以往它可以直接指向一趟南宁至张家界的火车,而《2012》电影出现之后,搜索结果排序就要发生相应的变化。
结果展现方面,框计算的展现团队要保证用户从点“百度一下”到他看到结果,一定不超过0.5秒。为了保证用户最顺畅的浏览,展现团队还会定期到全国各地进行用户行为调研,不断优化各种技术细节。
框计算的每个技术点背后都有一个专门的团队:包括测试、自动化运维、自然语言处理、排序、架构、产品、用户行为评估、展现等,这可以将责任落实到每一个具体环节上,也能够发挥“专注”的效力。此外,还有一个由各技术团队派出专人组成的技术决策团队,每个团队中的任何人有任何新的想法,是否适合做成产品,都可以拿到这里来讨论做决定。
框计算,正引领着互联网产业进行一次彻底的技术革命。
无论是框计算,还是百度每天上线的近200项创新及技术升级,惊人的技术创新背后是工程师的劳动与协作。百度的所在地,也是创新者的集聚地。员工有任何想法都可以直接敲开领导的办公室,一个创意可以第一时间抄送给所有人。
框计算语义分析团队负责人柴春光说:“我们工作在互联网技术最前沿的领域,这个领域从没有前人做过。我们做出的东西能够直接影响超过4亿网民的生活,这本身就是最大的价值和认可。未来,相信这里才是互联网的中心。”
百度有一套成文的职称评定标准,包括员工达到了怎样的技术能力,想到和完成哪些技术创新等。只要是认为自己符合条件的员工,都可以在规定时间内提出申请,由专门的职称评定委员会审批。另外,对于在技术创新上有特殊贡献的技术人员,百度还会给予专门的“技术创新奖”,少则几千元,多则十万或者以上。
在百度,新人的成长速度是迅速的。百度的晋升与其他公司的论资排辈不同,只要你能达到一定的技术水平,就可以提出申请,由技术委员会审批评定,这让百度更像一个学术机构。而百度的“谁提出,谁推动,谁实现,谁负责”机制就保证了百度的技术人员可以自下而上发起项目。即使是初来乍到的员工,也可以提出自己的项目方案,在大家的支持和帮助下完成技术创新,实现自身能力的提升。
百度每一次技术创新的小改进,都是诞生自这种自下而上的推动力中。
在百度内部,“技术影响力”代表了一个技术人员在百度的价值,它使得百度核心技术、最新思想和最牛创意的分享得到保证。“百度的工程师不仅在自己的项目领域中努力创新,还都非常乐于分享、乐于帮助他人,因为帮助别人对提升自己的技术影响力也是很有好处的。”
百度是创新人才的创意乐园,它极力推崇创新人才,并将源源不断地补充新鲜血液。