|
|
Wolfram|Alpha:数据整合的启示 |
星期五, 五月 22, 2009 |
Wolfram|Alpha说他对搜索结果拥有版权,且需要引用需要署名,这是搜索引擎和所搜出来的内容的关系的一种颠覆。随便搜索几个词会发现,Wolfram|Alpha的搜索结果, |
| 实际上是提供信息内容深层次关联的,进而形成的机器聚合的知识体系,换句话说,就是机器整理的知识库,不是一般意义的搜索引擎。这对我的启示就是,搜索引擎面对海量信息,在对信息与信息的语义关联、逻辑关联、事理整合与延伸扩展等数据深层次挖掘和整理上的意义远大于其提供搜索服务的意义。比如搜索“baidu”或者“baidu stock”,这些信息本来是独立、零散的存在于网络各个角落,因为Wolfram|Alpha的整合,使得事物原貌信息、对比、关联、评价一起呈现给用户。当然,这两个关键词的需求略有差异,但是Wolfram|Alpha的搜索结果内容和数据排布、样式完全相同,从资源角度来考虑需求的就是这样的。所以还是有优化空间的。
随着互联网应用环境的发展与成熟,网民获取信息的方式发生着巨大变化,比如过去,以找到好网站为目标,相当长一段时间搜索引擎的主要目标是找网站,网站导航就是搜索引擎,用户通过各种Yahoo!pick、目录、hao123里找到符合自己需求的网站,然后把它们的网址保存收藏夹、邮箱,以便于下次的再次访问,以网站为目标是搜索引擎的最重要的价值。 | 但是随着第二代搜索引擎技术体系的成熟,网民对网络信息的渴求不再是以网站为单位了,而是网页。搜索引擎提供大量的能够满足用户需求的内容网页级列表,用户的行为成了通过搜索引擎直达网页内容。用户需要掌握的网址就一个,搜索引擎,所有的内容需求,网址导航需求等等是通过搜索框来完成的。(当然,我这里不是说搜索的需求里边没有网站导航需求)。
以Google百度为代表的这代搜索引擎,目前其实面临的一个巨大的难题,就是每次搜索返回的结果动辄几十万、上亿,这对用户来说没有意义,除了增加在搜索结果中再扒拉自己需要的内容的困难。所以各种针对搜索引擎的信息提纯、搜索结果展现优化的方案逐步被提到搜索引擎的解决方案中来。
这似乎是不够的,即使这些工作能一定程度解决这个困惑,但是还是无法让用户零散的需求在搜索的价值体系中得以彰显。所以这个时候,信息就开始以很微观的内容单元存在,搜索的内容不在是网站、不再是网址,搜索结果不再以url方式呈现,而是以一个个信息单元,辅以用户需求的形态和适宜的展现方式,直接给用户提供了整合后的完整信息。
当然这里边也有个问题就是,哪些信源获得的信息是真实、可信的,这里边可能在这样的大规模数据整合上必须着重考虑和解决。标签: 数据挖掘, 搜索引擎, 知识搜索 |
This Written at 五月 22, 2009 by loverty. |
Wolfram|Alpha:数据整合的启示-哈斯日志
|
| |
|
发表评论