Wolfram|Alpha:数据整合的启示
星期五, 五月 22, 2009
Wolfram|Alpha 说他对
搜索结果拥有版 权,且需要引用需要署名,这是搜索引擎和所搜出来的内容的关系的一种颠覆。随便搜索几个词会发现,Wolfram|Alpha的搜索结果,
实际上是提供信息内容深层次关联的,进而形成的机器聚合的知识体系,换句话说,就是机器整理的知识库,不是一般意义的搜索引擎。这对我的启示就是,搜索引擎面对海量信息,在对信息与信息的语义关联、逻辑关联、事理整合与延伸扩展等数据深层次挖掘和整理上的意义远大于其提供搜索服务的意义。比如搜索“baidu ”或者“baidu stock ”,这些信息本来是独立、零散的存在于网络各个角落,因为Wolfram|Alpha的整合,使得事物原貌信息、对比、关联、评价一起呈现给用户。当然,这两个关键词的需求略有差异,但是Wolfram|Alpha的搜索结果内容和数据排布、样式完全相同,从资源角度来考虑需求的就是这样的。所以还是有优化空间的。 随着互联网应用环境的发展与成熟,网民获取信息的方式发生着巨大变化,比如过去,以找到好网站为目标,相当长一段时间搜索引擎的主要目标是找网站,网站导航就是搜索引擎,用户通过各种Yahoo!pick、目录、hao123里找到符合自己需求的网站,然后把它们的网址保存收藏夹、邮箱,以便于下次的再次访问,以网站为目标是搜索引擎的最重要的价值。
但是随着第二代搜索引擎技术体系的成熟,网民对网络信息的渴求不再是以网站为单位了,而是网页。搜索引擎提供大量的能够满足用户需求的内容网页级列表,用户的行为成了通过搜索引擎直达网页内容。用户需要掌握的网址就一个,搜索引擎,所有的内容需求,网址导航需求等等是通过搜索框来完成的。(当然,我这里不是说搜索的需求里边没有网站导航需求)。 以Google百度为代表的这代搜索引擎,目前其实面临的一个巨大的难题,就是每次搜索返回的结果动辄几十万、上亿,这对用户来说没有意义,除了增加在搜索结果中再扒拉自己需要的内容的困难。所以各种针对搜索引擎的信息提纯、搜索结果展现优化的方案逐步被提到搜索引擎的解决方案中来。 这似乎是不够的,即使这些工作能一定程度解决这个困惑,但是还是无法让用户零散的需求在搜索的价值体系中得以彰显。所以这个时候,信息就开始以很微观的内容单元 存在,搜索的内容不在是网站、不再是网址,搜索结果不再以url方式呈现,而是以一个个信息单元,辅以用户需求的形态和适宜的展现方式,直接给用户提供了整合后的完整信息。 当然这里边也有个问题就是,哪些信源 获得的信息是真实、可信的 ,这里边可能在这样的大规模数据整合上必须着重考虑和解决。
标签: 数据挖掘 , 搜索引擎 , 知识搜索
查看全文 →
五月 22, 2009 · loverty
·
包裹(搜索/归档页会按文章条数重复输出 canonical) -->
哈斯日志: 05/01/2009 - 06/01/2009
纪录我们在网路上奔波的历程!
实时数据搜索
星期四, 五月 21, 2009
谷歌的
page对于他的先见之名 无法被同事理解和认可,颇为愤愤。他说到,搜索引擎应该提供实时数据的搜索是个有意思的话题。他举的例子是,twitter的信息流更新迭代速度比现在所有的主流搜索引擎都要快。
的确,twitter、friendfeed对UGC(用户自己写的)、SR(推荐的)内容的信息的聚合,带有强烈的实时搜索意义。但是这不是实时搜索的本义。我之前
写过一篇帖子 ,说过twitter的信息,到底对搜索引擎里收录到底有没有意义。因为从网页信息特征来看,twitter这样的,140个字,一口气都能说完的,这么短的文本独立存在的价值何在?这样的信息文本只有跟人、人的对话情景关联起来才是有异议的。
但是,真正的更有价值的实时数据或信息,如股票、汇率、期货、基金实时报价,这些信息的提供,对于交易参与者、利益关系者的价值很大。当然从更大层面上,比如互联网任意新生成内容,搜索引擎都能即时搜索得到,其实这对于信息的竞争情报意义更大。
再就是,尤其明显的,商情类的物价、供需信息,如果能做到实时,那将是重新构造生产上下游的供需关系,对资源的优化配置有巨大意义。
大规模的实时数据的搜索服务,对搜素引擎的信息采集技术、存储方案、软件系统的逻辑、计算能力都是一种全新的考验和要求。云计算、大规模分布式方案的成熟也许是这次搜索技术提升的背景。
标签: 实时搜索 , 搜索引擎
查看全文 →
五月 21, 2009 · loverty
·
包裹(搜索/归档页会按文章条数重复输出 canonical) -->
哈斯日志: 05/01/2009 - 06/01/2009
纪录我们在网路上奔波的历程!
Google Searchology新功能发布会
星期三, 五月 13, 2009
三个新的搜索功能,搜索选项、富摘要和 Google Squared.
搜索选项(Search options) 有两个重要功用 1 帮助用户调整、筛选、过滤搜索结果,目前已知可以用来作为筛选参数有网站类型、时间、视频信息等,(via here )
2 还给用户带去了查看搜索结果的新视图。有的视图里会给每个搜索结果条目显示更多信息,包括文字和图片,有的视图还可以让你通过不同的方法探索并重复自己的搜索。提供不同的视图模式能帮助用户更快捷方便的找到他们想要的东西。
富摘要(Rich snippets) ,可以加强摘要的显示、比纯文字能更好的展示一个网页的内容。如果你想去一家新餐馆,于是你开始搜索相关评论,富摘要包含用户的平均评分,评论数和餐馆的价格区间,通过摘要传递更有效的信息,帮助用户提高对点击哪条结果的判断。这个需要站长通过微格式(microformats)或者(RDFa)标准把信息输出,来让这些数据能在Google搜索结果里有所体现。
Google Squared ,Google能自动分析并组织获取互联网上的信息,并且进行组合,按照固定逻辑来推荐和展现给搜索用户。比如以Google Squared搜索照相机,它会按照照相机的型号,列出照片、各种参数、价格等等参数,方便你做横向对比。所有这些信息都是Google是通过遍历网络上所有相关信息后,梳理出来的,而不是取自某个网站的评测对比表。Google Squared使搜索结果有序排列,按照人类可以理解的表格形式呈现,谷奥称之 有组织有纪律,呵呵。
整个发布会的文本解析请移步searchengineland.com .
标签: 谷歌 , 搜索引擎
查看全文 →
五月 13, 2009 · loverty
·
包裹(搜索/归档页会按文章条数重复输出 canonical) -->
哈斯日志: 05/01/2009 - 06/01/2009
纪录我们在网路上奔波的历程!
一个Google足够了吗
尝试翻译一篇文字,发现英语已经被丢了好多,汗呀。 这个话题也是我最近在关注的问题。到底一个搜索引擎在用户市场上致胜的关键因素有哪些。 搜索后起之秀的机会在哪里 ? 原文: http://deeperweb.com/research/internet-search-tool-for-web-search.php 一个搜索工具并不能满足全部需求的,如果你是一个每天都Google的用户,单一的搜索引擎是不能满足你的需求的。
大多数人都认可,Google是最受欢迎的网络搜索工具然而,
Forrester的一项研究表明 ,仅有20%的用户只用Google来搜索。这引出另一个问题,那不只用Google的其他的80%的用户还用那些网络搜索工具呢。有一个回答是垂直搜索引擎。根据这篇文章的数据显示,垂直搜索的市场增长快于Google的增长。
当比较别的网络搜索工具和主流搜索引擎(Google,Yahoo,msn)独立用户增长率的时候,我们发现,垂直搜索市场正在以快速的步伐在成长。 下面这张图表是知名数据分析网站Compete.com对主流搜索引擎与其他10个网络搜索工具的分析比较,蓝色表示主流搜索引擎,桔黄色是这10个垂直网络搜索工具,专注于人的LinkedIn、公司信息的Hoover's、职位Indeed、旅游Expedia、 视频Metacafe、图片Flickr、问答Wikianswers、 博客Technorati、Highbeam免费数据库、亚马逊的A9购物搜索。基于区分度的考虑,我排除了一些其他的知名搜索工具。主流 网络搜索引擎在提供一个更好的搜索体验的上还有一些瓶颈 。垂直搜索作为重要促进者,在延伸网络搜索的更好搜索体验。下面是一些垂直搜索能够有效解决当前问题的示例。搜索结果太含混 (全文检索模糊度太高),比如某纽约无线公司想招一个市场工作主管,如果在Google,输入"marketing manager wireless NYC"将会找到超过70万网页,大多数结果是招聘需求而不是应聘者信息。而另一方面,与此相对应,用同样的关键词,在一个垂直搜索网站中,如linkedin、zoominfo,将会直接获得人的信息,甚至直接找到了候选人。结果信息量不够 ,还以前面的招聘工作为例,垂直搜索工具能方便、高效率地给出适合招聘工作需要的特殊格式数据,与随意的、提及的信息相比,招聘者能更好的发现候选人的教育背景、经历,交流和联系方式。关键词构造比较难 ,用主流搜索引擎,你通常可以随意构造的关键词.这有时使得搜索变得更难,因为你不能确定去问什么或怎么去问.另一方面,垂直搜索引擎,通常有一套适用于他们网站的高级搜索选项.比如说,我们的招聘者可以在LinkedIn的高级搜索中,选择行业领域---无线,选择所在地项---纽约,在职务里边输入"Marketing Manager",这种明晰的搜索方式使得你获得的结果可能更.结果以渴望的样式展现, 我们渴望在一个好的搜索,提供给我们的某类型信息和其他搜索是不同的,比如,一个有明确需求的关键词希望得到wiki.answers.com的答案,看到youtube.com的视频,听到podscope的播音,读到Articlesbase.com的论文,看到Flickr的图片,找到亚马逊上的好书,阅读allexpers.com专家的观点,找到koders.com准则的文本,获得雅虎财经的最新财经新闻等等,以希望的结果的样式显示,很有可能是专门的搜索工具能提供最佳选择. 根据上面这个图,以独立用户衡量,我们看到垂直索索市场正在迅速成长.然而,如果我们用搜索次数,而不是用户数,来衡量,我们就会发现垂直搜索成长率非常低. 尽管80%的Google用户使用其他搜索工具,这好像是有点矛盾,在这个用其他搜索工具的人数和这些搜索工具的总的搜索次数,很显然 ,尽管很多用户转向使用其他的搜索工具,他并没有发展成为用户每天的搜索和访问行为,而且还相当低. 根据Iprospect research的一个研究,用户对搜索引擎好像有很强的容忍力,当用户在网络搜索不成功的时候,有82%的用户会选择修改关键词 在同一个搜索中继续搜索,他们不会立刻转向一个其他的垂直搜索或更好的合适的资源. 对于在主流搜索引擎的搜索结果令人失望的时候,用户对寻找其他的网络搜索工具毫无热情,有几个可能的缘由.总结起来导致用户没有转向垂直搜索的原因 有:1 离开焦虑, 这个听起来好像是个小问题,但是它好像对许多服务来说都是一个棘手的障碍,不仅仅是搜索工具.需要离开现有的网站(特别是如果是你最喜欢的搜索引擎)或者改变当前的web地址,打开一个新的tab或窗口,这是一个大多数用户都不能接受的行为.2 知道你的选择项, 这需要有意识的且熟悉掌握几十个不同的网络搜索工具(需要考虑不同主题数量或数据格式的典型用户的查询)3 决定 ,知道许多不同的搜索工具,并且知道你的选择是重要的一步,然而,决定哪个工具最适合特定查询想要的格式可能只是太多的苛刻要求的日常使用。4 时间效用 ,你知道,还没有决定应该用哪一个搜索工具,一个用户可以避免使用垂直搜索引擎,因为使用当前正在用的搜索引擎是更快更容易,访问其他搜索工具是不同的网站,是可以的,然而,用提供精准结果的搜索工具性价比更高. 从所有争议问题的另一面来看,要用户这面消除障碍,我预见仍然需要很多创新被应用到搜索领域,尤其是垂直搜索领域. 我强烈的相信,如果有一种方式可以帮助典型搜索用户去面对上述这些障碍并将障碍清除,垂直搜索领域将获得更快速地成长,不仅仅是独立用户数,而且是搜索次数.
标签: 垂直搜索 , 搜索引擎
查看全文 →
五月 13, 2009 · loverty
·
包裹(搜索/归档页会按文章条数重复输出 canonical) -->
哈斯日志: 05/01/2009 - 06/01/2009
纪录我们在网路上奔波的历程!
有道难题
星期二, 五月 12, 2009
网易topcoder编程
挑战赛 有意思。Topcoder曾经跟Google的代码大赛合作过,整的题目很好玩。
此次跟网易合作 ,TopCoder 将负责竞赛题目设置、结果评审和流程监管等工作,在中国招募优秀的程序选手参与。也是网易挖掘程序人才的竞技场。
一年一度的
百度程序之星 设计大赛也火热开赛,对人才进行抢夺,是占领未来制高点的关键。
标签: 百度程序之星 , 网易 , 有道难题 , topcode
查看全文 →
五月 12, 2009 · loverty
·
包裹(搜索/归档页会按文章条数重复输出 canonical) -->
哈斯日志: 05/01/2009 - 06/01/2009
纪录我们在网路上奔波的历程!
💬 问我问题
你好!我是哈斯日志的AI助手
我可以基于当前页面内容回答你的问题。
💡 首次使用可能需要等待模型加载(约20-30秒)
有什么想了解的吗?
刚刚
发送