|
|
衡量搜索引擎的基本指标 |
星期四, 二月 20, 2003 |
互联网技术的日益成熟,网络的普及,搜索引擎越来越成为广大网民不可或缺的工具了。以至于某企业老总说,“目前门户网站的核心技术就是搜索引擎”。怎么来评价一个搜索引擎的好坏,我认为因该从以下几个方面来考虑,尽管这种想法书卷气十足,但是我想至少可以在优化算法,设计用户界面上有点意义。 1. 查全率,它是指检索列出的结果的数据与实际网络中拥有的与检索关键词相关的数据量地差别或说差距。从理论上讲没有那个搜索引擎能够含盖所有的网络信息,但是每个搜索引擎有尽可能的扩展自己的数据库以求,信息覆盖更全面。 查全率=检索出的相关信息数量/系统中所有的相关信息量 注:实际数据库中所有的相关信息量实际上是一个理论概念,并没有人也没有办法去确切的统计到底会有多少与某一个关键词相关的信息。所以这个概念只供理论研究用。对于用户来说,看到的最直观的是检索反馈结果多少,所以,对某一个关键词来说,反馈的结果愈多当然是查全率越高。实际这是不完全正确的。 2. 查准率,实际反应的是检索反馈的结果与用户检索关键词之间的匹配程度。这对网民来说也是至关重要的, 查准率=检出的有用的资料/检索反馈的结果的总量 对于一个拥用户来说,如果就某一个关键词检索出来的结果全然没用,准确率极低,那么将无疑是最大的伤害,所以搜索引擎必须想尽办法提高检索的匹配程度。 提高检索结果与关键词的匹配程度有两种实现方法,其一就是有自己的独特的[匹配方法,比如Google的Page Ranking 技术等,其二就是提供高级检索功能,即提供用户自定义逻辑检索。 3.响应速度,用户能够快速的得到反馈结果。搜索引擎的实用性来看,必须保证用户可以很快地得到查询结果。一般情况下,库容量越大,响应速度越慢。 4.检库容量。搜索引擎必须要有相当大的库容量才具有一定的代表性和实用性。可以说搜索引擎可搜索的库容量大小是搜索引擎质量标志的第一要素。库容量的大小取决于工作方式。采用“机器人检索”方式的搜索引擎的库容量一般要远大于“人工分类”方式的搜索引擎。再者呢也要看搜索引擎的收录范围,如果对于一般的搜索引擎不收录bbs那你就不能检索bbs的内容,对于专业搜索引擎,只收录医学信息,那么你就不能检索跟它不相关的其他信息. 5. 辅助功能功能 ,一个好的搜索引擎还应拥有一些辅助功能,如:可对查询结果进行“二词查询”、提供各种扩展检索功能(如逻辑检索功能:支持AND、OR、NOT;概念检索功能等,如:用户输入“计算机”,返回结果中应包括“电脑”的有关条目)、支持通配符检索、检索语法能足够的简单、显示足够的相关信息(如内码、文件大小、更新日期等)、链接有效性分析,网页快照等. 6.用户负担要足够的小 。用户负担是指用户在使用搜索引擎的过程中所付出的时间、金钱、精力、精神感受等的综合( 或者说叫总和),这是对用户界面,响应速度,结果描述等的评价。 7.数据更新速度,指数据库的更新快慢。要让搜索引擎每天都更新数据库,那是不可能的,首先成本太高,搜索引擎的换库工作是一个很耗费时间精力和金钱的事情,再则也没必要啊,搜索引擎可以通过一定时间间隔来更新数据库,从而保障死链,重复链接得到有效的控制,仅此而已。 8. 能够支持得数据格式。现在得数据格式十分多样化,就说文本就有多达十几种格式。所以必须能够检索多种媒体格式才能有效得保障查全和查准。比如,google现在支持得媒体格式达十二种之多。Baidu.com目前也能检索.Mp3,.ram,.Swf等多种格式,但是还没有全部、集成到网页网站搜索里边。 9.专题检索的多样化,比如图象检索,音乐检索,Flash检索,新闻检索,论文检索等的完善。 10.分类目录与搜索引擎的结合。分类目录对于搜索引擎的重要程度,不亚于准确度,查全率等。为什么呢,作为搜索引擎的饿初级形式的分类目录,有其自然优势啊,清晰明确,方便快捷。如果分类目录科学的话甚至比搜索着更叫人觉得过瘾,不信,你去5566.org,hao123.com看看。 11. 搜索引擎还要能够自动处理不同编码的文件。如大陆的GB码,港澳台的big5等。众所周知,中文的计算机处理采用了不同的字符集及内码体系,大陆用的是GB码,而台湾则用的是BIG5码。一个好的中文搜索引擎必须能够同时处理这两种编码。 甚至英文、德文等,从理想概念上讲十全世界德所有语言种类,目前就没有能够实现的,之希望能够处理的内码类别更多一些吧。 (via here) |
This Written at 二月 20, 2003 by loverty. |
衡量搜索引擎的基本指标-哈斯日志
|
| |
|
发表评论