哈斯日志

纪录我们在网路上奔波的历程！

»新帖子

AI搜索引擎的兴起：挑战与机遇

Reward hasiblog

星期一, 三月 02, 2009

这几天跟Google搜索部分通用词汇知名站点排的靠前的算法调整，引来不少SEOer的新帖子和讨论，Chinahosting发贴说明了这个问题。根据Aaron Wall的博客上的数据记录显示的确是Google新算法在一些通用词汇上给予类别领域知名网站或官方网站更大的权重，MattCutts回应说，这不过是中普通升级一个，呵呵。

Google CEO Eric Schmidt在08年10月曾经说过，由于互联网低门槛，信息生产很容易，且是分布式的存在于互联网各个角落里，使得互联网正在变成充斥虚假信息的污水坑，他说“品牌”是判断被信任内容的可信任度的重要的信号，是解决这个“污水坑”问题的方向。以举的例子来看这里的品牌应该是指生产内容可信度较高的站点品牌，网络虚拟世界的信息可信任度问题确实已经成为人们通过搜索引擎获取信息的重要障碍。

信息的虚假问题，跟以前的反SPAM信息一样，是一项艰巨长期而且复杂的任务。这样“表如白面书生，内有阴险狡诈之计”虚假信息，对用户的影响或伤害甚于SPAM，甚至造成伤害，比如含有病毒、木马、后门的高风险类信息网页、网页内容属于诈骗信息等，搜索引擎在为用户提供满足需求的信息时，这也是其中一个考量因素。而对信息来源的权威性，“品牌知名度”作为判断的基础无疑是一种有效方法，路漫漫其修远兮。

标签：可信度, 搜索引擎, 虚假信息, Google

阅读《Google算法改进解决可信度问题》更多内容...

This Written at 三月 02, 2009 by loverty. No comment,

信息可信度的站点类型

星期四, 十月 09, 2008

权威站点(官方首页)>

专业站点（行业行会网站，专业垂直领域独立站点）>

大站点(新浪)>

个人博客(不能一概而论，有区分度，原创占主要的内容的站点)>

小站点（原创少，有全文网摘性质的站点）>

社区（对于长尾那部分信息，其unique价值较高，对于热门话题其维度很好）>

批量建站，采集站，SEO站群，大量的SEC用博客，b2b商品站，黄页站等>

其他的站点。

标签：可信度, 搜索引擎, 网络信息, 网站类型

阅读《信息可信度的站点类型》更多内容...

This Written at 十月 09, 2008 by loverty. No comment,

网络信息的可信任性

星期五, 九月 19, 2008

好久以来一直在关注网上信息的信任问题。我琢磨挺久了，可我琢磨啥呢?不明白。这个话题太大了，命题不具体，怎么关注呢，关注什么呢，也基本无从下手。我先趔趄着走起来吧，或者一层一层扒洋葱，或者永远无解，虽然是老虎吃天，但是我还是期望探寻真谛。

1 挖掘互联网信息的可信度，利用信息之间的pk，最终去伪存真，这是个理想的话题。

几年前在跟朋友交流如何利用互联网做企业竞争情报数据挖掘和分析的时候，曾经着重考虑过，如何利用搜索对网络信息的“去伪存真”。利用每一次搜索的获得线索，把这些数据挖掘到底还原真相，如9238搜索引擎研究院的那些案例和fish对“凡走过必留下痕迹的出处”的挖掘所展示的魅力，正是搜索还原真相的有力的佐证，可是多少人有这样的功力和耐心呢。当然有多少信息值得去“还原真相”也是个问题。more about this post!

搜索引擎确实可以在某些层面上判断信息的真伪，并实现去伪存真，而且这一点无疑是满足用户“找到”的需求中，必要的环节。体现在搜索结果中官方首页，知名品牌和网站类查询尤为明显。

但是搜索引擎，还是以内容型网页查询为主要被搜索对象的，在清华大学李智超在搜索引擎媒体性研究中，针对网页内容倾向性分析中显示，约有44%无明显倾向性，也就是说，无论是正面还是负面的评价总之，带着倾向性的内容页面超过一半。有态度必然对信息受众有影响。姑且不论这些有倾向性的信息的来源，搜索引擎应该呈现什么样的态度，SERP第一页显得尤为重要，因为他直接影响绝大多数用户的态度，虽然这个和很多因素有关或者并不代表搜索引擎企业的看法。

而搜索引擎在这里能做什么呢？首页态度的多样性要体现出来，其次态度的不同层次不同维度要体现出来。这几乎已经涉及了搜索引擎的主要各个层面的问题。

2 寻找网络信息信任的基点。

其实网络信息的信任问题，说到底还是跟现实的信任是一样的。你建立信任感的前提是，曾经他值得你信任过。所以，不难理解，hao123主动设首页的被其他网址站要高的多。用户钟爱于看新浪的新闻，163的邮箱，百度的搜索也是信任的一种表现。在网络上哪些地方的信息是可信的,这种信任或不可信任，不仅表现为资源是否可用，效率是否够高，是否有病毒木马，是否存在欺诈诱骗，更是存在的信息内容本身，是否是为了信息真实存在的目的而存在，为了诱导方向，混淆视听，胡说八道，造谣惑众这些目的的，都是明显有倾向，这些所谓的口碑营销，几毛党的都是这样的。可是即使除了这些能明确辨别的，有谁能保证媒体纯粹的客观真实。

搜索引擎所承载的信任基点，目前也就是针对网络资源的判断和有效范围内的调优。而针对信息内容的判断，除非触及法律层面，目前搜索引擎还无法针对内容的态度做出明确识别、引导或过滤。这也就是很多层面所反映出来的，百度就是搜索工具，还不是一个强有力的网络服务品牌的缘故吧。

网络信息的制造成本太低，这样使得信息膨胀的速度超出搜索者所能判别的范围，动辄搜索结果上亿条，如何从中获得有用的信息。搜索引擎本身就是个过滤器，针对用户需要的进行处理，其实可以做的更好，其实还有很多事情要做。

标签：可信度, 网络信息

阅读《网络信息的可信任性》更多内容...

This Written at 九月 19, 2008 by loverty. No comment,