<$BlogItemTitle$>

加载中…

搜索公众号ID：hasiblog

随感两则:tags和spam

星期五, 四月 15, 2005

谈谈Tags
Gmail支持标签式的邮件分类策略使得标签分类开始为众人所知，之后相继有国外的美味书签，furl网摘，flickr相册等的加盟，使得分众分类得以迅速扩展。最近相继furl，flickr被招安，Del.icio.us 又获得了投资人的青睐，而且其主人也计划专心为之工作，Yahoo！在360种使用标签式分类，365key推出了支持tag式的标记和搜索功能等，今天ask jeeves也宣布其myJeeves的历史纪录或网址收藏功能支持tag式保存，种种迹象显示分众分类又一次来潮了。但是一直以来，blog，wiki，以至标签分类（或称分众分类，folksonomy）这些标榜着“草根化”的应用真正草根了么？都是谁在用这些所谓草根的应用，也就是这几个blogger，数都数的过来。
当然我从来不否认标签式分类是个好用的东东，它使得信息真正的个性化，但是好用的仅仅是因为他的方便、public和类聚，因而能成为一种social型的应用。但是他本身并不具备易理解性，特别是在操作上，几乎更少人知道可以把同义信息标记为不同的tag。tag分类要成体系成标准路还很长！

反Spam进行时
搜索引擎观察blog上贴了一篇stanford的学生对于这一分类学的研究的《A Taxonomy of Web Spam》论文（下载原文）其中说到各种各样的垃圾网页他们通过自己建立链接，通过各种SEO的手段甚至作弊的手段获得在搜索引擎中的排名，但是当用户搜索相关query时，点击链接却不能给出用户需要的信息。目前书签，网摘，blog，wikipedia都是直接或间接的是垃圾的重灾区。尽管搜索引擎支持链接的rel=nofollow属性，但是收效甚微。Zolta Gyongyi and Hector Garcia-Molina通过这篇论文试图能找到解决方案，他们认为通过算法能实现如下三个目标：1 建立一个spam种子集，通过内容识别或结构分析来实现实现程序识别spam，一旦识别就自动停止索引或抓取，甚至人工的删除spam的索引页；2 通过让spider自动识别spam然后就不再抓取；3 通过高质量内容的特别加权来平衡spam的对搜索结果的影响。

四月 15, 2005 · loverty

用微信扫描二维码
分享此文章

0条评论

发表评论

<< Home

0条评论

发表评论

AI助手