反Spam进行时 搜索引擎观察blog上贴了一篇stanford的学生对于这一分类学的研究的《A Taxonomy of Web Spam》论文(下载原文)其中说到各种各样的垃圾网页他们通过自己建立链接,通过各种SEO的手段甚至作弊的手段获得在搜索引擎中的排名,但是当用户搜索相关query时,点击链接却不能给出用户需要的信息。 目前书签,网摘,blog,wikipedia都是直接或间接的是垃圾的重灾区。尽管搜索引擎支持链接的rel=nofollow属性,但是收效甚微。Zolta Gyongyi and Hector Garcia-Molina通过这篇论文试图能找到解决方案,他们认为通过算法能实现如下三个目标:1 建立一个spam种子集,通过内容识别或结构分析来实现实现程序识别spam,一旦识别就自动停止索引或抓取,甚至人工的删除spam的索引页;2 通过让spider自动识别spam然后就不再抓取;3 通过高质量内容的特别加权来平衡spam的对搜索结果的影响。
发表评论