|
|
如何拒绝rss引擎? |
星期二, 六月 21, 2005 |
与之前写的个人blog关注的领域毕竟不是广域信息,因此并不需要每篇都被搜索引擎收录、索引并被无数的人搜索到,目前还没有很妥善的办法,发出去的blog就是泼出去的水。呵呵(via here)。
看看我19日spider访问记录,才发现,拒绝rss引擎又成一个个人站长面临的问题。一旦你的站点被加入某个rss,那这个rss引擎就会狂抓不已。他们不知道多个订阅可以一起抓取?目前Bloglines能提供多个订阅者一次同步的功能。 2005-06-19 23:26:54 216.148.212.188 - 61.129.102.239 80 GET /feed.xml - 304 164 Bloglines/2.0+(http://www.bloglines.com;+4+subscribers)
这些新生的rss聚合引擎,往往自身不完善,并且根本不看robots.txt协议,自顾自的狂抓不已。造成的后果就是要大量耗费网站的带宽和其他资源。看了一下6月19日哈斯日志的rojo.com抓取记录。他这样子抓我还没有任何办法禁止他抓,rss引擎就是这样,一旦你的rss被加入种子源,你就么办法删除了。即时你改文件名字也不行。不敢想象如果有数万这样的引擎,那我们的网站还怎么运行,rojo是个典型,昨天的日志也是个典型。
PS,推荐个站点计数器statcounter 可以分项目统计(project); 提供excel或cvs格式的统计数据下载; 可以识别来源(refer url)和地区来源; 可以记录用户来自搜索引擎用的query; 可以提供6种计数器显示风格; 可以锁定来自那些IP访问的不计入统计; 可以提供访问者的浏览器、操作系统的分析数据; 支持email给多人的方式发送统计报告; |
This Written at 六月 21, 2005 by loverty. |
如何拒绝rss引擎?-哈斯日志
|
| |
|
发表评论