哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • 尝尝新a9 beta版
  • Google的雄心还是野心?
  • 微软蓝帽行动展示安全魅力
  • Google Yahoo! Askjeeve
  • 网络纪事:06月15日
  • 雅虎的胃口有真大
  • 那一年的高考题!
  • Myweb是干啥的
  • 狗狗的姿态
  • 腾讯通行证 Google代码夏令营等

  • Reward hasiblog
    如何拒绝rss引擎?-哈斯日志
    如何拒绝rss引擎?
    星期二, 六月 21, 2005
    与之前写的个人blog关注的领域毕竟不是广域信息,因此并不需要每篇都被搜索引擎收录、索引并被无数的人搜索到,目前还没有很妥善的办法,发出去的blog就是泼出去的水。呵呵(via here)。

    看看我19日spider访问记录,才发现,拒绝rss引擎又成一个个人站长面临的问题。一旦你的站点被加入某个rss,那这个rss引擎就会狂抓不已。他们不知道多个订阅可以一起抓取?目前Bloglines能提供多个订阅者一次同步的功能。
    2005-06-19 23:26:54 216.148.212.188 - 61.129.102.239 80 GET /feed.xml - 304 164 Bloglines/2.0+(http://www.bloglines.com;+4+subscribers)

    这些新生的rss聚合引擎,往往自身不完善,并且根本不看robots.txt协议,自顾自的狂抓不已。造成的后果就是要大量耗费网站的带宽和其他资源。看了一下6月19日哈斯日志的rojo.com抓取记录。他这样子抓我还没有任何办法禁止他抓,rss引擎就是这样,一旦你的rss被加入种子源,你就么办法删除了。即时你改文件名字也不行。不敢想象如果有数万这样的引擎,那我们的网站还怎么运行,rojo是个典型,昨天的日志也是个典型。

    PS,推荐个站点计数器statcounter
    可以分项目统计(project); 提供excel或cvs格式的统计数据下载;
    可以识别来源(refer url)和地区来源; 可以记录用户来自搜索引擎用的query;
    可以提供6种计数器显示风格; 可以锁定来自那些IP访问的不计入统计;
    可以提供访问者的浏览器、操作系统的分析数据; 支持email给多人的方式发送统计报告;
    This Written at 六月 21, 2005 by loverty.  

    0条评论

    发表评论

    << Home