哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • AOl也提供关键词广告
  • 淘宝易趣互掐:争用户
  • 推荐4个资源先
  • Yahoo!财报与做恶
  • 免费不等于赠与
  • 新组合Adobe+Macromedia!?
  • e-lazy: 你养成了么?
  • 龙凤斗:Google vs yahoo!
  • 随感两则:tags和spam
  • 黄页服务燃起希望的火

  • Reward hasiblog
    搜索引擎的盲点-哈斯日志
    搜索引擎的盲点
    星期一, 四月 25, 2005
    搜索引擎并不能索引整个互联网的网页,这是公认不讳的常识。通常不能索引部分不可见网页The invisible web)。今天Wendy Boswell在blog中补充了如下类型的资源:局域网(Private networks, intranets);不能很好地索引带有Web Forms站点(如 ColdFusion or CGI );不能处理好需要登陆的站点(Password-protected)等;
    我还要在补充两点就是,1 搜索引擎spider现在还不能很好处理多媒体文件的例如页面内容只有flash或者image的页面;2 还不能很好处理互联网上丰富的多文档资源,尽管目前主流的搜索引擎都只是对pdf,excel,mp3,doc,rtf,ppt等文档资源进行解析,而解析的质量也不是很好,对于xml,CAJ(CNKI数据格式),CHM等文档的解析和识别还没有起步。这里是我以前探讨关于《信息发现与invisible web》的post。

    ps:
    今天利用asp wiki engine搭建了一个搭建搜索引擎百科,欢迎有兴趣的人一起来建设之
    This Written at 四月 25, 2005 by loverty.  

    0条评论

    发表评论

    << Home