<$BlogItemTitle$>

加载中…

搜索公众号ID：hasiblog

搜索引擎的盲点

星期一, 四月 25, 2005

搜索引擎并不能索引整个互联网的网页，这是公认不讳的常识。通常不能索引部分不可见网页（The invisible web）。今天Wendy Boswell在blog中补充了如下类型的资源：局域网（Private networks, intranets）；不能很好地索引带有Web Forms站点（如 ColdFusion or CGI ）；不能处理好需要登陆的站点（Password-protected)等；
我还要在补充两点就是，1 搜索引擎spider现在还不能很好处理多媒体文件的例如页面内容只有flash或者image的页面；2 还不能很好处理互联网上丰富的多文档资源，尽管目前主流的搜索引擎都只是对pdf，excel，mp3，doc，rtf，ppt等文档资源进行解析，而解析的质量也不是很好，对于xml，CAJ（CNKI数据格式），CHM等文档的解析和识别还没有起步。这里是我以前探讨关于《信息发现与invisible web》的post。

ps：

今天利用asp wiki engine搭建了一个搭建搜索引擎百科,欢迎有兴趣的人一起来建设之。

四月 25, 2005 · loverty

用微信扫描二维码
分享此文章

0条评论

发表评论

<< Home

0条评论

发表评论

AI助手