|
|
搜索引擎的盲点 |
星期一, 四月 25, 2005 |
搜索引擎并不能索引整个互联网的网页,这是公认不讳的常识。通常不能索引部分不可见网页(The invisible web)。今天Wendy Boswell在blog中补充了如下类型的资源:局域网(Private networks, intranets);不能很好地索引带有Web Forms站点(如 ColdFusion or CGI );不能处理好需要登陆的站点(Password-protected)等; 我还要在补充两点就是,1 搜索引擎spider现在还不能很好处理多媒体文件的例如页面内容只有flash或者image的页面;2 还不能很好处理互联网上丰富的多文档资源,尽管目前主流的搜索引擎都只是对pdf,excel,mp3,doc,rtf,ppt等文档资源进行解析,而解析的质量也不是很好,对于xml,CAJ(CNKI数据格式),CHM等文档的解析和识别还没有起步。这里是我以前探讨关于《信息发现与invisible web》的post。
ps: 今天利用asp wiki engine搭建了一个搭建搜索引擎百科,欢迎有兴趣的人一起来建设之。 |
This Written at 四月 25, 2005 by loverty. |
搜索引擎的盲点-哈斯日志
|
| |
|
发表评论