我还要在补充两点就是,1 搜索引擎spider现在还不能很好处理多媒体文件的例如页面内容只有flash或者image的页面;2 还不能很好处理互联网上丰富的多文档资源,尽管目前主流的搜索引擎都只是对pdf,excel,mp3,doc,rtf,ppt等文档资源进行解析,而解析的质量也不是很好,对于xml,CAJ(CNKI数据格式),CHM等文档的解析和识别还没有起步。这里是我以前探讨关于《信息发现与invisible web》的post。
ps:

今天利用asp wiki engine搭建了一个搭建搜索引擎百科,欢迎有兴趣的人一起来建设之。

0 评论:
发表评论