何谓“暗网”,就是搜索引擎无法通过常规的爬虫策略抓取到,其实还是搜索业界很关注的叫做“invisible web”(2),学术也有称Deep Web,HiddenWeb的。
就是那些原本可以公开给用户提供有价值的信息服务的数据,因为各种原因雪藏深闺,比如,专业数据库呀,或者数据供应方没有提供一个web化的平台可供用户使用,或者内容密码保护,或者是网站用flash交互,使用脚本语言、JavaScript进行数据交互等等,搜索引擎无法通过常规的链接follow来获得这些信息和索引,必须通过一些专门的技术手段或运营策略,将这些数据跨平台整合和关联,以更适合用户理解和使用的方式呈现给用户。
Brightplanets技术公司的研究发现,暗网数据是浅层WWW资源数据(surface web)的500倍。而且暗网资源倾向于学科范围更狭窄、内容更深入的方向发展,信息内容与每个所需信息、市场及领域具有较高的关联性,商业前途大大的有。
Google:Onebox,查询模板,反馈迭代
Google做了大量的onebox搜索,并且在VLDB2008会议上JayantMadhavan做了题为Google'sDeep-WebCrawl的报告(via here),透漏了下一步Google对暗网数据的处理思路,Googlebot将针对数据库提交form获取结果,然后分析结果页面的content,获取相应的link和内容,然后采用关键词反馈迭代方式,获得深层数据资源。这也是能充分展现Google使命“organize the world's information and make it universally accessible and useful”。
比如来自Search engine land的帖子,显示Google针对地震这个query,会显示最近地震通告,这些数据来自“美国地质勘探局”,
Yahoo Search Subscriptions/Enhanced Results
雅虎订阅网站内容搜索是05年6月推出的,将可让用户同时搜索来自7个订阅网站上的内容,其中包括纽约时报网站、线华尔街日报,LexisNexis律师、法律咨询信息等有价值的资源。当用户搜索网页上订阅任何一种或所有这些网站做为搜索范围,那么当用户在雅虎搜索的时候,系统也会并行请求这些专业的数据库,最后将来自这项订阅网站上的搜索结果和来自www互联网上的网页的搜索结果并列在一起。当然目标是一致的,方法是各异的。
增强结果Enhanced Results也是雅虎在解决暗网资源的处理方式,这就是SearchMonkey的结果。比如搜索“Isaac Mao on facebook”
百度:阿拉丁,神灯
08年12月18日,在百度上海研发中心的揭牌仪式上,李彦宏、李一男向外界透露了正在推进的"阿拉丁计划", 这是百度针对暗网资源的宏观战略的展现。其实在此之前,百度已经尝试在垂直深层信息化资源进行了探索,比如天气预报,股票曲线,国学搜索,专利搜索,统计 数据搜索等。把暗网数据明网化,把深层数据浅层化,把数据库数据web化,让阿拉丁神灯在“让人们最便捷地获取信息,找到所求”上呈现出价值。
不论是那种方式,目前搜索引擎已经能够解决用户查询时候,请求同时连接不同的数据源。从而能为用户提供更有价值的信息。标签: 暗网, 百度, 雅虎, Google, invisible web |
发表评论