|
|
Google新闻存档搜索的意义 |
星期四, 九月 07, 2006 |
Google在新闻频道推出了历史新闻搜索服务,用户可以在这里搜索到甚至18世纪的新闻。
在这些信息中,包括两部分其一是网上采集,应该比例较少,其二是与其他媒体或者数据公司合作,获得数据授权使用,目前与Google的合作公司包括,纽约时报公司(New York Times),华盛顿邮报公司(Washington Post),LexisNexis,《华尔街日报》,Factiva等,使用该服务的用户同时可以搜索到这些家公司提供的文章。
在新闻存档搜索的结果中,正常显示标题/摘要/时间等,“付费”“免费”信息混杂在一起,如果用户选择 阅读收费的信息可能就要支付一定的费用。在高级检索当中,可以只在“付费”或“免费”的信息中进行搜索。检索结果可以按照Search articles和Show timeline两中方式排序,分别体现了相关性和时间因素对用户的意义,你完全可以按照自己需要对搜索结果去重排,更详尽的请阅读东宝的解读。
那时间排序中的新闻的时间到底是什么呢,难道200年前真有报道?当然不是,目前来看,Google采用的是机器识别文章的时间,也就是说,一般的是新闻的发布时间,从合作机构很容易获得这些数据项,但是很多非结构化数据则是自动识别提取时间为主,这就不难明白央视国际会出现40年代的新闻,而且百度会有很多80年代的新闻。
这个产品对于谷歌来讲他的意义在于Google用事实向世界宣布“我们的目标是,索引全世界!”,仅此而已。这种产品本身没有什么重要意义,只是个有价值的商务合作而已。这种合作模式重新定义了搜索引擎与内容供应商的之间关系,这种关系不再是一个robots.txt所能表达或约束的了,双方应该合作互利共赢的,这种模式其实在百度的产品很常见,比如早期的百度国学,百度邮编,新近的百度法律等一样。
|
This Written at 九月 07, 2006 by loverty. |
Google新闻存档搜索的意义-哈斯日志
|
| |
|
发表评论