哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • AI搜索引擎的兴起:挑战与机遇
  • 系统3:扩展和增强人类决策能力的关键
  • 决策增强与智能知识管理:人脑的第三个系统
  • 知识管理的算法
  • 信息知识管理技能
  • 碎片化阅读、海量信息时代的轻量级知识管理
  • 俞军和他的产品经理课
  • 为什么我们都对搜索不满意却又无可奈何
  • 搜索产品市场机会探讨:头条不做搜索做什么
  • 搜索产品市场机会探讨

  • Reward hasiblog
    为什么我们都对搜索不满意却又无可奈何
    星期五, 十一月 01, 2019
    你肯定认为是因为我们没得选择。

    其实还真是,虽然看起来你还是有很多产品可以选择的,比如不用百度,用360搜索,用搜狗搜索,用神马搜索等等,可以是真用的时候,总是发现少点啥,比如可能常见的网站并不排在有预期的位置、甚至没有,比如这家企业利益相关的内容排的比非常相关的好结果都靠前,比如总有一些关键词被处理搞的乱七八糟,没啥有价值的信息反馈,差那么点意思,

    那是因为,搜索本身的复杂性,并不是单一的技术、算法,而是用户、流量质量、内容生态、商业变现能力及商业客户众多因素平衡的结果。

    即便是一开始宣称要有道德、不做医疗的搜索们,也会被巨大的服务器、带宽、技术研发成本拖回到现实,依然是要用广告来变现的,只是条数、广告相关性、审核的尺度、售卖政策、流量投放策略等等,不断做一些调整,找到自己的收入。

    从再深一个层次,拉到这20年中文互联网信息服务技术的这个平面去看,我认为这是一种系统能力进化的必然问题,15年前,搜索技术可能门槛很高,没有多少人能干或者能干好,5年前就不是这样了,人才辈出。对搜索技术的理解、产品和需求的认知、算法和计算的能力,大家偏差并不是那么大,都可以实现一个体验差距不那么明显的搜索。

    然而,无论人才、算法和算力如何近似,搜索产品、商业的范式,一直就圈定在这个框架内,后进者用差不多的方法、更多的资源投入,能在一个时间周期在商业空间上打下一块自己的地盘,

    另一个层面,其实这个框架也是是技术方法的产品化范式,只能通过输入关键词,在倒排、正排的PageRank+tf-idf索引里召回相关的列表,从高到低排个序,即使是百度阿拉丁、各个公司的box也是初始化一个权值,然后用排序位置和点击率再次排序、动态优化。核心特征就是,召回的信息一定是列表,列表一定是需要用户点击反馈的行为参与到质量评价体系进而优化算法。

    所以在产品体验上这个GAP就一直存在,因此各家都在产品体验测试上,对比标签百度为0.xxx的一个指标。然后百度的系统化技术研发、产品管理能力这种惯性,使得其实再怎么着也不会开倒车,一直维持一种体验的优势、通过巨大的品牌优势来降低获客成本提高经营效率。

    厂长互联网大会上说,百度搜索结果的首条是准确答案的比例占到51%,虽然在我们这儿是第四条,但是也很不错呀,这还是蛮让人兴奋的事,搜索引擎真有实现向他问个问题,给你个答案的可能了。

    这是也一个搜索引擎产品范式的进化,这种方式的交互,将极大的改变人获取信息、消费信息的方式,同时也极大地改变原来的信息生产、信息展现和存在形式,比如不一定是一个page了。

    我们对搜索引擎充满了抱怨,因为他们,总是找不到我们想要的,抱怨他充满了垃圾、欺骗和广告,抱怨他不思进取,一成不变,没有理想。但是我们又总是对他充满了期待,我们还是得它找我们需要的信息,尤其是当我们有需要找到我们所需的时候。

    千万别给我说Google进来就不一样了,那是你用幻想在评价,如果你深深滴用一用Google,你会觉得Google也就just so so,他面临的问题不是单一靠企业自己就能解决的。

    所以当所有角色都觉得不爽、无奈,却又无法破局的时候,就是创新的机会了。当然这个创新的复杂度,肯定是超越单一的产品局部的改良,而是根本上全新的体验、生态机制、商业化和利益分配机制。

    当然比较确定的一个想法是,作为消费者的我,对搜索和能力边界有了一个模糊不清的但是又有点清晰的认识了,我知道他不能怎么样了、不会怎么样了,比如不能搜到APP的信息了,不能会更精准了,该要找的信息还要去信息本来应该在的地方了

    如果厂长说的那种搜索引擎,真能实现了,把你从10条、百条搜索结果中筛选的时间成本降低的秒得,你愿意为没有广告的搜索服务付费订阅吗?

    标签: , , , , , , , ,

    阅读《为什么我们都对搜索不满意却又无可奈何》更多内容...
    This Written at 十一月 01, 2019 by loverty.   ,
    转发问答里发帖:Google是如何诞生的?
    星期二, 十一月 27, 2018

    从历史时序来看:
    从20世纪90年代初,中后期,互联网web服务的规模已经比较大有数百万在线的网页和内容,原来靠人工整理的分类目录体系开始不能满足人们获取更多信息的需求。同期的更多专业化互联网媒体公司开始规模化、成建制的批量生产内容。用户怎么能发现这些内容呢?同期的excite、infoseek、alltheweb等,开始研究怎么能发现更多内容,提供最全的强大的内容入口

    Google两位创始人拉里-佩奇、谢尔盖-布林1998年9月,一对斯坦福校友发现了一套从更多内容里找到更相关内容的算法,他们从风险投资家那里筹到了第一笔10万美元投资,开始了Google的奇幻的征程。

    从计算能力来看:
    单机计算性能和运算速度可以实现对百万级信息内容的抓取索引计算,而这使得用复杂算法来处理信息,让信息更容易被检出被召回有了可能。

    从信息处理技术来看:
    佩奇和布林他们发明的算法就是Page rank,基于网页之间引用关系,提供权重信任的赋权,这使得信息搜索的相关度出现了实质性进步,不再是依赖少数人的价值选择作为选择的基础,而是依赖网页内容创作者,他们在提及、引用和提供参考的href统计分析上完成生态化赋权。

    从商业价值和生态体系来看:
    同一时期的overture提供的基于搜索的关键词竞价排名,也给Google商业化收入做出重要贡献,使得这样的新技术新思想在提供价值的同时还能站着赚钱。

    当然,也还有很多细节的产品技术创新,使得Google在同期,与其他搜索相比体验明显有优势,比如:
    1,他们在首页提供的功能只有一个搜索框,与其他公司的产品,一堆内容链接、一堆分类目录相比,差异化和个性非常明显

    2,搜索出来的结果比其他公司相关性高很多,这显然不只是算法本身的功劳,能够输出用户价值导向的内容连接,并且系统性地进化,尤其是随着内容规模的扩大和积累,用户体验和价值更突出,这就是产品体验的系统化判断和优化抉择协同的产物

    3,在那个年代网络带宽如此受限的情况下,能实现搜索结果秒级返回,/点赞

    4,他们的数据规模更大覆盖内容更强,以至于,自信到,在搜索按钮旁边放一个功能,I'm feeling lucky,这得是多大的自信啊,但他们做到了。

    标签: , , ,

    阅读《转发问答里发帖:Google是如何诞生的?》更多内容...
    This Written at 十一月 27, 2018 by loverty.   ,
    webpage的几个统计数字
    星期二, 七月 13, 2010
    Google的工程师 Sreeram Ramachandran通过高流量站点和随机抽样站点做了一些网页分析。由于top和随机并没有出现太大不同,所以以随机为准记录一些数据:

    网页平均页面大小是320KB(包含嵌入的脚本、图片、CSS);
    每个页面平均会引用43.91个资源;统计GETs次数为44.56(加上了重定向);
    一个页面平均占有7.01个唯一主机名;
    也就是说,平均每个独立主机上有6.26资源;
    80%的网页里包含10个或以上的同一主机里的资源;
    TOP站点如果能将同一主机上的脚本和css样式表合并为一个文件,会减少8次http请求;
    每个页面Stylesheet的加载需要18.72KB带宽;
    每张网页里包含的图片数量是29.39个,加在一起有205.99KB带宽;
    页面访问请求小于10秒的仅占10%,超过86%的页面访问请求都在90秒。

    针对网页开发者Google建议:启用Gzip压缩页面,使用HTTP缓存,优化JavaScript代码,合并脚本和CSS,来提升网站访问的速度,减少带宽占用。

    想起03年的时候做过一个分析,当时扒拉新浪首页page 73k,一半羡慕一半酸地骂,新浪真tmd有钱呀。现在新浪的首页530多k,冏。

    标签: , ,

    阅读《webpage的几个统计数字》更多内容...
    This Written at 七月 13, 2010 by loverty.   ,
    Google向非登录用户推个性化搜索
    星期日, 十二月 06, 2009

    Google宣布,将向没有登录谷歌账号的搜索用户提供个性化搜索结果。其博客撰文称,将通过在用户电脑上保存的匿名cookie,根据用户过去180天的搜索活动,提供定制搜索结果。

    目前看到的Google个性化互联网搜索服务目前能用到的主要是搜索结果筛选器功能,如下:
    结果页面竖排切换图片、视频、新闻博客、图书、地图、购物、论坛搜索。
    按时间过滤:可以以限定时间范围、或自己输入时间区间方式来;排序筛选:时间、相关性;搜索结果:访问过的页面、没有访问过的;
    浏览模式:标准浏览方式、相关搜索提示模式、时间线模式浏览;
    结果页面特征:结果带图版、页面预览版、翻译搜索版、去购物网站页面版/更多购物网站结果。

    Google目前在个性化搜索方面进行的用户行为研究、统计数据分析、互动工具方面进行了若干项目:

    2005年5月,推出的搜索历史记录和网址收藏,是以记录分析用户对哪些url、网址更感兴趣为目标的,搜索和点击行为的记录也能有效建立起针对登录用户的分析模型。

    2008年11月,推出SearchWiki它允许用户对搜索结果进行改造,排序,删除,添加,评论,让用户参与到结果的reRank,其实就是建立用户评价系统,未必真的是为了提供一个搜索服务。

    2006年5月,推出的可定制垂直信息搜索Google Custom Search的服务,如下图所示例,我订阅点石互动zac的定制搜索。

    2009年10月,Google推出实验室版social search,根据分析你的profile中的社会化服务,比如你的reader里都订阅什么人的信息,twitter什么的,相关的实时网络有哪些,相关的网站都是什么等。根据这些信息的整合,作为相关结果信息的推荐或过滤的因素,帮你做到个性化信息需求的ranking和过滤。

    搜索引擎个性化搜索服务从系统构建的角度理解,是以用户需求理解基础的。怎么能充分解读用户需求,从而在理解的基础上推荐更好的结果呢?每天网上爆发的信息量已经超过了我们能接受的范围,搜索无疑是帮助我们从信息海洋中筛选内容的重要手段,如果搜索引擎可以感知用户的意思, 那么就可以限定信息的特定范围,通过对用户的位置和他们的搜索行为特征识别,对搜索结果的使用,如在搜索结果浏览点击行为,你跳过、忽视的内容,这样就可 以成为建立一个更有效的模型,帮助用户获得更加完美的结果集。每次搜索请求都是独特的,只有因人、因需而异的个性化搜索才能帮助用户找到所需信息。

    标签: , ,

    阅读《Google向非登录用户推个性化搜索》更多内容...
    This Written at 十二月 06, 2009 by loverty.   ,
    SERP信息量增加的影响
    星期二, 九月 15, 2009
    用户搜索点击搜索按钮的时候,对搜索结果页是有一定期待,对于查询返回的页面会有相应的认知模式.SERP搜索结果页第一页,目前的信息加载量极大地超过一年前的这个页面的状态.但是搜索结果页面的样式却没有发生颠覆性的改变,依然是以标题摘要url列表的方式来呈现.

    搜索结果页信息承载量的加大主要表现在,比如在搜索"马云",以一个有确切内容的url link算1条结果计,
    在百度SERP第一页结果,涵盖了百科、人物档案、博客、视频、新闻和贴吧,其中新闻簇是由3个url构成的,一个是百度新闻搜索结果,另外两个是直接新闻信息,视频是一个结果簇,虽然没有显性的多个结果,但是点过去应该还是有N多结果的,还要在这些结果中再次选择。所以这个结果页面事实上至少是12条结果。

    Google则通过对百度百科的页面展现的扩展和博客结果簇的整合,第一页上至少有18个link。在搜索"N97 日历",会发现展现的可用link也有17条之多。


    很多词有搜索都是这种状态,这种信息量的丰富度的增加是为什么呢?我觉得:
    1 原来的10条结果在表达关键词搜索需求所需要的信息量上,维度不够,多样性丰富性不足;
    2 补充某一条结果上更精细的导航需求,比如Google对马云百度百科词条的分段导航的应用,
    3 服务商希望能把相关的信息推送出来,从而引导用户需求.

    缺点:相对于的10条结果而言,用户的选择成本在加大。以前可能主要看前三,可是现在视野里的就成了前7前8啦,判断的复杂度增加了。且由于结果更丰富多彩,展现的样式也有很大不同,视觉感受和可信可靠结果的选择也变得不那么容易。

    优点,很显然除了上面列的一二三,其实还有信息量的增大,这种增加和丰富正面价值也很大,尤其是对于浏览性需求比较大的查询而言。

    结果数的多少和信息量的丰富程度,还是跟查询的类型本身表现出来的特征关系很大,以前有个搜索网站只给搜索结果的前5条,认为提高精准度就能更好满足搜索需求,可这只是关注了其中一部分查询需求,比如寻址类。雅虎07年在时候也改成过5条结果,后来又变回来了,很显然这种尝试是不成功的。

    标签: , ,

    阅读《SERP信息量增加的影响》更多内容...
    This Written at 九月 15, 2009 by loverty.   ,
    免费s60v3同步Google日历
    星期二, 六月 02, 2009
    上回推荐的s60v3日程与与谷歌日历同步免费工具,今天提示我试用到期了,要收费,而且不便宜。所以尝试着找个新的,免费的。找来找去,找到了Google官方推荐的Mail for Exchange来实现同步,这个真是方便安全又经济实惠呀。

    首先你先确定一下是否安装Mail for Exchange,如果没有,请到诺基亚官方去下载。

    然后安装之后,系统提示你创建默认配置文件,填写你的Gmail帐号,然后在server中填写m.google.com,其他选默认配置即可,重要的是,在选择日历、通讯录的自动同步中,第一次是以哪一方为准,这个要选好。其他就没啥了,详细操作步骤图配文,可以参考官方的

    这个工具可以自动同步谷歌的日历、tasks、通讯录和email,少了一个呀,要是能同步记事本,那得多爽呀。

    标签: , ,

    阅读《免费s60v3同步Google日历》更多内容...
    This Written at 六月 02, 2009 by loverty.   ,
    pages提醒迁移关闭日期不远
    星期日, 四月 19, 2009
    Google pages宣布即将关闭,提示你可以自己下载整个数据包备份,如果你不操作,数据全部被迁移到site.google.com下,这下可苦咯,不知道哪儿引用过pages上的资源,这可咋能全改过来呢。汗!

    之前Google发布消息称关闭Google Notebook,Google Video, Google Catalog Search,Dodgeball,Jaiku,Google Mashup Editor。除了记事本,其他对我没啥影响。空间也要到期了,要不要续还在犹豫呢,真发愁这些数据迁移到哪儿是安全的无忧的,一劳永逸的,这家火被赶着天天跑真烦。


    标签: , ,

    阅读《pages提醒迁移关闭日期不远》更多内容...
    This Written at 四月 19, 2009 by loverty.   ,
    搜索巨头眼中的“暗网”
    星期四, 三月 05, 2009
    何谓“暗网”,就是搜索引擎无法通过常规的爬虫策略抓取到,其实还是搜索业界很关注的叫做“invisible web”(2),学术也有称Deep Web,HiddenWeb的。

    就是那些原本可以公开给用户提供有价值的信息服务的数据,因为各种原因雪藏深闺,比如,专业数据库呀,或者数据供应方没有提供一个web化的平台可供用户使用,或者内容密码保护,或者是网站用flash交互,使用脚本语言、JavaScript进行数据交互等等,搜索引擎无法通过常规的链接follow来获得这些信息和索引,必须通过一些专门的技术手段或运营策略,将这些数据跨平台整合和关联,以更适合用户理解和使用的方式呈现给用户。

    Brightplanets技术公司的研究发现,暗网数据是浅层WWW资源数据(surface web)的500倍。而且暗网资源倾向于学科范围更狭窄、内容更深入的方向发展,信息内容与每个所需信息、市场及领域具有较高的关联性,商业前途大大的有。

    Google:Onebox,查询模板,反馈迭代

    Google做了大量的onebox搜索,并且在VLDB2008会议上JayantMadhavan做了题为Google'sDeep-WebCrawl的报告(via here),透漏了下一步Google对暗网数据的处理思路,Googlebot将针对数据库提交form获取结果,然后分析结果页面的content,获取相应的link和内容,然后采用关键词反馈迭代方式,获得深层数据资源。这也是能充分展现Google使命“organize the world's information and make it universally accessible and useful”。

    比如来自Search engine land的帖子,显示Google针对地震这个query,会显示最近地震通告,这些数据来自“美国地质勘探局”,


    Yahoo Search Subscriptions/Enhanced Results

    雅虎订阅
    网站内容搜索是05年6月推出的,将可让用户同时搜索来自7个订阅网站上的内容,其中包括纽约时报网站、线华尔街日报,LexisNexis律师、法律咨询信息等有价值的资源。当用户搜索网页上订阅任何一种或所有这些网站做为搜索范围,那么当用户在雅虎搜索的时候,系统也会并行请求这些专业的数据库,最后将来自这项订阅网站上的搜索结果和来自www互联网上的网页的搜索结果并列在一起。当然目标是一致的,方法是各异的。


    增强结果Enhanced Results也是雅虎在解决暗网资源的处理方式,这就是SearchMonkey的结果。比如搜索“Isaac Mao on facebook



    百度:阿拉丁,神灯

    08年12月18日,在百度上海研发中心的揭牌仪式上,李彦宏、李一男向外界透露了正在推进的"阿拉丁计划", 这是百度针对暗网资源的宏观战略的展现。其实在此之前,百度已经尝试在垂直深层信息化资源进行了探索,比如天气预报,股票曲线,国学搜索,专利搜索,统计 数据搜索等。把暗网数据明网化,把深层数据浅层化,把数据库数据web化,让阿拉丁神灯在“让人们最便捷地获取信息,找到所求”上呈现出价值。

    不论是那种方式,目前搜索引擎已经能够解决用户查询时候,请求同时连接不同的数据源。从而能为用户提供更有价值的信息。

    标签: , , , ,

    阅读《搜索巨头眼中的“暗网”》更多内容...
    This Written at 三月 05, 2009 by loverty.   ,
    Google算法改进解决可信度问题
    星期一, 三月 02, 2009
    这几天跟Google搜索部分通用词汇知名站点排的靠前的算法调整,引来不少SEOer的新帖子和讨论Chinahosting发贴说明了这个问题。根据Aaron Wall的博客上的数据记录显示的确是Google新算法在一些通用词汇上给予类别领域知名网站或官方网站更大的权重,MattCutts回应说,这不过是中普通升级一个,呵呵。

    Google CEO Eric Schmidt在08年10月曾经说过,由于互联网低门槛,信息生产很容易,且是分布式的存在于互联网各个角落里,使得互联网正在变成充斥虚假信息的污水坑,他说“品牌”是判断被信任内容的可信任度的重要的信号,是解决这个“污水坑”问题的方向。以举的例子来看这里的品牌应该是指生产内容可信度较高的站点品牌,网络虚拟世界的信息可信任度问题确实已经成为人们通过搜索引擎获取信息的重要障碍。

    信息的虚假问题,跟以前的反SPAM信息一样,是一项艰巨长期而且复杂的任务。这样“表如白面书生,内有阴险狡诈之计”虚假信息,对用户的影响或伤害甚于SPAM,甚至造成伤害,比如含有病毒、木马、后门的高风险类信息网页、网页内容属于诈骗信息等,搜索引擎在为用户提供满足需求的信息时,这也是其中一个考量因素。而对信息来源的权威性,“品牌知名度”作为判断的基础无疑是一种有效方法,路漫漫其修远兮。

    标签: , , ,

    阅读《Google算法改进解决可信度问题》更多内容...
    This Written at 三月 02, 2009 by loverty.   ,
    Google浏览器叫chrome
    星期二, 九月 02, 2008
    该来的还是来了。

    Google浏览器在以下特性上的值得关注:
    1 支持多线程,每个tab独立进程,速度会有一定提升貌似优劣参半。
    据说多线程maxthon2就在用哦。
    2 Google Chrome将内置独立的JavaScript虚拟机运行JavaScript的速度相当快。ff3、ie8也都在js上有不少改进。
    3 地址栏支持输入自动补全功能。不直接支持中文url,要转码。ie8/ff3可是直接支持的呀。
    4 浏览器即是桌面,Chrome内置gears。网络时代这是必备的。
    5 支持内置并自动更新恶意网站数据,在防钓鱼和安全上,对浏览者的保护上很有意义。360要做的安全浏览器不就这样的吗?
    6 支持NPAPI(Netscape Plugin Application Programming Interface),不支持activeX插件。

    都是微软逼得,虽然老埃的吧的吧地说,跟微软ie8无关,就像他当年说的Google不会推出自有浏览器一样,不靠谱。ie8也太咄咄逼人了,什么visual search,什么安全浏览模式,而且会绑定windows update自动更新,哎,真是
    垄断了就可以不择手段

    update:Google浏览器中文版下载地址。安装时候兼容性好像差了些,我就遇到了"喔唷,崩溃啦!",开始上路才有希望。

    http://www.google.com/chrome

    update:初始化失败是跟系统软件有冲突,在快捷方式后面加入“空格+--no-sandbox”,关闭调试即可用。

    标签: , ,

    阅读《Google浏览器叫chrome》更多内容...
    This Written at 九月 02, 2008 by loverty.   ,
    Google Insights for Search
    星期四, 八月 07, 2008
    刚刚Google推出了一个trends的数据分析服务,今天又搞了一个Google insight,这个应该是我的搜索历史记录的最终成果吧。webleon说是为Google AdPlanner提供更深入的数据分析,很有道理。这个确能为广告投放提供基础数据分析和决策参考服务,跟之前百度世界大会发布的我的营销中心有若干雷同。

    这项服务提供自2004年至今2008年8月,搜索词变化趋势分析。数据地区分布上标注了分布地区、权重,而且也提供相关关键词的top searches/rising searches,数据也标注了关键词所属类别的关注系数,你可以按照所属类别进行进一步的筛选过滤,帮您了解更准确的行业中相应关键词的受关注程度。同 时,也可以按照行业类别区分受关注的关键词,能够准确的了解搜索者怎么来关注这类信息的。

    总体上确实是能表达“世界在关注什么”,甚至怎么关注。你也可以用逗号分割多个query进行比较。

    用几个词比较了一下,确实比较肯定这个数据的价值。比如搜索“Google”,这个词在美国、英国,中国,俄罗斯,日本,韩国所表现出来的关注度跟 市场实际表现一致。再比如搜索“百度”,从2005年上市以来,百度的品牌成长速度确实很强,尤以07年为高。比较中国几个互联网品牌,也很能说明点问 题,搜狐品牌比新浪还不够强,charles 张应该考虑去做做推广咯。哈哈

    标签: ,

    阅读《Google Insights for Search》更多内容...
    This Written at 八月 07, 2008 by loverty.   ,
    Google 发布knol百科社区
    星期四, 七月 24, 2008

    Google Knol发布,这被称作“a unit of knowledge”知识单元的东西,终于显现出神密面纱。

    1 从社区定位上,Google把knol定义为“具体主题的权威文章。”

    2 用户可以选择自己的作品授权形式,可以设置自己编写的主题,别人修正或者编写的条件。

    3 有个创举就是,可以直接跟你的Google Adsense关联,这样,你的作品就可以直接和广告输出关联,获得收益。写文章赚钱的路子开始通顺。

    4 用户认证,用户可以通过信用卡或者手机短信进行身份信息确认。通过认证的人,在文章的作者显示部分,会显示通过认证的作者。

    5 Google knol的文本编辑器很好很强大。但是目前还不支持音视频文件的插入,似乎有待改进。

    6 支持文章的导入,本地的word,pdf,excel,txt都可以直接导入到线上发布。

    7 几个细节很有意思,撰写条目的标题叫做“Share what you know”,

    8 Google的knol更像协作写作社区,而非维基百科的模式。

    9 Knol的主题在社区中目前被呈现为不分类,好的质量的作品被推荐到首页。

    互动社区,信息到知识的沉淀是个关键的槛,去年北京文化创意产业哪个啥啥活动里头,那群人对知道和百科社区最大的疑惑就是,如何控制信息的质量,保 障有效性和权威性。我当时觉得,两条路,一是社区的群集效应,越多的人支持的正确的概率越高。二就是,专业特殊领域请相应的专家来咨询和互动,以向正确的 方向上发展。

    但是,试图通过对人的认证以确保文章条目的质量,我并不是很认可。他可能是互联网的专家,如果为了写而写,弄了大量牙疼的文章和解决方案,看不出权威性在哪里,个人书写的平面性和垂直领域专家的权威性,应该有一个平衡,才能在关键点上引导社区更有价值。

    标签: , ,

    阅读《Google 发布knol百科社区》更多内容...
    This Written at 七月 24, 2008 by loverty.   ,
    Google网站访问分析
    星期六, 六月 21, 2008
    Google trends里边新增加了一个针对搜索用户点击访问的网站的数据分析.
    简单点说就是搜索引擎导出流量变化趋势.

    http://trends.google.com/websites

    这个可以看出来,从Google到各个站点用户访问的情况,而且提供了来源地区,和访问分布的时间段数据趋势分析.介个是搜索引擎塑造影响力的很有效的一手哦.

    在这些数据的周围,用户可以看到访问sina.com.cn最多的关键词里,有"韩寒",访问百度的最多的词里头有个query是"baidu",这个跟很多人疑问的为什么搜索最多的词是"百度"呢,类似吧.说明用户对百度品牌认知提升了?perhaps
    网友评论:1
    wkcow 2008年06月21日 星期六 18:14 | 删除

    看了下,似乎中国地区的估值都比较低


    2
    sigz 2008年06月28日 星期六 06:45 | 删除

    “简单点说就是搜索引擎导出流量变化趋势”
    不是。 流量应该是toolbar搜集的。这东西还是有大量客户端的公司搞会比较准。不过相对alexa和chinarank准确了不少,很实用。
    呵呵

    PS:我点击你那链接“这些数据”,我马上就几分钟不能用google了。貌似没有敏感词汇,原因不明。

    3
    loverty 2008年06月28日 星期六 16:37 | 删除

    to,wkcow:
    对知名站点数据还不离谱。

    to,sigz:
    弄了一些数据分析了一下,不只是搜索点击流量和toolbar,还包括analytics的来去数据分析。貌似模型很复杂。
    4
    sigz 2008年06月28日 星期六 18:51 | 删除

    以google的风格第一版应该就会搞得比较复杂。

    应该不会直接用analytics数据,否则.... ,会用analytics作为验证数据的准确性,调优。

    标签: ,

    阅读《Google网站访问分析》更多内容...
    This Written at 六月 21, 2008 by loverty.   ,
    搜狗高考搜索
    星期二, 六月 10, 2008
    搜狗低调推出了一个整合高考搜索,和独立界面高考搜索,正应景。
    1 在搜索框中输入大学名称会,
    a) 搜索结果会给出学校简介和各地历年录取线。
    b) 会给出各地历年的招生人数。
    c) 各地各专业历年招生分数。
    d)各专业历年的就业情况。
    的“链接”,你可以选择你感兴趣的内容,点击进去深入探究。
    2 输入您的预估分数,我们会根据各高校在本地历年招生分数,提供给您报考专业的参考信息。
    3 提供高考试卷和答案的搜索,这个比较有意思,这在考完的三四天,估分数报志愿这是个有益的参考。可惜搜狗的人显然自己不用搜狗搜索,譬如他们举的例子“高考语文试卷 北京”,(via here)这个query至少目前来看根本就没有搜到想要的东西。

    哈哈,对于整合搜索大家都能认识到这种程度,

    所以如果你对需求理解更深刻一点点,将会拉开质的差别。Google整合了,腾讯搜搜整合了,搜狗现在也来了,整合搜索今年将很热闹。

    标签: , , , , ,

    阅读《搜狗高考搜索》更多内容...
    This Written at 六月 10, 2008 by loverty.   ,
    Google icon最yy的评论
    星期六, 五月 31, 2008


    http://twitter.com/Pangoo/statuses/823226223

    什么是favicon

    标签:

    阅读《Google icon最yy的评论》更多内容...
    This Written at 五月 31, 2008 by loverty.   ,
    MyBlogLog之Lifestreaming
    星期六, 三月 01, 2008
    自从雅虎收购了MyBlogLog之后,MyBlogLog第一次在产品和服务层面进行大幅度更新升级,在原来脚印服务的基础上,增加了大量的个人信息聚合服务,可以将自己的flikr/blogger/facebook/Google calendar/Technorati,甚至Blog Comments服务等等等等国外的主流的网络应用,通过帐户或feed进行信息的整合,集中通过个人的mybloglog个人页面展现.

    blogger也可通过MyBloglog提供的About Me Widget将这些信息作为web挂件在自己的网站上展现这些内容.

    这几天被哗哗赞誉的Google几个产品经理的新作friendfeed也是提供这方面服务的,帮助用户分享在网络上的各种信息,你可以把自已在一些常用服务上的相关信息聚合到一个Feed上。同时也可以通过这种途径来关注自己的朋友.

    这个服务的价值在哪里,我实在没有领略.如果说,搜索引擎延长了用户信息获取的过程链,那么,这个过程的延长,却增强了用户获取信息的便利性,整体减少了用户获取信息的成本,所以我认为它的延长是有价值而且必须的.那么基于feed的再整合再发布,到底有什么价值呢,它徒增我们在了解朋友表达自己的过程.而所带来的收益实在有限,向内除了在交互和操作的酷炫体验,个人信息管理之外,向外对我们关注的信息或者人的需求的提升实在有限,更何况,现在虚拟平台上所能反馈出来的真实个人的映像还有太大差距.继续学习.

    标签: , , , , , ,

    阅读《MyBlogLog之Lifestreaming》更多内容...
    This Written at 三月 01, 2008 by loverty.   ,
    Google图书增加多项新功能
    星期二, 二月 12, 2008
    Google图书搜索最近增加,我的图书馆功能,强化了社区化因素.你在搜索中感兴趣的书籍或者阅读相关书籍的时候可以通过"Add to My library"将书籍添加的自己的图书馆,还可以通过"我的图书馆"界面左下角的"导入图书"按钮,直接输入ISBN 号将其添加到自己的图书馆中.可以自己添加标签,书写注释/评论,也可以看看别人写的评论,并且提供RSS输出你的图书馆和评论,基本上就是一个没穿外罩的豆瓣.

    标签: , , , ,

    阅读《Google图书增加多项新功能》更多内容...
    This Written at 二月 12, 2008 by loverty.   ,
    有关于Google Android
    星期四, 十一月 29, 2007
    Google android 智能手机操作系统Google最近推出了自己的开源手机操作系统Andriod。它是以 Linux 为核心的手机操作系统平台。从开放的SDK演示来看,并没有什么特别能让人心动的地方,我用过motorola的基于linux的操作系统,用过Nokia SymbianS60系统,也用过Windows Mobile5/6系统,就使用成本来看,现在智能手机的操作系统使用成本都不高,但是维护成本很高,一方面是针对自己的个性化需求进行的优化,另一方面就是优化所带来的垃圾、甚至病毒等,影响系统的性能或者安全。

    从使用体验上来看,还是symbianS60系统操作习惯更人性化,功能设计也更精细,但是从开放性和开源这个方面看,Android将会带给从运营商设备制造商甚至用户个人,一个非常有想像力的空间。手机制造商、电信运营商和手机配件厂商可能在手机OS使用许可方面,节省大笔费用,从而有效地降低制造成本。而且还有足够多的应用或者足够多的应用开发者在这里,不需要投入太大的应用级软件开发在这里。

    从运营商角度可能基于这个标准定制自己的基础服务或增值服务,而不必直接跟硬件设备制造方面进行什么定制合作等,如移动心机联通CDMA等等诸多跟制造商合作定制终端的合作,Android平台能有效节约移动服务的成本和移动产业差异化成本。当然,对于开放的应用开发的安全性,对于开放平台和二次开发的使用许可都还是有很多工作要做,但是可以预见的协同合作模式将能有效促进平台本身的发展。

    当然这个东西推广起来还是需要一定的成本的和时间的,但是Google此举对于产业链上各个利益层面的好处是显而易见的,11月5日Google组织的34家“开放手机联盟(Open Handset Alliance)”就是明证,有好处谁不玩,其中不乏中国移动、NTT DoCoMo、摩托罗拉、三星这样的大主,问题是,也就是moto,samsung这种才来玩这个,而诺基亚则不在其中,而他在移动设备市场的地位却不言而喻。移动终端设备制造商不断增加,竞争不断加剧的情况下,他的市场份额没有下滑而是依然在成长。所以Google要拿下移动通信这块领域,绕不开诺基亚。

    好在现在对移动终端的定位越来越多元化,比如音乐需求、视频MP4播放、拍照需求、移动办公需求、网络应用需求、掌上游戏机需求等,不同需求定位的终端要求越来越个性化,从这个层面上看,无论是诺基亚还是谷歌也都是刚刚开始而已,而Google Android更偏重网络应用而已。Gartner发布的2006年智能平台市场份额数据显示,“2006年全球交付的智能手机数量达到了7290万部, Symbian凭借70%的份额处于市场领导地位,Linux占智能手机交付量的20%,而Windows Mobile、Palm和RIM共占交付量的10%。2007年上半年在全球共出货3460万部Symbian智能手机,同比上升了52%,Symbian智能手机累计出货量已经达到1.45亿部,在智能手机市场的份额达到了72%。”越来越感觉Google想把自己变成网络信息服务的空气和水,现在属于培养期,一切以圈地为要,占住更多的用户,将来做点什么都能赚钱,更何况有那么多广告还无处投放。

    标签: , , , ,

    阅读《有关于Google Android》更多内容...
    This Written at 十一月 29, 2007 by loverty.   ,
    Google's open social
    星期六, 十一月 03, 2007
    Google发布OpenSocial,通过这种开放应用接口,开发者借助此平台,开发的应用可直接加入到任何支持的网络社区,而不必像现在这样利用各个网络社区各自的API来进行依次开发。这大概是面对Facebook虎虎成长之气和参与无望的一种应对举措吧。

    目前加入的网络社区有:Engage.com, Friendster, hi5, Hyves, imeem, LinkedIn, MySpace, Ning, Oracle, orkut, Plaxo, Salesforce.com, Six Apart, Tianji, Viadeo, and XING.Tianji是个中国网站,走linkedin路线。

    开放APIs确实能充分释放参与者的兴趣,获得有价值的widget/gadget/web apps,并以这种东西吸引更多的新来者参与其中,加强互动和社区应用的趣味性。但是这种同盟关系到底能不能把这个方向给落实好,很让人没有期待,推荐阅读fangjun的分析,此前的nofollow就是落实到现在的状况就是明证。

    标签: , , ,

    阅读《Google's open social》更多内容...
    This Written at 十一月 03, 2007 by loverty.   ,
    谷歌又有快照了
    星期五, 十一月 02, 2007
    谷歌终于又提供了网页搜索的快照功能了,自今年4月下旬 ,Google.cn去掉网页快照功能以来,终于在今天实现本地化的快照服务。因为有不少网友都已经发现,快照访问的地址203.208.33.219是飞翔人信息技术有限公司的IP。当然快照并不是多么重要的功能,但对于谷歌来说,他却是一个象征,那就是服务部署的彻底本地化,与Google.com的中国区访问强制调google.cn一样,这是谷歌在中国的大局域网中建立一套小GOOGLE的里程碑。

    标签: ,

    阅读《谷歌又有快照了》更多内容...
    This Written at 十一月 02, 2007 by loverty.   ,