哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • 系统3:扩展和增强人类决策能力的关键
  • 决策增强与智能知识管理:人脑的第三个系统
  • 知识管理的算法
  • 信息知识管理技能
  • 碎片化阅读、海量信息时代的轻量级知识管理
  • 俞军和他的产品经理课
  • 为什么我们都对搜索不满意却又无可奈何
  • 搜索产品市场机会探讨:头条不做搜索做什么
  • 搜索产品市场机会探讨
  • 搜索产品市场机会探讨

  • Reward hasiblog
    知识管理的算法
    星期六, 八月 01, 2020

    有点长,先说观点,其实这篇也是2020 春节前在锐创的时候就写好了,没发出来。


    总结起来 就是,优秀的知识发现、灵活高效的分类标签体系、合理的权重策略、开放的结构和增长进化体系,分层共享 的访问授信机制。



    # 知识的发现

    数字信息的爆炸式增长淹没了我们用于对其进行分类的所有工具。标准的上下位分类目录导航的结构,是自上而下的少量小规模的数据处理范式。亦如上篇提到的.


    我们需要的是自下而上的自动化工具来理解大量数据、节省时间、提高使用效率。Google的PageRank算法使通过网页分析关键字和超链接,而不是通过人工判断为网页分配重要性和含义成为可能。这是一种自底向上的算法方法,可从数据特征的网络关系中计算获得含义。这项技术的要义在于,可以辅助人工判断重要与否并将这个特征量化表达出来、为后续的有效计算提供参数供给。


    在信息到知识的过程中,实际上是一种从泛在的信息的提取加工、并进行价值判断、形成知识工具的过程 ,那么这些泛在的信息在哪里、怎么产生的,以什么形式存在的、怎么发现怎么标引,除了 pagrank还有没有其他更好的方式。若干年前曾经尝试的 people rank 在解决那个维度的问题?


    #信息映射

    根据你的理解认知,建立所掌握的信息知识的关系结构,并能在特定场景/域下的对象和对象的用你掌握的类似、或者相关的逻辑结构来描述


    还有一点建立关联,基于域关联、场景方向,并能识别出场景和域下有多大差异,会导致迁移导致失效或者不完全等价,我一般定位一个知识和场景连接的适应性权重。


    一切困惑均可在历史中寻迹。当我带着困惑的时候,看到了1969年Robert Horn首次发表了一篇论文,概述了“信息映射”。


    信息映射是一种以研究为基础的方法,用来撰写明确、以用户为中心的信息(基于读者需求和信息使用目的),该方法主要被用于设计和撰写商务沟通及技术传播内容,已被全球范围的企业作为内容标准使用。这是创建技术参考的一种新方法。它是一种用于识别,分类和相互关联信息的原理系统,可以使你在复杂的,信息丰富的环境中更轻松地学习、获取信息、消费信息资讯中的知识。Robert E. Horn 的信息分类理论里明确了六种信息类型,几乎涵盖了商务沟通和技术传播的所有内容。根据它们对于读者的用途,这些类型对各元素进行了分类:





    先贤们很早就定义清楚,知识管理信息管理一定是以信息消费的读者的使用要解决的问题形态存在,而抽象出这种存在为中心的逻辑则是定义知识信息存在的结构,以访问为中心的逻辑则更关注的访问的相关性、一致性、易访问


    #知识管理的过程

    从获取的信息,知识化过程纵向抽象来看,包含这么一个过程:

    1 发现、初步学习

    2 重新学习

    3 参考

    4 扩展、延伸

    5 更新变化

    6 作为工具使用,并不断重复 2~6 的过程。


    通常情况下,费曼学习法、康奈尔科学笔记法、思维导图都是对知识的体系化梳理好工具,这些个工具在这里会有助于你整理、梳理、形成体系。


    #标签化你的知识信息

    标签(这里指的是 Tagging,类似于早期  furl、delicious 的taxonomy方式)可帮助我们即时感知,选择和思考的数据分组,以促进行动,而不仅仅是抽象的思想。


    且在不同笔记上标记标签,使我们能够感知跨学科的主题和模式,当前前提是你对你 Tagging的标签有要清晰的内涵定义,不能每次使用的边界都不稳定,这样可以使我们在特定的时刻仅关注最相关的信息,从而改善我们的思维。


    我们的思想塑造环境,然后环境塑造我们的思想。安迪·克拉克(Andy Clark)在《取代思想》一书中将“标签”描述为一种“增强现实技巧”。通过分配标签的简单行为,我们邀请大脑的模式识别能力来识别它们的相似性并从而预测其他哪些项目也适合该标签。我们实质上也是在调整笔记的信息环境,以突出显示或隐藏与当前任务最相关的功能。


    我们将标签视为可以即时创建的虚拟空间,唤起我们对空间导航的直观感觉,以理解复杂的抽象主题。我们能够创建更具体的概念结构,并使用我们的过程更有效的知识导航。 


    #信息的逻辑特征

    在阅粒搜藏的信息处理模式上,所有的信息可以从事理逻辑上可以分为,

    事实/概念

    经验

    观点

    数值数据

    历史

    权威信息(公理、定律、被验证的方法和专业人员发表的观点)


    从信息的泛在,到精选和再加工的内容处理过程,一般情况下,我们会:

    1 复述/转述--这个在抖音上还挺多人说,就是你自己掌握的标志是,讲给一个完全不懂的人,让他也轻松了解。说实话门槛不低。

    2 对这信息能发表自己的想法

    应对实际客观情况应用信息和知识进入的推理、判断、行为、决策参考


    这些都是相对的客观存在、公理性的认知无限接近与“事实”,我说的,是相对中立立场的看待知识信息。大家都知道没有绝对事实,前面都会有价值观、世界观、情感立场会影响你对这个的看法。


    #个人知识管理

    有效使用标签在个人知识管理中将极大增加你使用的知识管理工具的体验,阅粒搜藏就是用你的个性化 bot 帮你自动打标签分类整理。


    ##1  可以根据自己的使用习惯定义你的标签体系,除了主题、内容特征的语义标签,也可以定义状态、事件相关性、行动计划等

    有了标签,我们就有机会将我们的知识网络化。

    --标签应该易于记住

    --标签应该易于决定、易用有共识,尽量少歧义,比如你在任何时间定义同一内涵的东西,应该用的是统一的符号

    --标签应该是具体的

    --标签应支持正确的行为:在这种情况下,使用标签来管理工作流的各个阶段可以有效地使用知识

    --标签应该是有包容性的:通过维护标签来运行的组织系统可以方便我们通过网络化的连接最大化效用


    ##2 必要的时添加新的结构,使用积累的知识信息来指导您需要什么结构

    知识信息最有价值的特征之一就是它具有很高的延展性,随着对学科知识的积累和需求的变化,而且随着专业领域研究和知识的增加,我们可以通过逐步增加结构来利用可延展性。


    组织知识信息的方式预先决定一种结构,但是在个人知识管理方面,最重要的优先事项是满足您的日常需求,比如快速找到、快速回溯所有相关信息、甚至能帮你梳理和发现更深层次异同和映射到时间线上的变化。


    #知识管理的协作与共享

    《管理我们的数字资料的科学》中所有研究内容,确定知识信息、数字化资料可用“内部,外部和社交环境以及状态”来描述其“上下文”的信息的四个属性。


    ##1 你对笔记的想法,感觉,联想,关注和考虑事项,可以通过标签、mark、发布想法、评论等方式得以呈现,并跟这些信息在这个节点建立起关联。


    ##2 外部的相关的信息,这个通常情况下在开放互联网年代里 href、pingback 是最好的表述,但是目前随着网络部落化的严峻现实,我们也仅仅通过朋友圈截图管窥一二(开玩笑的哈哈),事实上可能需要更多技术手段参与


    ##3 社交环境是指与评论相关的其他人,例如项目合作者,推荐来源的人或与之共享的人,在搜藏中,我们出我们除了可以自己发表想法,还可以创建共享小组,引入相关的朋友一起对内容和信息本身发表深度思考、评价和讨论,仅限于这群相关的人才能互相浏览


    ##4 当前状态是指该注释所采取的任何操作,或该评论、followup所使用的任何可交付成果,它可以帮助我们通过标签、事件的关系,在思维建立上下文线索理解的可能。


    ##5 开发定制的特定于行业的分类标签

    哪一种才是“正确的”分类标签法,从古争执到今,亚里士多德认为,知识可以根据其实质,数量,质量,关系,位置,时间,位置,状态,行为和情绪进行分类。Francis Bacon将所有人类知识分为记忆(即历史),理性(即哲学)和想象力(即美术)。Shiyali Ramamrita Ranganathan认为,任何文件都可以根据其个性,物质,能量,空间和时间来定义。


    组织信息的历史在很大程度上与“分类法”有关,分类法是一种将信息分类为一个全包模型的分层系统。从这种角度来看,不为使用目的的分类,并不能说不对,只能说没用。


    最近看过一个数字图书馆的编目规范的学术研究,感觉从互联网信息、企业信息到传统严格知识分类体系上,差别很明显,各自都在朝着各自更实用的视角进化。


    但是对于特定的领域和专业,标签的可扩展性确实很重要,能够兼容通用性,又可以在特定领域引入专用领域,这就是说知识图谱技术可以发挥作用的空间,在通用体系上,可以引入行业、领域专业知识图谱,将极大增强标签易用性、一致性


    ##6 公共域、私有域、共享域的可见和可用度问题

    众所周知,对我们没有用的信息,看起来很每个字都认识,连起来却不知道啥意思的那种,确实对我们来说就是噪音和无意义的信息。


    知识信息在阅粒搜藏的体系内,被划分为私有域、共享域、公开域的内容,默认用户是可以轻松访问公开域的内容,但是共享域的内容却需要所有者或者利益相关者授权,私有域内容,只有创建人能看到,其他人都是不能访问的。


    为什么设计这么复杂的信息域体系,除了“没用就是噪音”的因素之外,还有搜藏其实支持 OCR、中英英中翻译、office 文件、PDF、markdown、txt 等大量私域内容,需要保护数据隐私。


    标签: , , , , , , ,

    阅读《知识管理的算法》更多内容...
    This Written at 八月 01, 2020 by loverty.   ,
    信息知识管理技能
    星期一, 七月 20, 2020


    在上文中,有一个信息的生命周期理论,他有一个假设,就是假定知识收集的总体目标是将其用于实际项目、目的中。但是不是一种固定的预定用途、同一知识块可能在不同时间以不同方式使用。



    #兴趣论


    通过阅读文字、影像这样的信息体验更多生命体验。我们每个人的存在都是时序上的节点,而这个节点形成跟输入输出形成的关系、影响有关,每个人都是其他人的平行世界。

    大量被创作的作品、从某种角度在诉说另一个节点的体验,那些感同身受的、那些朝闻夕死的、那些异域风情的、那些荒诞不经的、那些奇趣玄妙的,都在给我们反馈丰富和多彩,给我们感受非我的精彩。

    亦如你喜欢阅读的社交媒体评论上的情绪宣泄之流一样,能够督促自己深思深思、反刍和进化。


    #功用论


    在这个假设的框架下,信息知识的发现有不可预知性、使用目的和用法有不确定性,那我们抽象一下,就是对信息知识管理的需求本质上的需求就是,需要的时候方便找到并应用。看起来特别简单的一句话,内涵可就太丰富了


    信息的获取、有效整理、随需调用。随需要的时候,意味着,随时需要随时以最方便的形式找到所有的信息。


    (1)随时随地这个都不用讲了,除了支持桌面,支持移动端是必然的,还有未来丰富的移动便携设备的场景.


    (2)最方便的形式,这个既包含对交互模态和交互互动方式的开放型诉求,又包含对交互中,对意图和需求的准确理解,并且把交互的输入转换成计算语言能够识别处理的信号,进入系统进行交互.


    (3)找到,这个是对计算引擎的和目标诉求,既依赖第四点所说的素材和源,也依赖于对信息多模态理解和加工,并以引擎的需求形态和结构存储。这个形态既可以是基于推荐和feed的发现引擎,也可以是基于关键词的形态搜索的机制.


    (4)计算逻辑所处理的信息源所包含的丰富的和多样性要符合这样的场景约定.


    (5)源头的信息怎么进入你的候选数据库,这个也是很多工作,比如今日头条和百度模式,低边际成本的抓取解析,这个抓取解析过程又存在源质量评价机制、对垃圾低质量信息不可靠信息的处理,又包含版权知识产权的问题等


           搜藏从个人角度,提供了一个基于个人需求的知识和权威信息存储的私域信息的智能化加工和管理机制。你看到对你来说重要的数据、资料和信息情报,保存下来,形成自己的私域信息知识库。


          基于私域的知识信息库的线索,你的搜藏智能个人信息助理bot会帮你在开放域抓取和发现更多优质资讯和知识信息,同时系统会跟你主题和内容特征为你创建或者推荐小组,在小组内有一群人他们也对相关主题和相关内容有强需求和兴趣,互相共享信息和想法观点。


         理解整个知识信息助理的处理的过程,可以把搜藏产品解构成两部分,其一是帮你存,其二是帮你整理,其三,方便你调用信息使用信息,其四,为你自动归纳、定义特征自动发现、探索新的内容和趣味


    # 私域信息和公域信息


           私域信息我所指的就是有限范围了解和可获得的客观存在的信息,可能是你内网、本地电脑、电子设备里保存的笔记、数据、文件、照片,也可以是你开放互联网的数字系统中账户或者群组里分享的非公共的信息知识内容。

            公域信息我通常是指开放的、公开的,任何人如果发现就可以访问、消费的知识信息资讯。


         这两者随着以c/s 软件的流行、计算存储云端化的发展趋势,界限越来越模糊,不那么严格分割。那对于信息知识管理的参与主题,我们的使用成本、使用体验会越来越割裂、不方便、繁复。


    搜藏(访问原文连接查看),是我们几个小伙伴基于阅粒知识计算引擎,打造的私域内容基于账户授权访问、公域内容基于AI 语义引擎+全文搜索的infomation  assistant bot service。为你提供个性化的、智能的信息管理。为你打造一个通过技术代理自动执行,帮你随需方便找到可以支持后续需求和问题解决信息知识助理。前几天看到一个别人整理的列表,搜藏的摘要和智能标签是用户喜欢的。



    ##人们为什么有需要搜藏这样的信息整理需求?


    1. 遇到很重要的信息、数据、素材,有重复查阅需求,都应该保存在自己的信息库。与我们传统上,读书看纸质出版物一样,很多重要的点进行梳理做笔记,是重要的理解、形成知识内化的手段。


    2. 而公共互联网有个典型的特征就是,量大、内容被发现、被遇到很随机,公共搜索诸如百度 Google 这样的,除非有清晰的动机和目标,很容易找到,但是事实情况是公网内容,每年有超过四成的内容link会失效,或者网站没有了、关停,或者转移了。而这些内容很不容易被找到。


    3. 移动互联网还有严重的分割部落化的内容被 APP 生态切碎,藏于一域。APP的部落化生态的分割打破了,你在头条、微博、微信和百度,你能看到的毫不夸张地说,已经是不同的互联网,在这里这会儿能看到,如果不搜藏,可能下次就不一定找得到了。把一种已经相遇的确定性置于一个混沌不确定的状态,在需要的时候又得浪费时间重新找。


    4. 信息被保存的时候往往要符合人理解的逻辑,即符合人的掌控感。这一点则是传统信息管理工具的优势,他们是通过经典的学科层级分类体系来管理。

      但是层级分的层次越多,往往就记不住了。尤其是交叉学科,边界模糊,按照层级分类超过三层的分类层级体系,就会不太容易被混淆。所以搜藏对你保存的内容提供了相关关键词搜索和找到的能力。


    5. 搜藏提供了智能分类和社区协同分类两个维度。搜藏小秘书的是AI 辅助的自动化的信息分类的方法,把信息用学科主题分类+语义分类两层分类结构,构建信息内容的网络关系图。


    6. 第二个维度,用户自定义社区协同分组,这个是个开放式的聚合分组,用户可以根据自己的理解和需要自定义一个分组,并把相关的内容放到这个分组的簇内。可以跟其他朋友共享。


    # 信息层级分类和分众分类、全文搜索适用不同场景


    信息分类是严格层级结构分类效率高,还是水平标签的组织效率高,抑或是还其他种什么更有效的内容组织方式呢?


    回到我们去理解世界万物和构建符号体系的视角看,人去构造理解整个世界的逻辑就是归类,不断把未知的东西按照特征归类,发现特征超纲了,就提供新的类别包容这个对象。再发现新东西,按照内涵的相似性再归类,归类无法包容他的内涵或者外延的边界,裂变成新的类型。这个是这套层级分类结构的内在逻辑,说到知识信息领域更是如此,这么多年的大学术学科体系的演变就是一个很好的例证。


    ##在本地磁盘上,人还是更习惯分类目录


    在电脑、本地文件管理上,有的人喜欢基于确定性高、稳定的层级关系、学科目录分类导航--主要是跟受教育过程中接收到的信息一致。它能为人提供一个符合认知的稳定预期的路径和结构。人们通过分类目录导航提供了一个具体的导航路径结构,其中包含文件夹和标签,使他们可以逐步进行反馈和控制,每步都符合预期地逼近。在电脑时代尤其如此,人们通过磁盘分区、通过建立分类文件目录,来实现对文件文字信息进行有序管理,实现对结果预期确定性的把握。


    但是分类结构最大的问题是,信息量到一定量级的时候,分类的标准无法前后完全一致,就会导致,其实看起来每个文件在分类都分的很好,但是想用的时候,却不知道不太容易找回。


    特别典型的是 mac 上提供的基于标签的文件管理系统,非常方便好用,但是文件比较少的时候还行,一旦文件量太大,纯手工靠自我约束的分类、标签的稳定性一致性就很差了,就很不好用。



    ## 本地文件用标签和关键词搜索的方式组织


    人们非常喜欢手动导航文件系统,而不是搜索,而是扫描他们要查找的文件。之前我介绍过类似alfred、everything、百度Google的 desktop search等等,都是带有一定分类搜索来做内容和信息分类


    搜索依赖于使用者记住并输入文件的准确内容,并构造出准确的特征--这个特征必须和文件人、文档、素材、内容本身的特征完全一致,否则对于本地内容信息被重新发现很难效率很高,被错过可能就是常态。尽管本地可以用文件名、文件夹、磁盘、内容关键词、文件类型等信号,也会有 pdf 版 ppt 的偏差。


    ### 根据人的大脑的记忆的特点,依赖路径和稳定结构逻辑关系的导航,和通过线索识别、上下文反馈给出分类和标签相结合,构成一个立体的导航空间是包容性最好的选择,


    系统通过社交行为协同共享会形成另一维度的输入和标记,比较典型的就是 kindle、得到、微信读书,其实读书和看他人评论相比,有时候前者的效用会更好。


    分类导航层级目录系统的弱点在于,知识信息与其他可能激发有趣联系的想法节点被隔离开了。在这个层级结构里加入基于知识图谱的网络节点和关系的延展,既可以帮助我们保留层次结构的优势,同时将其与交叉连接和关联相融合,对其进行补充。


    这目的不是为了复杂而是为了好用,提供更多的可能性。即使 Google 百度这样的搜索工具更强大,目录导航分类层次结构也不会消失,全文搜索工具+图谱 Tagging,或者反过来的结合,才是信息处理效率的个人体验平衡。

    标签: , , , , , , ,

    阅读《信息知识管理技能》更多内容...
    This Written at 七月 20, 2020 by loverty.   ,
    搜索引擎史前人们查询知识的工具和方法
    星期日, 二月 17, 2019
    没有互联网搜索引擎之前,人们查询和解决知识性需求的主要方法和路径:

    1.工具书:是根据一定的查阅需要,系统汇集有关知识材料,并按易于检索的方法排检,以便迅速提供知识信息的图书。

    2.文摘:则是摘录有关的报刊论文或图书的主要内容。

    3.字典:主要是解释字的形、音、义及其用法。

    4.词典:主要说明词语的概念、意义和用法。

    5.类书:是辑录史实典故、名物制度、诗赋文章、丽词骈语等资料。功能:1)查找词藻典故和诗词文句出处。2)查考史实和事物掌故。3)辑佚和校勘古籍。

    6.政书:是专门记载历代或某一朝代的典章制度资料,法律法规、政府简报、政策公告等
    7.百科全书:百科全书总汇各个学科或某一学科的知识,提供人类有关知识领域的基本事实、基本概念和基本理论。

    8.年鉴:是系统汇集一年内有关事物或学科的进展情况、重要文献及统计资料的连续性出版物。

    9.手册:是汇集某方面经常需要查考的基本知识和资料。

    10.名录:是汇集机构名、人名、地名等专名的基本情况和资料。

    11.统计资料:是系统汇集有关身会经济和社会生活方面的统计数字和资料。数据集和数学用表;则是系统汇集有关科学和生产方面的数据、公式等资料。

    12.年表/历表:是汇集历史年代和历史大事资料,以及同一时间维度不同空间维度的聚合。

    13.书目:也称目录,是著录一批相关文献并按照一定的次序编排而成的揭示与报道文献信息的工具。

    14.索引:是著录书刊中的题名、语词、主题、人名、地名、事件及其它事物名称,按照一定的方式编排,并指明出处的一种检索工具。

    15.丛书:又称丛刻、丛刊、丛编、汇刻、合刻,是辑汇有关著作,并冠以总名的一种著作集。重要的丛书有《四库全书》《二十四史》《诸子集成》等。

    16.总集,汇集多人作品为一书,称为总集。重要的总集有《诗经》《楚辞》《先秦魏晋南北朝诗》《全唐诗》《全宋词》《全上古三代秦汉三过六朝文》《昭明文选》《文苑英华》《全唐文》《全宋文》等。

    17.汇编:通常称作资料汇编,是一种围绕某一学科、专题汇辑各种文献资料的著作。

    中国历史上第一部知识书籍
    ---词典是《尔雅》
    ---大百科全书是《永乐大典》
    ---诗歌总集《诗经》
    ---第一部文选,《昭明文选》
    ---第一部字典是《说文解字》
    ---第一部语录体著作《论语》
    ---第一部编年体史书《春秋》


    标签: , ,

    阅读《搜索引擎史前人们查询知识的工具和方法》更多内容...
    This Written at 二月 17, 2019 by loverty.   ,
    Wolfram|Alpha:数据整合的启示
    星期五, 五月 22, 2009
    Wolfram|Alpha说他对搜索结果拥有版权,且需要引用需要署名,这是搜索引擎和所搜出来的内容的关系的一种颠覆。随便搜索几个词会发现,Wolfram|Alpha的搜索结果,

    实际上是提供信息内容深层次关联的,进而形成的机器聚合的知识体系,换句话说,就是机器整理的知识库,不是一般意义的搜索引擎。这对我的启示就是,搜索引擎面对海量信息,在对信息与信息的语义关联、逻辑关联、事理整合与延伸扩展等数据深层次挖掘和整理上的意义远大于其提供搜索服务的意义。比如搜索“baidu”或者“baidu stock”,这些信息本来是独立、零散的存在于网络各个角落,因为Wolfram|Alpha的整合,使得事物原貌信息、对比、关联、评价一起呈现给用户。当然,这两个关键词的需求略有差异,但是Wolfram|Alpha的搜索结果内容和数据排布、样式完全相同,从资源角度来考虑需求的就是这样的。所以还是有优化空间的。

    随着互联网应用环境的发展与成熟,网民获取信息的方式发生着巨大变化,比如过去,以找到好网站为目标,相当长一段时间搜索引擎的主要目标是找网站,网站导航就是搜索引擎,用户通过各种Yahoo!pick、目录、hao123里找到符合自己需求的网站,然后把它们的网址保存收藏夹、邮箱,以便于下次的再次访问,以网站为目标是搜索引擎的最重要的价值。

    但是随着第二代搜索引擎技术体系的成熟,网民对网络信息的渴求不再是以网站为单位了,而是网页。搜索引擎提供大量的能够满足用户需求的内容网页级列表,用户的行为成了通过搜索引擎直达网页内容。用户需要掌握的网址就一个,搜索引擎,所有的内容需求,网址导航需求等等是通过搜索框来完成的。(当然,我这里不是说搜索的需求里边没有网站导航需求)。

    以Google百度为代表的这代搜索引擎,目前其实面临的一个巨大的难题,就是每次搜索返回的结果动辄几十万、上亿,这对用户来说没有意义,除了增加在搜索结果中再扒拉自己需要的内容的困难。所以各种针对搜索引擎的信息提纯、搜索结果展现优化的方案逐步被提到搜索引擎的解决方案中来。

    这似乎是不够的,即使这些工作能一定程度解决这个困惑,但是还是无法让用户零散的需求在搜索的价值体系中得以彰显。所以这个时候,信息就开始以很微观的内容单元存在,搜索的内容不在是网站、不再是网址,搜索结果不再以url方式呈现,而是以一个个信息单元,辅以用户需求的形态和适宜的展现方式,直接给用户提供了整合后的完整信息。

    当然这里边也有个问题就是,哪些信源获得的信息是真实、可信的,这里边可能在这样的大规模数据整合上必须着重考虑和解决。

    标签: , ,

    阅读《Wolfram|Alpha:数据整合的启示》更多内容...
    This Written at 五月 22, 2009 by loverty.   ,
    搜狗知识搜索
    星期一, 八月 06, 2007
    搜狗同学推出了知识搜索,呵呵,其搜索结果的网页主要来自百度知道、雅虎知识堂、新浪爱问。利用限定域来实现的垂直搜索确实实施简单见效快。单就收录范围,跟奇虎经验还有差距,奇虎经验搜索收录的内容的范围要广的多。

    搜索结果与网页搜索结果比较,去掉了网址url,这点做的不厚道,拿内容平台的内容来索引却去掉人家的url(奇虎经验就保留了主域),索引中还把原网站的网站名权值去光光呀,如果这种方式遭到内容平台的抗击,拒绝sogou spider收录,你说sogou会遵守robots协议吗,呵呵。

    当然不知道别人怎样,我看到这些内容的时候,url是参考是否点击的一个因素,所以这点是否是优化还值得考量。增加问题是否有最佳答案的标记,以及评论数标记,明显比普通网页搜索结果更让人有明确的概念,能成为我们是否确定这个网页内容就是我要的内容的判断因素。比奇虎经验各有参差。

    内容好像没有任何去重复处理,百度知道的权值似乎特别高,前几条基本上都是。在对时间因素影响排序方面,有处理,好像效果不是特别明显。

    标签: , , ,

    阅读《搜狗知识搜索》更多内容...
    This Written at 八月 06, 2007 by loverty.   ,