哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • AI搜索引擎的兴起:挑战与机遇
  • 系统3:扩展和增强人类决策能力的关键
  • 决策增强与智能知识管理:人脑的第三个系统
  • 知识管理的算法
  • 信息知识管理技能
  • 碎片化阅读、海量信息时代的轻量级知识管理
  • 俞军和他的产品经理课
  • 为什么我们都对搜索不满意却又无可奈何
  • 搜索产品市场机会探讨:头条不做搜索做什么
  • 搜索产品市场机会探讨

  • Reward hasiblog
    知识管理的算法
    星期六, 八月 01, 2020

    有点长,先说观点,其实这篇也是2020 春节前在锐创的时候就写好了,没发出来。


    总结起来 就是,优秀的知识发现、灵活高效的分类标签体系、合理的权重策略、开放的结构和增长进化体系,分层共享 的访问授信机制。



    # 知识的发现

    数字信息的爆炸式增长淹没了我们用于对其进行分类的所有工具。标准的上下位分类目录导航的结构,是自上而下的少量小规模的数据处理范式。亦如上篇提到的.


    我们需要的是自下而上的自动化工具来理解大量数据、节省时间、提高使用效率。Google的PageRank算法使通过网页分析关键字和超链接,而不是通过人工判断为网页分配重要性和含义成为可能。这是一种自底向上的算法方法,可从数据特征的网络关系中计算获得含义。这项技术的要义在于,可以辅助人工判断重要与否并将这个特征量化表达出来、为后续的有效计算提供参数供给。


    在信息到知识的过程中,实际上是一种从泛在的信息的提取加工、并进行价值判断、形成知识工具的过程 ,那么这些泛在的信息在哪里、怎么产生的,以什么形式存在的、怎么发现怎么标引,除了 pagrank还有没有其他更好的方式。若干年前曾经尝试的 people rank 在解决那个维度的问题?


    #信息映射

    根据你的理解认知,建立所掌握的信息知识的关系结构,并能在特定场景/域下的对象和对象的用你掌握的类似、或者相关的逻辑结构来描述


    还有一点建立关联,基于域关联、场景方向,并能识别出场景和域下有多大差异,会导致迁移导致失效或者不完全等价,我一般定位一个知识和场景连接的适应性权重。


    一切困惑均可在历史中寻迹。当我带着困惑的时候,看到了1969年Robert Horn首次发表了一篇论文,概述了“信息映射”。


    信息映射是一种以研究为基础的方法,用来撰写明确、以用户为中心的信息(基于读者需求和信息使用目的),该方法主要被用于设计和撰写商务沟通及技术传播内容,已被全球范围的企业作为内容标准使用。这是创建技术参考的一种新方法。它是一种用于识别,分类和相互关联信息的原理系统,可以使你在复杂的,信息丰富的环境中更轻松地学习、获取信息、消费信息资讯中的知识。Robert E. Horn 的信息分类理论里明确了六种信息类型,几乎涵盖了商务沟通和技术传播的所有内容。根据它们对于读者的用途,这些类型对各元素进行了分类:





    先贤们很早就定义清楚,知识管理信息管理一定是以信息消费的读者的使用要解决的问题形态存在,而抽象出这种存在为中心的逻辑则是定义知识信息存在的结构,以访问为中心的逻辑则更关注的访问的相关性、一致性、易访问


    #知识管理的过程

    从获取的信息,知识化过程纵向抽象来看,包含这么一个过程:

    1 发现、初步学习

    2 重新学习

    3 参考

    4 扩展、延伸

    5 更新变化

    6 作为工具使用,并不断重复 2~6 的过程。


    通常情况下,费曼学习法、康奈尔科学笔记法、思维导图都是对知识的体系化梳理好工具,这些个工具在这里会有助于你整理、梳理、形成体系。


    #标签化你的知识信息

    标签(这里指的是 Tagging,类似于早期  furl、delicious 的taxonomy方式)可帮助我们即时感知,选择和思考的数据分组,以促进行动,而不仅仅是抽象的思想。


    且在不同笔记上标记标签,使我们能够感知跨学科的主题和模式,当前前提是你对你 Tagging的标签有要清晰的内涵定义,不能每次使用的边界都不稳定,这样可以使我们在特定的时刻仅关注最相关的信息,从而改善我们的思维。


    我们的思想塑造环境,然后环境塑造我们的思想。安迪·克拉克(Andy Clark)在《取代思想》一书中将“标签”描述为一种“增强现实技巧”。通过分配标签的简单行为,我们邀请大脑的模式识别能力来识别它们的相似性并从而预测其他哪些项目也适合该标签。我们实质上也是在调整笔记的信息环境,以突出显示或隐藏与当前任务最相关的功能。


    我们将标签视为可以即时创建的虚拟空间,唤起我们对空间导航的直观感觉,以理解复杂的抽象主题。我们能够创建更具体的概念结构,并使用我们的过程更有效的知识导航。 


    #信息的逻辑特征

    在阅粒搜藏的信息处理模式上,所有的信息可以从事理逻辑上可以分为,

    事实/概念

    经验

    观点

    数值数据

    历史

    权威信息(公理、定律、被验证的方法和专业人员发表的观点)


    从信息的泛在,到精选和再加工的内容处理过程,一般情况下,我们会:

    1 复述/转述--这个在抖音上还挺多人说,就是你自己掌握的标志是,讲给一个完全不懂的人,让他也轻松了解。说实话门槛不低。

    2 对这信息能发表自己的想法

    应对实际客观情况应用信息和知识进入的推理、判断、行为、决策参考


    这些都是相对的客观存在、公理性的认知无限接近与“事实”,我说的,是相对中立立场的看待知识信息。大家都知道没有绝对事实,前面都会有价值观、世界观、情感立场会影响你对这个的看法。


    #个人知识管理

    有效使用标签在个人知识管理中将极大增加你使用的知识管理工具的体验,阅粒搜藏就是用你的个性化 bot 帮你自动打标签分类整理。


    ##1  可以根据自己的使用习惯定义你的标签体系,除了主题、内容特征的语义标签,也可以定义状态、事件相关性、行动计划等

    有了标签,我们就有机会将我们的知识网络化。

    --标签应该易于记住

    --标签应该易于决定、易用有共识,尽量少歧义,比如你在任何时间定义同一内涵的东西,应该用的是统一的符号

    --标签应该是具体的

    --标签应支持正确的行为:在这种情况下,使用标签来管理工作流的各个阶段可以有效地使用知识

    --标签应该是有包容性的:通过维护标签来运行的组织系统可以方便我们通过网络化的连接最大化效用


    ##2 必要的时添加新的结构,使用积累的知识信息来指导您需要什么结构

    知识信息最有价值的特征之一就是它具有很高的延展性,随着对学科知识的积累和需求的变化,而且随着专业领域研究和知识的增加,我们可以通过逐步增加结构来利用可延展性。


    组织知识信息的方式预先决定一种结构,但是在个人知识管理方面,最重要的优先事项是满足您的日常需求,比如快速找到、快速回溯所有相关信息、甚至能帮你梳理和发现更深层次异同和映射到时间线上的变化。


    #知识管理的协作与共享

    《管理我们的数字资料的科学》中所有研究内容,确定知识信息、数字化资料可用“内部,外部和社交环境以及状态”来描述其“上下文”的信息的四个属性。


    ##1 你对笔记的想法,感觉,联想,关注和考虑事项,可以通过标签、mark、发布想法、评论等方式得以呈现,并跟这些信息在这个节点建立起关联。


    ##2 外部的相关的信息,这个通常情况下在开放互联网年代里 href、pingback 是最好的表述,但是目前随着网络部落化的严峻现实,我们也仅仅通过朋友圈截图管窥一二(开玩笑的哈哈),事实上可能需要更多技术手段参与


    ##3 社交环境是指与评论相关的其他人,例如项目合作者,推荐来源的人或与之共享的人,在搜藏中,我们出我们除了可以自己发表想法,还可以创建共享小组,引入相关的朋友一起对内容和信息本身发表深度思考、评价和讨论,仅限于这群相关的人才能互相浏览


    ##4 当前状态是指该注释所采取的任何操作,或该评论、followup所使用的任何可交付成果,它可以帮助我们通过标签、事件的关系,在思维建立上下文线索理解的可能。


    ##5 开发定制的特定于行业的分类标签

    哪一种才是“正确的”分类标签法,从古争执到今,亚里士多德认为,知识可以根据其实质,数量,质量,关系,位置,时间,位置,状态,行为和情绪进行分类。Francis Bacon将所有人类知识分为记忆(即历史),理性(即哲学)和想象力(即美术)。Shiyali Ramamrita Ranganathan认为,任何文件都可以根据其个性,物质,能量,空间和时间来定义。


    组织信息的历史在很大程度上与“分类法”有关,分类法是一种将信息分类为一个全包模型的分层系统。从这种角度来看,不为使用目的的分类,并不能说不对,只能说没用。


    最近看过一个数字图书馆的编目规范的学术研究,感觉从互联网信息、企业信息到传统严格知识分类体系上,差别很明显,各自都在朝着各自更实用的视角进化。


    但是对于特定的领域和专业,标签的可扩展性确实很重要,能够兼容通用性,又可以在特定领域引入专用领域,这就是说知识图谱技术可以发挥作用的空间,在通用体系上,可以引入行业、领域专业知识图谱,将极大增强标签易用性、一致性


    ##6 公共域、私有域、共享域的可见和可用度问题

    众所周知,对我们没有用的信息,看起来很每个字都认识,连起来却不知道啥意思的那种,确实对我们来说就是噪音和无意义的信息。


    知识信息在阅粒搜藏的体系内,被划分为私有域、共享域、公开域的内容,默认用户是可以轻松访问公开域的内容,但是共享域的内容却需要所有者或者利益相关者授权,私有域内容,只有创建人能看到,其他人都是不能访问的。


    为什么设计这么复杂的信息域体系,除了“没用就是噪音”的因素之外,还有搜藏其实支持 OCR、中英英中翻译、office 文件、PDF、markdown、txt 等大量私域内容,需要保护数据隐私。


    标签: , , , , , , ,

    阅读《知识管理的算法》更多内容...
    This Written at 八月 01, 2020 by loverty.   ,
    Google向非登录用户推个性化搜索
    星期日, 十二月 06, 2009

    Google宣布,将向没有登录谷歌账号的搜索用户提供个性化搜索结果。其博客撰文称,将通过在用户电脑上保存的匿名cookie,根据用户过去180天的搜索活动,提供定制搜索结果。

    目前看到的Google个性化互联网搜索服务目前能用到的主要是搜索结果筛选器功能,如下:
    结果页面竖排切换图片、视频、新闻博客、图书、地图、购物、论坛搜索。
    按时间过滤:可以以限定时间范围、或自己输入时间区间方式来;排序筛选:时间、相关性;搜索结果:访问过的页面、没有访问过的;
    浏览模式:标准浏览方式、相关搜索提示模式、时间线模式浏览;
    结果页面特征:结果带图版、页面预览版、翻译搜索版、去购物网站页面版/更多购物网站结果。

    Google目前在个性化搜索方面进行的用户行为研究、统计数据分析、互动工具方面进行了若干项目:

    2005年5月,推出的搜索历史记录和网址收藏,是以记录分析用户对哪些url、网址更感兴趣为目标的,搜索和点击行为的记录也能有效建立起针对登录用户的分析模型。

    2008年11月,推出SearchWiki它允许用户对搜索结果进行改造,排序,删除,添加,评论,让用户参与到结果的reRank,其实就是建立用户评价系统,未必真的是为了提供一个搜索服务。

    2006年5月,推出的可定制垂直信息搜索Google Custom Search的服务,如下图所示例,我订阅点石互动zac的定制搜索。

    2009年10月,Google推出实验室版social search,根据分析你的profile中的社会化服务,比如你的reader里都订阅什么人的信息,twitter什么的,相关的实时网络有哪些,相关的网站都是什么等。根据这些信息的整合,作为相关结果信息的推荐或过滤的因素,帮你做到个性化信息需求的ranking和过滤。

    搜索引擎个性化搜索服务从系统构建的角度理解,是以用户需求理解基础的。怎么能充分解读用户需求,从而在理解的基础上推荐更好的结果呢?每天网上爆发的信息量已经超过了我们能接受的范围,搜索无疑是帮助我们从信息海洋中筛选内容的重要手段,如果搜索引擎可以感知用户的意思, 那么就可以限定信息的特定范围,通过对用户的位置和他们的搜索行为特征识别,对搜索结果的使用,如在搜索结果浏览点击行为,你跳过、忽视的内容,这样就可 以成为建立一个更有效的模型,帮助用户获得更加完美的结果集。每次搜索请求都是独特的,只有因人、因需而异的个性化搜索才能帮助用户找到所需信息。

    标签: , ,

    阅读《Google向非登录用户推个性化搜索》更多内容...
    This Written at 十二月 06, 2009 by loverty.   ,
    SNS对搜索和信息获取的影响
    星期日, 十月 25, 2009
    Sean Parker在web2.0峰会上的发言"未来主宰网络的是Twitter、Facebook、Apple 和 eBay,而不是 Google"。着实让人惊异了一把。微软bing搜索中已经加入twitter的实时搜索功能、谷歌消息称也已经跟twitter达成协议,即将在搜索结果中加入twitter即时消息。从07年12月份我发的这个帖子,思考twiter类即时信息流与搜索引擎的关系,至今,仅仅2年时间,这块现在已经成了众家互联网巨头密切关注并参与其中的一个领域。Sean Parke说,从像 Google 和 Yahoo这拉的"信息服务公司"主宰,向Twitter、Facebook这样的"网络服务公司"转变,很有道理,但是,我觉得搜索引擎被完全替代的可能性是没有的,原因很简单,搜引擎并不是静止的,搜索引擎的形态也会随着互联网网站的形态、网络条件、用户习惯等的变化,同步在成长变化,他是网络服务的基础。且信息服务也还是未来网络服务的一大块内容。

    Twitter类消息以低于140字节为特点,犹如我们谈话,似信息流有节奏有区隔地从不同的ID的口中流出。在增强人与人之间的被动沟通上非常有意义,现代人"都很忙"。Tweet里这些信息的单独存在几乎没有意义,但是,跟ID关联起来以后就有明确的意义和价值了,尤其是针对哪些follow了这些ID的人,即tweet的读者。在这里follow的意义不只是关注、还有想了解、信任等更多因素在里边。

    所以我觉得twitter、facebook在未来信息按需流动和推送的需求上,最能挑战目前的搜索引擎:

    1 信息的权威度、可信度。目前的搜索引擎主要靠,基于超链接等传统计算逻辑分析获得信源的权威度,从而来完成对权威度的认定,而基于SNS的信息内容分享,其权威度来源于人,来源于发布者,而发布者的权威则来源于推的、被re锐推和@的情况的综合。比如谷歌撤服务器的这条信息,来自胡延平,大家就愿意信而且会主动转发,这个过程是一个互动的过程。在这个平台上做虚假信用,几乎很难做吧,但是在传统搜索引擎里注册几万个域名、做个几万个站点,互相贡献点超链,这是小玩家。

    2 信息的时效性。这个不用说,你几乎能看到实时发布的信息在自动推送给你,传统搜索引擎明显没有这些平台更灵活、更能解决这个问题。

    3 热门信息会更容易得到呈现机会,助推效应很明显。twitter有自己的社区化语言,对于被锐推或转发的会随着人群、人群的影响力放大,就使得信息在受众中到达的速度和覆盖率达到空间的提高。

    信息传播的速度和受众的空前扩大意义非凡,在200年以前,如果发布一个消息给,需要快马加鞭,一天一夜24小时才能走800里,然后信息发布人员敲锣鸣号,着急个几百号群众,扯着嗓子发布消息,影响力就这么大了。今天1条推1秒钟可以传遍全世界(前提是有全世界的人都来follow你,呵呵),虽然从信息转换成特定信号是需要时间成本的,但是以140字节的要求,基本上熟练使用电脑的人都能在40秒之内完成,可以想见这影响力有多大。

    4 信息获取的海量筛选变成局部筛选。现在的互联网信息已经非常海量了,随便搜索个啥,动辄几千万条结果就出来了,能满足需要的结果的筛选变得非常困难。而建立在社交网络基础上的信息分享,其信息传导路径,很容易把你不需要的信息隔在外边。

    5 信息的按需去取与按关联推送完美结合,这个是期待,这块twitter、Facebook解决的并不完美,只是我使用在friendfeed的功能来完成这块的需求的时候,发现效果还不错 。在网络信息的获取上,搜索引擎主要解决按需来取,而按需推送的方面,虽然一直都有尝试,至今尚未有特别效果好的,比如当年的网易个性化资讯就是尝试按分类主题推荐信息的,但是都没有特别成功的解决按需且保质保量的问题。今天玩聚也在尝试社会化推荐的聚合,目前从我使用体验来看,热点解决的非常棒,但是在精品内容但是不够大众的信息的推荐上还有改进空间。

    标签: , , , ,

    阅读《SNS对搜索和信息获取的影响》更多内容...
    This Written at 十月 25, 2009 by loverty.   ,
    Google Web History
    星期五, 四月 20, 2007
    Google搜索历史记录的升级版Google Web History近日发布,与此前的limited to searches相比,Google Web History在收集搜索历史记录的基础上,将记录范围扩展至所有访问过的网页(主要通过安装toolbar工具条来实现对访问页面TRACK的记录)。

    这次升级可以让用户能更好地管理及搜索自己曾经访问过的网页,或者直接浏览浏览过的网页全文,快速查找历史内容,脱离时空限制的访问history。正如他们PR中描述的,你不需要输入关键词也能进行搜索(queryless search via here)。同时这些信息将被保存在Google服务器上,Google将继续利用其所谓的个性化搜索的算法去优化他的搜索,这也将意味着你在Google面前毫无隐私,正如IwfWcf所言,这比裸体更裸体

    这个思路有点类似于StumbleUpon和我之前提到的foxmarks这两个浏览器插件,利用浏览器扩展功能来延伸到用户访问的历史记录和书签,从而更深入的获得用户关于站点价值的评价。这些东西虽然获取的是小众样本但是依然在某些角度有价值的。

    标签: , ,

    阅读《Google Web History》更多内容...
    This Written at 四月 20, 2007 by loverty.   ,