哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • AI搜索引擎的兴起:挑战与机遇
  • 系统3:扩展和增强人类决策能力的关键
  • 决策增强与智能知识管理:人脑的第三个系统
  • 知识管理的算法
  • 信息知识管理技能
  • 碎片化阅读、海量信息时代的轻量级知识管理
  • 俞军和他的产品经理课
  • 为什么我们都对搜索不满意却又无可奈何
  • 搜索产品市场机会探讨:头条不做搜索做什么
  • 搜索产品市场机会探讨

  • Reward hasiblog
    知识管理的算法
    星期六, 八月 01, 2020

    有点长,先说观点,其实这篇也是2020 春节前在锐创的时候就写好了,没发出来。


    总结起来 就是,优秀的知识发现、灵活高效的分类标签体系、合理的权重策略、开放的结构和增长进化体系,分层共享 的访问授信机制。



    # 知识的发现

    数字信息的爆炸式增长淹没了我们用于对其进行分类的所有工具。标准的上下位分类目录导航的结构,是自上而下的少量小规模的数据处理范式。亦如上篇提到的.


    我们需要的是自下而上的自动化工具来理解大量数据、节省时间、提高使用效率。Google的PageRank算法使通过网页分析关键字和超链接,而不是通过人工判断为网页分配重要性和含义成为可能。这是一种自底向上的算法方法,可从数据特征的网络关系中计算获得含义。这项技术的要义在于,可以辅助人工判断重要与否并将这个特征量化表达出来、为后续的有效计算提供参数供给。


    在信息到知识的过程中,实际上是一种从泛在的信息的提取加工、并进行价值判断、形成知识工具的过程 ,那么这些泛在的信息在哪里、怎么产生的,以什么形式存在的、怎么发现怎么标引,除了 pagrank还有没有其他更好的方式。若干年前曾经尝试的 people rank 在解决那个维度的问题?


    #信息映射

    根据你的理解认知,建立所掌握的信息知识的关系结构,并能在特定场景/域下的对象和对象的用你掌握的类似、或者相关的逻辑结构来描述


    还有一点建立关联,基于域关联、场景方向,并能识别出场景和域下有多大差异,会导致迁移导致失效或者不完全等价,我一般定位一个知识和场景连接的适应性权重。


    一切困惑均可在历史中寻迹。当我带着困惑的时候,看到了1969年Robert Horn首次发表了一篇论文,概述了“信息映射”。


    信息映射是一种以研究为基础的方法,用来撰写明确、以用户为中心的信息(基于读者需求和信息使用目的),该方法主要被用于设计和撰写商务沟通及技术传播内容,已被全球范围的企业作为内容标准使用。这是创建技术参考的一种新方法。它是一种用于识别,分类和相互关联信息的原理系统,可以使你在复杂的,信息丰富的环境中更轻松地学习、获取信息、消费信息资讯中的知识。Robert E. Horn 的信息分类理论里明确了六种信息类型,几乎涵盖了商务沟通和技术传播的所有内容。根据它们对于读者的用途,这些类型对各元素进行了分类:





    先贤们很早就定义清楚,知识管理信息管理一定是以信息消费的读者的使用要解决的问题形态存在,而抽象出这种存在为中心的逻辑则是定义知识信息存在的结构,以访问为中心的逻辑则更关注的访问的相关性、一致性、易访问


    #知识管理的过程

    从获取的信息,知识化过程纵向抽象来看,包含这么一个过程:

    1 发现、初步学习

    2 重新学习

    3 参考

    4 扩展、延伸

    5 更新变化

    6 作为工具使用,并不断重复 2~6 的过程。


    通常情况下,费曼学习法、康奈尔科学笔记法、思维导图都是对知识的体系化梳理好工具,这些个工具在这里会有助于你整理、梳理、形成体系。


    #标签化你的知识信息

    标签(这里指的是 Tagging,类似于早期  furl、delicious 的taxonomy方式)可帮助我们即时感知,选择和思考的数据分组,以促进行动,而不仅仅是抽象的思想。


    且在不同笔记上标记标签,使我们能够感知跨学科的主题和模式,当前前提是你对你 Tagging的标签有要清晰的内涵定义,不能每次使用的边界都不稳定,这样可以使我们在特定的时刻仅关注最相关的信息,从而改善我们的思维。


    我们的思想塑造环境,然后环境塑造我们的思想。安迪·克拉克(Andy Clark)在《取代思想》一书中将“标签”描述为一种“增强现实技巧”。通过分配标签的简单行为,我们邀请大脑的模式识别能力来识别它们的相似性并从而预测其他哪些项目也适合该标签。我们实质上也是在调整笔记的信息环境,以突出显示或隐藏与当前任务最相关的功能。


    我们将标签视为可以即时创建的虚拟空间,唤起我们对空间导航的直观感觉,以理解复杂的抽象主题。我们能够创建更具体的概念结构,并使用我们的过程更有效的知识导航。 


    #信息的逻辑特征

    在阅粒搜藏的信息处理模式上,所有的信息可以从事理逻辑上可以分为,

    事实/概念

    经验

    观点

    数值数据

    历史

    权威信息(公理、定律、被验证的方法和专业人员发表的观点)


    从信息的泛在,到精选和再加工的内容处理过程,一般情况下,我们会:

    1 复述/转述--这个在抖音上还挺多人说,就是你自己掌握的标志是,讲给一个完全不懂的人,让他也轻松了解。说实话门槛不低。

    2 对这信息能发表自己的想法

    应对实际客观情况应用信息和知识进入的推理、判断、行为、决策参考


    这些都是相对的客观存在、公理性的认知无限接近与“事实”,我说的,是相对中立立场的看待知识信息。大家都知道没有绝对事实,前面都会有价值观、世界观、情感立场会影响你对这个的看法。


    #个人知识管理

    有效使用标签在个人知识管理中将极大增加你使用的知识管理工具的体验,阅粒搜藏就是用你的个性化 bot 帮你自动打标签分类整理。


    ##1  可以根据自己的使用习惯定义你的标签体系,除了主题、内容特征的语义标签,也可以定义状态、事件相关性、行动计划等

    有了标签,我们就有机会将我们的知识网络化。

    --标签应该易于记住

    --标签应该易于决定、易用有共识,尽量少歧义,比如你在任何时间定义同一内涵的东西,应该用的是统一的符号

    --标签应该是具体的

    --标签应支持正确的行为:在这种情况下,使用标签来管理工作流的各个阶段可以有效地使用知识

    --标签应该是有包容性的:通过维护标签来运行的组织系统可以方便我们通过网络化的连接最大化效用


    ##2 必要的时添加新的结构,使用积累的知识信息来指导您需要什么结构

    知识信息最有价值的特征之一就是它具有很高的延展性,随着对学科知识的积累和需求的变化,而且随着专业领域研究和知识的增加,我们可以通过逐步增加结构来利用可延展性。


    组织知识信息的方式预先决定一种结构,但是在个人知识管理方面,最重要的优先事项是满足您的日常需求,比如快速找到、快速回溯所有相关信息、甚至能帮你梳理和发现更深层次异同和映射到时间线上的变化。


    #知识管理的协作与共享

    《管理我们的数字资料的科学》中所有研究内容,确定知识信息、数字化资料可用“内部,外部和社交环境以及状态”来描述其“上下文”的信息的四个属性。


    ##1 你对笔记的想法,感觉,联想,关注和考虑事项,可以通过标签、mark、发布想法、评论等方式得以呈现,并跟这些信息在这个节点建立起关联。


    ##2 外部的相关的信息,这个通常情况下在开放互联网年代里 href、pingback 是最好的表述,但是目前随着网络部落化的严峻现实,我们也仅仅通过朋友圈截图管窥一二(开玩笑的哈哈),事实上可能需要更多技术手段参与


    ##3 社交环境是指与评论相关的其他人,例如项目合作者,推荐来源的人或与之共享的人,在搜藏中,我们出我们除了可以自己发表想法,还可以创建共享小组,引入相关的朋友一起对内容和信息本身发表深度思考、评价和讨论,仅限于这群相关的人才能互相浏览


    ##4 当前状态是指该注释所采取的任何操作,或该评论、followup所使用的任何可交付成果,它可以帮助我们通过标签、事件的关系,在思维建立上下文线索理解的可能。


    ##5 开发定制的特定于行业的分类标签

    哪一种才是“正确的”分类标签法,从古争执到今,亚里士多德认为,知识可以根据其实质,数量,质量,关系,位置,时间,位置,状态,行为和情绪进行分类。Francis Bacon将所有人类知识分为记忆(即历史),理性(即哲学)和想象力(即美术)。Shiyali Ramamrita Ranganathan认为,任何文件都可以根据其个性,物质,能量,空间和时间来定义。


    组织信息的历史在很大程度上与“分类法”有关,分类法是一种将信息分类为一个全包模型的分层系统。从这种角度来看,不为使用目的的分类,并不能说不对,只能说没用。


    最近看过一个数字图书馆的编目规范的学术研究,感觉从互联网信息、企业信息到传统严格知识分类体系上,差别很明显,各自都在朝着各自更实用的视角进化。


    但是对于特定的领域和专业,标签的可扩展性确实很重要,能够兼容通用性,又可以在特定领域引入专用领域,这就是说知识图谱技术可以发挥作用的空间,在通用体系上,可以引入行业、领域专业知识图谱,将极大增强标签易用性、一致性


    ##6 公共域、私有域、共享域的可见和可用度问题

    众所周知,对我们没有用的信息,看起来很每个字都认识,连起来却不知道啥意思的那种,确实对我们来说就是噪音和无意义的信息。


    知识信息在阅粒搜藏的体系内,被划分为私有域、共享域、公开域的内容,默认用户是可以轻松访问公开域的内容,但是共享域的内容却需要所有者或者利益相关者授权,私有域内容,只有创建人能看到,其他人都是不能访问的。


    为什么设计这么复杂的信息域体系,除了“没用就是噪音”的因素之外,还有搜藏其实支持 OCR、中英英中翻译、office 文件、PDF、markdown、txt 等大量私域内容,需要保护数据隐私。


    标签: , , , , , , ,

    阅读《知识管理的算法》更多内容...
    This Written at 八月 01, 2020 by loverty.   ,
    我教怎么在微信上通过bot做知识管理的
    星期二, 十月 08, 2019

    如何在微信上做知识管理

     loverty 哈斯日志  8月26日
    获取、应用信息的能力是个人能力在信息时代的一个重要体现、也是个人发展的一个重要推动力。亦如10余年前俞军一句“搜索引擎类比印刷术和造纸术,让每个人自由平等获取和消费信息的能力大幅增强,极大促进个人成长和发展的”启示,让我沉迷于信息生产、创造传播和个人消费信息的技术能力的研究上来,十数年如一日而不能自拔。

    从个人视角,信息管理就是知识管理,通过有效率、有效果的触角触达自己需要的信息、有序有效率的应用自己所掌握的信息,就是个人学习成长能力强有力支撑。我认为信息管理能力就是一项学习能力,信息和能量既是促进社会和文明进化的动力,微观上也是加速每个个体进化的动力,掌握和应用信息、是一项学习活动、学习是一项知识管理活动。

    前几天的跟一些好友们分享的自己的理解和方法,发在哈斯日志上再次跟哈斯的更多朋友们一起交流。

    人类的知识是怎么形成的

    从历史发展来看,从文字和文明的增长的近现代历史上,信息和知识产生的速度和规模大大超越之前,尤其是近百年来,市场化、全球化以及基于此经济贸易和文化交流,导致信息传播流动速度和规模发生了巨大的增长,在可以预见的接下来几十年,这个信息的增长加速度还是急剧加大,生产成本越来越低、生产参与者规模越来越大、信息消费成本继续急剧加大,在更大的信息集合里,人如何选择取舍自己需要的信息、并能让信息为自己的行动、决策发挥价值,这就是我探讨知识管理的意义。


    从更早之前的生存发展经验、到今天的社会文化知识伦理法律,再到创造创新所需的知识信息提炼、mix的互相校准优化。

    从社会发展来看,信息生成的规模和增长的加速度,最近几十年,尤其是信息技术发展起来的这个阶段,信息内容的产生规模急剧增大,带来了信息鉴别使用和消费成本的极大提高。

    人为什么要做知识管理

    遇到一个新东西,大脑会采用相似、相关方式不断查找旧有的知识体系存量信息,进而去理解他,进行特征建模,按照他的建模独特性去描述和表示,存储,从而形成对他的认知,以备使用。

    而对存量信息输入的整理加工和建模能力,将极大影响你信息使用。阅粒知识计算引擎就是利用神经网络技术,去拟合人的知识发现和理解的过程,来构建个性化的知识服务能力。

    在人们每天进行的大量的交流沟通活动、信息交换、阅读思过程中,都在加速信息的输入。人的大脑对输入的信息进行了抽取、提炼建立关系,并进行总结归纳和抽象,形成一个归纳总结和提炼,这个过程中,就是对信息进行了符号化进而记录她。我试着抽象一层,这个符号化的过程其实把输入抽象成了事实、经验、观点和权威信息,进而建立了各个节点和其关系。



    在移动互联网上还有个明显趋势就是信息的部落化分割和信息茧房问题。在一个APP内就只能看到这个这部分内容,而其他生态的内容只能到他们的产品里消费。对用户来说,其实客观上就构建了一个封闭世界,其实我们并不知道什么信息在哪里,这种部落化分割,其实大大阻塞了信息流动和知识传播,时间长了就会形成类似茧房效应、每个人就只能坐井观天。

    信息交换与创新的发生

    创新是靠信息流动和信息交换发生的,一旦我们被束缚在一个局部,很难形成差异化信息的输入,则会越来越闭塞。从历史经验总结起来看,人类新的知识信息的发展都是在前人的经验基础上引入新的差异化的思路、方法,MIX产生的,并不存在魔幻式的、凭空创造出的新知识,所以,这种阻断,客观上会阻滞创新和知识信息的价值放大。




    个人如何应对大量信息输入提高效率

    一个困惑的问题来了,我们既需要大量的交叉性信息输入,又被过多的输入扰乱的无序、混乱甚至因为混杂着真真假假,不知如何行动和决策



    对输入的信息进行有序加工、整理,并建模在自己的知识系统内,才能为你的行为决策发挥作用。那么如何建模知识输入?

    信息的知识化计算语言描述

    任何一个输入,我们大脑或者计算机先对信息编码转换,进而建立特定结构的索引,为业务逻辑处理的抽取、解析、理解、转换、构建关系提供基础特征支持,基于业务逻辑的插接,我们进行搜索、推理和计算处理,根据产品化场景进行价值取舍、权重映射,然后解码输出。这就是我们阅粒知识计算引擎,他会成为你个性化的智能信息助理。



    阅粒知识计算引擎的编解码逻辑是耦合了我们的世界观的,即,我们认为世界客观存在在被记录的这部分中已经发生了衰减,在传播和收到信息进行消费的过程中,进一步衰减,所以我们会用平行世界的信息来做补充和校正。

    目前知识管理遇到的问题及解决方法

    前面讲的所有宏大思考,其实都在阐述,我们面对大量的信息输入,确定的、不确定的,低质量的高质量的、权威的不靠谱的如此等等,其中既有外在的、客观的问题,也有作为人,自身的缺陷,更有社会系统本身的冗余的问题。

    如何去辨别、如何去应对,如何去有序的收敛以便于满足自己的行为决策、业务决策、生活决策的应用参考,满足个人成长的参考。


    在此前,我一般的过去的解决方法通过专业工具、找专业信息源、找专业工具、找专家,跟人交流求证求解,




    这些方法,在解决目前的问题上成效比很低,尤其是目前的人均每天输入的信息量来看,整理加工和调用启示还是蛮耗时间的。我们团队就基于阅粒知识计算引擎,开发了一款bot化的个人智能信息助理--搜藏小秘书,帮你来做这些信息管理、知识化加工以及信息消费调用的工作。

    搜藏小秘书在前期用户参与测试的过程中,平均一个用户每天阅读的信息量在3.2万字,10篇左右。

    这样一个信息量的情况下,传统的信息知识化加工的过程太过冗长、太没效率,而且输出的结果反馈也不能支持信息消费决策闭环,更不能帮助用户实现穿越时间周期的消费和调用,比如信息丢失、网页失效、资源被审查关闭等。

    人快速阅读完这些信息,建立基本印象需要64分钟,而这10篇信息的处理和加工周期在阅粒知识计算引擎处理都是在秒级,应用上则随时需要随时调用,大约为个人每天节省60分钟左右。

    在信息消费中,基本有两类信息内容特征,其一是资料(包含数据、数值、观点、权威信息),随时可以能被抽取来做计算参考,其二是资讯,脱离当前时空和场景消费偏好,比如娱乐打发时间,他就没有太多参考价值了。这两种信息其实消费方式和价值也不一样,前者更注重的是需要参考的时候回溯,而后者更多是在思考、价值判断以及经验积累上的作用。而后者能是此时此刻的意义的释放。


    我主要通过订阅、搜索的方式获取信息、知识管理工具,我有自己的订阅机制可以帮我cover足够充分而且多样的信息源、并能够给我足够多的权威信息如输入。期待看到大家也跟我分享你们的方法。

    我看到重要的信息,我通过建立一个微信群,拉个微信bot帐号进去,把这些信息都发到这个微信群,包括一些碎片化的思考,我的bot号帮我把这些信息保存起来,进而能定期review、甚至提醒我review,当我需要的时候去问她、去查询她,这个工具我其实同时在slack、telegram上过。会发现bot化信息管理机器人,面对碎片化场景的信息处理,极大节省了我的时间。

    现在我们团队开发了一个搜藏小秘书,就是一个人人可用的知识管理bot,就是在解决这方面的需求和问题,你可以通过对碎片化阅读的内容进行搜藏保存,搜藏小秘书会为你知识、信息打标签帮你做阅读理解、自助整理和保存,当你需要使用这些信息,搜藏APP能为你提供了全文检索能力的搜索支持,你可以通过关键、标签和摘要任何节点线索都能快速回溯到你的信息。


    标签: , , , , ,

    阅读《我教怎么在微信上通过bot做知识管理的》更多内容...
    This Written at 十月 08, 2019 by loverty.   ,
    创新是怎么发生的,我们抽象的到文化、逻辑和符号角度,看他们是怎么互相发生作用的

    创业创新的发生机制的思考

     loverty 哈斯日志  8月19日


    创业到底是以产品驱动,创新则不是。创业目标是实现产品的最大价值用户覆盖和商业能力,这里可能有技术优势、有创新优势、有体验优势,说到底还是以产品和技术驱动,实现技术的边际成本收益最大化。

    (哈斯日志分享:创新是如何发生的)

    谈起这个话题的因由,是最近遇到很多创业的朋友,他们在技术有一定的见地和创新能力,所以就拿着锤子找钉子,约摸这个技术将来能如何如何光辉伟大,在实际工作中,其实我们拉长三五年区间,似乎技术演进和迭代步伐一直非常清晰的,基本逻辑就是每项技术创新或者伟大的发现都有自己的边界,在这个边界之内,确实可以做到价值最大化,而试图解决当前技术还不能解决的问题,自然是困难重重且未必能解决的好。

    创新则不是这样,而是通过各种已有理念方法mix、各种新特征、新资源发现去实现某个种东西的demo、可行性。

    而创业则对创新要求确定性可工程化,且效率要更好、效果要更好、成效比要优于原来的方式。目前AI创业各种爆雷和泡泡,基本深刻的说明了这一点。

    其实就这个问题,还原到真实的创业场景里,以我自己做的若干个创业项目和N多创新产品的视角来看,我有几个观点跟大家分享交流:

    如果能找到最大化产品用户覆盖和商业能力,我觉得当然是最理想的。实际上这种情况并不存在,用户价值为主要驱动力的产品,通常情况下,其商业能力通常都要经过若干次尝试、迭代,并且形成标准化扩张能力。

    但是,根本问题在于用户规模足够大就是一个无法准确定义的事。通常情况下,我们认为产品的用户一定是一个大规模的用户群体集合的子集,而这个子集最终能做到什么体量、阶段能做到什么体量、会有几个阶段每个阶段的核心驱动力是什么,这个核心驱动力、价值和体验差异在这个阶段的市场环境竞争中是否有对比优势。而且,市场竞争最奇妙的是,在成长的过程中会不会有新的变量(新产品新企业)和因子(老产品的新技能)参与进来产生影响,这也是一个不可控的变量。

    在产品能力迭代和升级的过程中,通常对技术的诉求不断叠加升级,其成本和单位成本的收益其实并不能很好找到平衡点,往往是有愿景和使命感的创始团队,才能从这个角度找到持续投入成本的动力、并愿意为之不断维持基础技术研发、产品化研发上平衡,找到叠加放大的机会和可能性

    这一模式发展到一定程度,才会形成基础技术能力的壁垒化竞争力,基于这一点,又可以横向水平扩展,找到更多的产品承载和转化技术能力,增加产品变现和业务系统的持续增长潜力。

    一旦当边际成本和单位成本的收益超过目前市场主流技术、产品的效果,必然形成碾压性优势。

    第二个角度,其实一开始出发点就是找杠杆支点,这个支点是通过技术要素的叠加,能够充分表达市场价值的各种创新和尝试,可能每个产品化的用户都是子集,但是这个子集会在产品提供价值的过程中,不断会迭加更好的市场和价值反馈。市场价值反馈又往往跟成效比平衡是个正相关要素,当市场价值增大其收益就会增大、成效比会无线接近平衡点。一旦超过平衡点,就需要找到新的市场价值增长点,去扩大成效比的边际效用,而这一点则是不断把企业推向无线游戏的模式。这是IT信息技术的特点,与传统的生产制造是非常不同的。

    跟一个老朋友聊了这个问题,做一个产品驱动型的区块链项目,让区块链技术惠及更大规模的受众。核心诉求点之一是“能用别人的技术、能用别人 的产品的地方就充分使用开放技术和开源能力,去做产品化,获取产品的市场反馈”。这个逻辑貌似没有毛病,但是核心的问题是,现在的区块链项目在应用上、在商业上除了发币似乎没有找到更好的可以实现这个目标的项目。于是就尝试做贴吧—发帖给代币,steamit、币乎这类,尝试做钱包、做交易所,除了做链,其他的应用端、社区形态都尝试了,增长上一直不见起色、也没有找到那种所谓杀手级产品化的切入点。

    这其实是一个比较典型的,公共基础技术并没有到充分到可以产品市场化,试图通过低成本策略介入市场化,这个阶段,这一特殊性,导致的结果就是看起来能拼凑出一堆产品,但是每个产品内在驱动因素都要依赖底层通用公共基础技术,而这种基础技术的通用、抽象和应用不完全匹配业务场景,就只能在体验上打折,甚至体验上有很大逻辑不自洽,这是一个可怕的情况。

    如果非要一个判断一个基础技术到底什么程度适合产品化,其实我觉得以下几点,

    其一,应用了这个技术,产品比市场类似产品的同样价值和体验优势差异化、竞争优势明显,而且竞争优势会随着规模和时间加大。整体体验价值评估上至少比目前市面上的同类产品要好。

    其二,从替换成本讲,能明显兼容老体验和老习惯,且替换成本足够低,能构成对大部分用户的迁移吸引。

    从这个角度看,需要支撑的底层技术能力到底多少是公共开源、多少是自研、每个技术能力点都要支撑到什么程度,这是有一个清晰的目标感,真实地依赖用户端使用、行为反馈的结果来判断。

    其三,如果是试图做一个完全全新的市面上并不存在的产品,那他也一定有这个需求的满足在你的产品出来之前是怎么完成的,在这一点依然去对比体验价值差异和转换成本,足以找到撬动增长的支点。

    其四,做这种创新型项目,打特定市场的特定需求,确实区分清楚几个关键概念,做细分市场人群的公共需求,而且刚性够、频度够、能形成网络效应,因为规模导致体验和价值倍增,小众即大众。如果是小众细分市场的特殊需求,频度不高,这就要细看这个东西的roi了。如果价值承载和利益分配上合情合理。要做到小众往大众上进化,人群的相似性和相关性是切入的承载点,也是不驱动力,要设计好这个环节的驱动机制。

    其实互联网、技术创新的产品化、商业价值的承载,核心点都是成效比。

    标签: , , , , ,

    阅读《创新是怎么发生的,我们抽象的到文化、逻辑和符号角度,看他们是怎么互相发生作用的》更多内容...
    This Written at 十月 08, 2019 by loverty.   ,