哈斯日志

加载中…

loverty twitter

搜索公众号ID：hasiblog

人是怎么学习知识，机器算法能不能模拟人类进行信息自我学习和迭代

星期二, 十月 08, 2019

人是怎么学习知识

原创： loverty 哈斯日志 7月28日知识管理，信息管理，竞争情报

人的知识是怎么形成的，机器和算法能不能模拟这个过程？上周五去百科名医和几个创始人、核心团队交流，COO王老师跟我分享说，一个职业医师需要8年学习培训才能上岗，算法和技术能在这里做什么？

写这段文字，我试图驾驭一段文字诉说我所理解的，我们是怎么形成认知和智慧的，这是一个巨大巨宏观的命题，并不是这个简单的一个模式或者框架就能解读的足够清楚，我试着用神经网络的计算引擎的技术逻辑来类比这一过程，感觉有相当的合理性，作为问题分析的框架，分享出来，跟大家一起探讨。

人是不断通过每天跟人、事和各种工具的交互，获得数据的采集、信息的输入，通过对信息输入后的再加工，转换成知识、经验等智慧，进而形成对自己下一步行为的影响和优化，通过传播和分享，形成对其他人的参考影响和优化。往具体的说一下就是阅读理解（图文、视频、看书、看电视、听音频）、交流沟通（分享、交谈和讨论）和做事实践这三种行为模式。

抽象到这个目标输出的话，我试图产出一个类比分析框架，我认为，人获得知识通常经历过这个几个步骤，

第一步，信息、数据的采集，进入我们的缓存，让我们的计算系统能够有运算和处理的基本操作对象，对于我们每天的经历、输入，则会根据一定的特征有些存储到持久化系统里，有的只是在缓存中，处理完当前场景的事情，就会从内存释放掉，并不会被持久保存。

第二步，基于输入的信息、数据专程相应的计算语料，其中对于事情基本都会抽象出，3w1h，什么时间谁发生了什么。

第三部分，建立起关键特征的向量索引，便于在需要的场景被搜索到召回出来，因为不同人对于事情本身的理解和建模方式不同，导致被召回调用的效率就差别很大，比如有的人其实抽象的维度特别高，其实就只是存了一个模型，需要输入向量特征比较相似的情况下，直接路由到这个模型来进行下一步处理和行为操作，而有的人抽象的比较浅，就会发现这里条件不一直，那里变量有差异，无法有效识别已有处理模式跟新的输入之间的关系，导致决策、判断速度效率和质量都会有不同程度的差异。

第四部分，就是不断根据行为结果的反馈迭代和优化模型和算法，从现实角度就叫学习能力，不断能通过输入迭代优化自己模型、并能通过这种优化及时通过下一步行为进行迭代。

基于事实或者发生的现象，我们有我们自己的观点、也能抽象出我们想要解决的问题，并以此为目标，分析、拆解、推演，并在没有信息知识存量的问题里引入新的输入，形成解决问题的路径和方法，并通过拆分后的具体问题解决的各个节点上路径上的反馈和迭代，并不断完善问题解决方法和形成问题解决方法的方法，最终实现问题的解决，并在回溯信息输入和存量知识直接的关联交叉和融合，形成数据信息化，信息知识化，知识经验化，经验方法论化，知识认知建模模型。这只是形成里知识库建立和输入，还需要不断的反刍、挖掘关联、建立符合自己思维特点和性格、价值倾向的知识图谱结构，以便于在需要的时候能够快速调用。

私有的知识经验和信息通过更分享传播和验证，才能迭代进化

如果你的知识经验仅仅是在你的局部发生影响、产生作用，那他迭代的速度就不够快，就无法形成更高效率和优化。

人发明各种工具、方法都是在为了提升效率，提升个人迭代效率、提升工作输出效率，提升合作产出效率，提升产品产业迭代效率。从这个角度，公共基础科学、哲学和社会系统运行制度则是为效率提升提供基础土壤和底盘，如果一个秩序影响了效率的迭代，必然会被淘汰。只是诉说我对“道法自然”的解读，没有其他意思，如果有其他意思那是你解读的意思，不一定是我的意思（：

信息在被传播过程中不断是被迭代、被优化的过程，放大到更宏观的经验上，政治、社会、市场、技术，作为社会的底层支撑，则被解读为自由平等共享连接，而这也是人类智慧共同进化的一个需要和动力。

传播的知识或者信息被怎么解读和运用

一旦这些方法、经验、思考和关系逻辑被具象化成信息、书等，就会成为一种客观存在，在传播的链路上，不断跟各个节点交合、产生新的进化和变异，进而成为更多的知识。如kk的分享，认为技术是一种生命体，其实信息知识也可以这么理解，它是一种新的进化载体。信息技术则是两者杂交后，为人的进化赋能的载体。

但是遗憾的是，客观事实和现象，通常我们并不能完整记录全貌，即使技术如此发达的今天，我们可以视频录影，但是他所能反映也只是彼时彼刻所有被具象化的模拟信号，还有很多维度、因素并没有显性化。

通常情况下，我们看到的听到的信息，和我们理解的信息，我们记录的信息，我们分享传播的信息，以及接收方的get到的信息，都是不完全一样的。每个节点上，都会有新的情感、个体、价值观、偏好、利益和能力要素作为变量带入，所以本质上对输入要做信号放大和裁剪是必然的，但是从学习知识提升自我的角度，我觉得近可能高保真还原，是最好的选择。

获得知识不是目的，最终要用来探索和创造

基于现有的经验和知识，提出新问题，并追求问题的解决，这个过程就是过去经验知识的片段组合应用，从这个一点上，对客观世界的理解和解读所形成的知识体系和对人类发明的社会系统的体系结构的理解，互相影响相互作用，形成了这个知识体系的不断完善、优化和进化。

分析解决问题的路径：提出要解决的命题-->找到加速思考的进程的线索-->获得高可靠性信息输入-->得到命题解决的新视角、切入点-->获得灵感和想法-->将想法实施变成成果

分析问题解决问题的时候调用现有的计算模式和方法，有3种基本方法，

其一是通过相关来计算关联性，获得匹配模式和方法，

其二是类比法，通过问题的抽象找到跟这个问题类比相对接近的问题，找到经验里这个问题的解决方法，从而复用此前的方法、套路来解决。

其三是分解并具体化，把问题按照事理逻辑进行拆解，当问题具像具体之后，再用前两个来找具体的解决方案并整合在一起。

其实本质上就分类和联想，跟已有的认知和知识建立关联。

当然这是一个比较抽象的说法，关于如何分析问题和解决问题，我之前发过相关文章，点这里可以看。

标签：人工智能, 信息技术, 知识管理, AI

查看全文 →

十月 08, 2019 · loverty ·

百度AI写作大脑是怎么工作的

星期五, 七月 05, 2019

百度智能写作大脑的工作正式靠知识图谱驱动，根本上构建语义图谱关系，对于理解语义、生成语义都有重大影响。与深度学习算法强调的不可知论相悖的事，一旦要让算法干活、产生价值，就得让算法的输出是可控可靠的，给马戴上嚼子、套上缰绳，才能更好的发挥作用
2019年百度开发者大会，大家都在关注robinlee被浇水的事情，在开发者大会所呈现的技术的创新、算法的进步上关注的不够。作为一个从业者，其实看到百度开发者大会所展示的百度大脑的能力、产品化、商业化的roadmap上还是颇感欣喜。
当然，首先表态，对于robinlee被浇水这一件事，作为旁观者，我其实是鄙视浇水的当事人的。一个人以侮辱他人来表达自己的存在感，这是一种卑贱的行为。我们在崇尚个体独立表达、自由行使自己的权力，边界应该是不侵害他人，不能以侮辱他人为基础。这是我的观点。
舆论的一边倒起哄和看热闹，百度的人也应该深刻反省了，作为国内最优秀的技术公司，在带给中国网民获取信息的便利和自由上在过去19年作出了巨大的贡献，尤其是在一个相对开放、自由的互联网信息技术市场上，依靠团队的实力、坚持，创始人的经营和创新走到了今天，成为全球技术创新领域中国的标杆企业，这是一个让人敬仰的事实。但是今天的百度产品体验和质量每况愈下，百度人真要好好反省。
今天，我主要想说说百度智能写作大脑。
百度大脑、百度AI写作大脑的历史进展和我就不赘述了，你可以百度一下，找不到是百度的问题。
百度智能写作大脑能做什么
今年百度开发者大会所释放的百度AI写作大脑的技术能力和业务场景，整体上包含智能摘要、语音合成、视频检索、视频生成、文本生成、语言理解、知识图谱和视频理解，能够完成对文本信息音视频版生成，也能反过来用。
32F80286-9220-4AE2-99EA-08C07F4397D1

能够做到这一点，主要是因为百度大脑的5.0升级
4F95F339-579E-4A21-8FB0-39A68F815

机器能够通过视觉、语音等模拟信号转成可计算文本，然后通过知识图谱构建起语义理解和生成算法能力。
百度智能写作的技术流程
之前百度的彭卫华老师，出来分享过，他认为“首先是写作触发，接着文章生成，然后是质量控制，最后是文章发布”。在百度智能写作大脑中，写作触发主要通过网络热点发现、主题分析、观点分析等，核心立意点是生成具有传播力的信息内容。
他们会从从微博、feed 内容等资源中，提取、匹配出热点事件与概念，接下来判断是否适合机器写作，过滤掉太发散、太泛的话题，生成的话题包括非个性化与个性化的话题，其中个性化话题是通过用户画像进行定向下发到辅助写作系统、百家号熊掌号甚至合作媒体平台上。
在文章生成部分，彭卫华分享了“宏观规划，包括素材组织与篇章结构规划；微观规划，包括词汇选择与句子结构、自然语言表达的句子；表层实现，具体包括文本生成与润色配图等”。
其中，规划中素材选择、组织、句子、词汇的选择，都依赖于知识图谱驱动的关联及关系发现。那么知识图谱就在这里发挥了极为重要的作用。
百度的知识图谱构建方法

在百度的技术体系中，通过知识图谱做“知识的汇集、整理以及再加工，图谱中的每条边，均是基于语义的链接，是一个极其复杂的知识语义网络”目前百度知识图谱数据包含亿级别实体以及千亿级别的事实，以专家权威、百科实体、垂类挖掘与全网属性挖掘为组成部分，可以做到高时效性的秒级更新，在智能写作中扮演着核心角色，贯穿智能写作的全部流程。
另外一块，还通过事件图谱分别持续地动态地获取客观世界的事件，并丰富事件属性、建立事件间关联关系，构成以事件为基本单位的知识网络。

（图片素材来自datafun社区，彭卫华老师的分享）

（图片素材来自datafun社区，彭卫华老师的分享）
这些信息和语义单元被挖掘出来以后，通过知识图谱和关系权重，不断在各种生成和表达优化上进行应用。
自然语言生成（NLG）
这是最有技术含量的一块，目前今日头条已经在用生成来做资讯标题生成、阿里巴巴在用文本生成做商品介绍和描述的标题的个性化生成。百度在写文章写作上的探索可能走的更远。
彭伟华老师介绍“NLG 主要包含 text2text、data2text、多模到文本三种形式，考虑知识图谱作为先验知识进行相关生成。从人工方案角度讲，主要有人工规则与模板两种。从机器学习方法上来讲，深度学习方向主要包含：seq2seq、DRL、VAE、GAN 等相关技术，非深度学习技术方向包括：排序、基于文法、规则/模板学习、概率图模型等。”

（图片素材来自datafun社区，彭卫华老师的分享）

（图片素材来自datafun社区，彭卫华老师的分享）
欣喜的是，百度把这些技术和能力，通过百度语言和知识技术开放平台供给给所有创新、创业的人，创造者们，可以尽情折腾了。

百度智能写作平台官方介绍

1 自动创作：通过接入数据、配置专属写作模板，快速实现批量和自动生成文章的能力。支持聚合写作、关键词创作等多种内容自动生成能力。
---从示例来看，基本上是两种实现方式
（1）纯算法驱动的文本生成，包含对联、写诗这种
（2）模板生成，就是基于数据和对数据建模分析可视化之后，用模板来生成一个图文描述信息。
2 辅助创作：可从素材发现、创作工具角度，提供热点发现、事件脉络、热词分析、文本纠错、用词润色、文本审核、文章分类、文章标签、标题生成等技术

（图片素材来自datafun社区，彭卫华老师的分享）

---从示例来看，这个就比较丰富了，能解决很多实际创作、写作、跟文字工作相关的具体的痛点和问题，比如说我最近就感觉痛苦不堪的“智能”输入法问题，输入法太智能了反倒是出错更多、词不达意更多了。
仔细体验了相关的功能演示、甚至调用了接口去在实际业务上体验，发现这个功能已经挠到了痒痒点了，但是还欠点火候，其文本纠错、用词润色等，都能大大增加写作的输入效率和质量
B147E97B-390A-48EC-834D-F7FE254A60BA

其热点发现能力、热词分析能力，如果能结合风云榜，基于热点事件、热词、热门源来形成，可能对于做热点运营和内容创作的人来说会大大增强有用度。
重点想说说，百度智能写作的标题生成，简直是秒杀“震惊体”“揭秘体”“刚刚体”“惊呼体”“刚刚体”“吓尿体”“难道体”...,温情默默充满关怀
AEAF55E1-99B9-43A7-99C6-F6644E3DC30A

3 多模态创作：提供包括图文、视频内容在内的多模态自动创作能力，快速实现文本到视频、视频到文本的多种内容创作能力，全面赋能内容创作。这个是一个比较给力，也比较有想象力的事儿，十分期待！能不能尽快开放API体验一下呵。

算法生成还有很多挑战
文本生成，行业上还有较大调整和进化空间，真正要做到端到端的输出，还有很多挑战，目前从行业各位技术大咖的分享和交流来看，还有巨大想象空间和增长潜力。尤其是多模态、跨模态的结合。
技术演进上，GPT2、BERT、百度的ernie都有了惊人的反馈，怎么更好地应用的产品和体验端，这非常值得探讨

标签：百度, 人工智能技术, 写作机器人, 智能写作大脑, AI

查看全文 →

七月 05, 2019 · loverty ·

写作机器人综述

星期二, 七月 02, 2019

*机器人写作，从模版生成、到辅助写作，从语句生成，到长文创作，从各个角度各个姿势都在试，都在试图找到最大价值的承载点。*

人工智能技术（AI）内容生成或者辅助内容生产这件事上，目前有几个典型场景应用类型，生成文章、内容创作辅助工具、生成短文本、写诗、写摘要等，目前市面上已经有不少相关领域的公司，在不同角度探索，而且产生了一定的成绩。

目前机器人写作领域主要业务类型

从目前的机器人写作输出的内容角度划分，主要有这么几种类型：

1，简讯、报道、快讯、报告。

用模板+算法+数据，merge到一起生成文本内容。这类基于数据类文本内容创作，比如目前应用最多的财经、体育、新闻资讯、金融商业等领域，当然这里机器人写完之后，人工会做运营加工和完善，才发布给公众。目前这类市面上比较多。

2，故事和连续语义的创作，比如恐怖故事Shelly（MIT 媒体实验室），openAI文本生成器，还有各类网文小说生成器，在搜索引擎里一找一堆。

3，文本生成创作，比如写诗写对联、拍照写诗，摘要生成、客服会话语言文本生成等短文本生成，目前某些信息流类产品，他的标题就是用短文本个性化生成、有些电商平台也在用短文本生成商品介绍的标题。

4，辅助创作、写作类，目前也有不少，典型的写作助手、文章查重、标题生成、摘要自动生成、自动纠错、语料和引用提示等。

5，其实目前颇有“建树”的领域是，洗稿、盗版别人的内容、生成低质量的垃圾文本信息去搜索引擎、推荐引擎里混流量，就是你常在某某号和某某号里看到的那种，标题或者配图狂有吸引力、其实内容渣渣的大部分都是。

主要公司的产品及其能力

-Bloomberg的Cyborg写作机器人写财经、通讯类文章，快速抽取商业金融新闻领域数据信息(business financial journalism)，帮助信息发布者或者竞争情况消费者及时获取相关信息，在商业竞赛中，为对冲基金人工智能为客户提供新鲜事实fresh facts。

-福布斯Bertie的工具，建立在出版商的内容管理系统中半自动主题推荐功能的基础上，为记者编辑提供粗略的草稿和故事模板，它能根据记者以前的记录、工作生成写作提示，作为写作辅助工具，提升产出效率和质量。

-路透社(Reuters) 推出的Lynx Insights会涉及与报道相关的关键数据，比如，帮助记者快速分析大宗商品定价的历史趋势。

-美联社2014年6月采用Automated Insights的公司开发机器新闻写作，按照美联社商业新闻主管Lou Ferrara的说法，采用基于算法的机器新闻写作后，在无须增加新的人手的情况下，美联社的商业新闻中关于企业季度经营状况的报道量，增加10多倍，从原先每季度300篇上升到4400篇，产生人效14倍的增长。

> Automated Insights（创立于2007年）一家专门从事语言生成软件的技术公司，会为客户、合作伙伴生成大量的通讯报道，他们也做公司的财务收益分析的报道。他们开发的WordSmith的软件，可以自己编写一些简单的新闻事件，比如体育、财经类的新闻资讯。雅虎、美联社的相当一部分新闻就是由这位WordSmith编写的。据Automated Insights公司介绍，WordSmith在2013年生产了3亿篇各类形式的报告，2014年生产了10亿条新闻

-The Post有一位名为Heliograf的内部机器人记者，通过报道2016年夏季奥运会和2016年美国选举，展示了它的实用性。

-新闻机构Patch的写作机器人为其110名员工记者和众多自由职业者提供协助，他们覆盖了大约美国800个社区，特别是他们对天气的报道。该公司首席执行官沃伦·圣约翰表示，内容量的5％到10％都是由机器生成的。

-腾讯写作机器人（Dreamwriter）是由腾讯财经开发的一款自动写作新闻软件，Dreamwriter根据算法在第一时间自动生成稿件，瞬时输出分析和研判，一分钟内将重要资讯和解读送达用户。

-百度智能写作机器人Writing-bots产出的文章主要包括速报类、知识类和资讯聚合类。速报类，如比赛信息、股讯快报等，对时效性要求比较高，需要瞬时将结果生成文章。知识类主要是科普类的文章，如教育（诗词、历史知识）、生活（菜谱，保健知识）、旅游等。知识类文章的数据内容主要来自百度的知识库和全网优质资源，通过对优质数据资源的组织聚合和计算推理，为用户提供更加丰富的知识和信息。而资讯聚合类是基于全网实时资讯数据，根据用户关注点，生成用户感兴趣的、以话题为中心的资讯文章，比如某一个电影热映，我们会对电影的主演、之前的作品等信息做一些扩展和盘点；对于热点事件，我们会对事件的发展过程和关键信息进行分析聚合，形成事件脉络，便于用户了解事件全貌等。这类文章是在现有的资讯信息基础上，重新智能聚合生成新的文章。

-今日头条张小明Xiaomingbot不仅能写体育文章，还有财经、房产等等。财经新闻有「小明看财经」，房产是「房产情报站」，世界各领域热点有「小明看世界」，一系列内容都由这些头条号自动放出。“张小明”在2016年里约奥运会期间报道乒乓球、网球、羽毛球和女足的比赛，6天共生成超200篇简讯和资讯，xiaomingbot能完成2秒之内生成稿件并发布，24小时不休息，产量惊人，大大减少了采编人员的工作量，提升了新闻信息的生产能力。

-第一财经DT稿王(背后是阿里巴巴)，2016年发布的DT稿王，其“任职”是通过海量抓取、海量分析，主要针对上市公司公告、财务报表、官方发布、社交平台、证券行情等信息源，日阅读3000万字，针对内容做精简输出，把几千字的文章转换成一两百字的重要概括，大大提高效率。

-“快笔小新”2015年11月7日新华社推出写稿系统正式运行，实现了采编业务与技术手段的深度融合，适用于体育赛事、经济行情、证券信息等快讯、简讯类稿件的写作。

-南方都市报的机器人“小南”，撰写的第一篇稿件是关于春运车票动态信息。2017年1月18日正式“上岗”的小南，由智媒云图和北京大学计算机科学技术研究所联合成立，对机器写作、文本实体识别、智能摘要、立场分析、智能服务等方面进行研究和实践。小南基于机器学习算法、自然语言生成技术和自动摘要技术，通过融合领域知识，对数据进行深度分析，发掘重要的消息和事件，并用自然语言进行表达，从而以秒速生成报道。写作领域涉及民生、科技、财经、体育、娱乐、消费等领域。最终实现多领域的自然语言智能理解和自动生成。

几种典型技术方法

--深度学习方法，机器在阅读了大量的古诗、对联的基础上，基于我们的NLP分析结果，通过“平仄”作诗、写对联的规则自动生成。这个结果是成诗有韵，但是缺乏内在的精神内核。曾经在2017年Q3做过一个这个方向的小产品。

--模板生成，机器人在自动抓取的情报中按照预先设定的结构写稿，成稿速度非常快，但它不能分析新闻事件的原因和影响。其基本的设定都是，人工准备素材、模板，设定条件，机器自动创作。其中素材的采集、模板讨论、创作运行条件这些都还是需要大量依靠人的工作。

> 今日头条的，xiaomingbot是关于比赛的实时比分的数据通过文法结构和模板生成。对于图片，通过计算机视觉分析图片内容，将它和文字结合匹配出来。第三方面是知识库的建立，像比赛球队的历史、球员信息，作为额外信息补充进去。第四，是网上有一些直播文字抓取过来的信息，通过机器学习里排序学习的技术去挑选最重要的内容，融合进文章中。网上的直播文字信息其实非常复杂，有不重要的信息，甚至会夹杂网友的评论。我们在生成新闻的时候希望把比赛最重要的环节，像进球、判罚等等给找出来;另外，需要考虑挑选出来的句子相互之间相似度要尽量小，但涵盖信息量又尽量大。通过 DPP 算法可以有效找出直播中的重点信息且涵盖最大的信息量。

--当然第三种，就是用算法+规则混搭，不同场景路由到不同策略上。由特定场景和领域特殊约束来界定有某种方法做内容生产、加工或者输出。

--还有第四种，算法就作为人工的辅助，在帮人做素材发现、图片图表的生成、对比分析的可视化、关系联接，甚至结构定义、表达纠错、优化上都能够给出建议和参考。

资讯内容的机器人写作在特定领域还是有很多价值，局限于技术和算法的实现能力，大多数场景还是人工+规则+算法来完成。

**机器人写作的一般过程**

任何一篇由算法驱动的“自动生成”的文本创作类写作流程分以下几个步骤：

1，获取数据、信息输入。理解消化关于数据和写作输出物有关系的各种数据，并能从各种形式的数据和素材中找到跟目标输出物有关的数据、信息。他可以是APIs、也可以是各种格式的数据、算法、服务。

2，分析数据，解析数据以及其内在关联、关系以及找到合理的数据结构表述，对数据及目标输出的表示进行归纳

3，构建输出结构，对于不同类型和目标诉求的输出物，要求在输出结构的定义、输出结果的语义表示上进行合理化表达，当然引入用户画像进行个性化表达是更合理的。而进行语义表示则离不开知识图谱的约束或者支持，把数据放在输出对象的知识图谱背景框架下表示。

4，展示优化，遣词造句、语言修饰，是否用可视性元素装饰等，比如特别典型的这几种场景闲聊会话、长文、摘要、短新闻、通讯报道、故事、可视化图表为主的内容、微博、标题等。不同应用方式，优化的方向和方法也是不同的。

5，根据内容特点，选择内容出版分发通路，并且自动化输出到对应的媒介上，个性化展现、个性化分发，传递价值到用户和消费端。

**机器人写作的价值**

1，写作输出事实性确定性好，且出错率更低。

2，生成内容速度更快,时效性内容追踪速度大大超过人工处理的速度，推向极致。生产输出效率高，让新闻事实始终跑在恐惧和谣言的前面。

3，写作机器人可以通过统计全部数据，最终提供准确、可信的统计信息。相比于人工智能处理统计样本的可信度大大提高。

4，它能解放人的劳动力，让人在更多自己适合的领域中发挥自己的价值、提升人的效率，让其可以从事更具有创造性和挑战性、拓展性工作。

5，个性化内容生产，让每个人看到自己爱看的需要看的内容以自己喜欢的风格只消费自己喜欢风格展现。过去的内容生产是为千百万人生产同一内容产品；新的出版模式下，则是为每一个单一的客户，无论个人还是集体，提供个性化的定制内容产品。

6，机器人帮助人类发现报告和发现线索、发现有趣的故事。通过机器人技术对大量的数据和信息进行分析再加工，能发现很多新奇的角度和线索，发现信息内容、新闻事件中意想不到的趋势。

7，尽管通过机器人能产生的令人信服的捏造图像、视频和声音，但是作弊、虚假、恶意攻击的识别技术一样成长快速度，世界是两面的，造假和识别虚假，相克相生。

**机器人写作还有哪些问题**

其一，公开数据和私有数据的访问边界，隐私和服务价值的调和。

没有充分的数据输入，没有大数据采集和挖掘、分析系统的支撑，算法是无法学习理解、并不能有效地写作，机器自动写作就成了无源之水、无本之木。

有充分数据的输入，则会导致输入数据在私有和公有的界限较难有区分度，要么很隔离，那就很难有关联。私有数据和公有数据彻底打通，那有涉及很多个人隐私的风险。曾经李彦宏说跟英国首相布朗（Gordon Brown）有一个挺有意思的争论，关于搜索引擎的，他说“我是知道很多关于你的信息，但我不知道你是谁，我也不会用我掌握的信息对你造成伤害。”实际情况是，但是在网络空间里，技术已经能实时追踪他并且给他发送你想要他看的、影响他行为决策的信息，机器在塑造人。

其二，即使现在有足够大的数据集，其实都还是沧海一粟，GPT2，训练语料用了800万，只是每天搜索收录的4%。每天内容输入对于机器人能够获得的数据目前仍是一个局部，这个局部就会导致偏差。就像我们物理世界，一直强调的信息对称和认知偏差一样，算法、机器人在这个层面上也会是这个问题。

第三点，机器人能够写出流畅的问题，表达出一定的观点、理解能力。但是还是无法实现对情绪、风格的把握，无法从文字表述上透露出语言、情感之美。

目前每个主打“机器写作”能力的平台基本都拥有各自的技术团队、对数据的解读和认知，产品化产业化并且能为社会贡献价值层面上，大家有不同的理解、不同的认知和想法，这一点，必将让这个事情走向多样化、多元化。

最后一点，我特别焦虑地在思考一个问题，如果机器人都能完备写作、创作了，还写作干什么呢？

标签：算法辅助写作, 写作机器人, AI

查看全文 →

七月 02, 2019 · loverty ·

AI辅助机器写作的几个案例和归纳

星期二, 二月 12, 2019

Bloomberg的Cyborg写作机器人写财经、通讯类文章,快速抽取商业金融新闻领域数据信息(business financial journalism),帮助信息发布及时性的竞赛中,为对冲基金人工智能为客户提供新鲜事实fresh facts。除了为彭博社报道公司收入外，机器人记者还为美联社，“华盛顿邮报”的小棒球联盟和“洛杉矶时报”的地震创作了相关通讯报道。

福布斯正在测试一种名为Bertie的工具，为记者提供粗略的草稿和故事模板,它建立在出版商的内容管理系统中半自动主题推荐功能的基础上，能根据记者以前的记录、工作生成写作提示。

路透社(Reuters) 推出的Lynx Insights会涉及与报道相关的关键数据——例如，帮助记者快速分析大宗商品定价的历史趋势。

Automated Insights是一家专门从事语言生成软件的技术公司，会为客户、合作伙伴生成大量的通讯报道，他们也做公司的财务收益分析的报道，获得TO B服务的收益。自从与Automated Insights合作以来，美联社已经从每季度收入报告的300篇文章发展到3,700篇。

The Post有一位名为Heliograf的内部机器人记者，通过报道2016年夏季奥运会和2016年选举，展示了它的实用性。The Post战略计划主管杰里米吉尔伯特表示，该公司还使用人工智能推广具有本地定位的文章，这些文章涉及特定地区读者的,“无论是国内还是国际，你都有可能失去那些对小社区的故事感兴趣的读者的兴趣。” “所以我们问，'我们如何扩展我们的专业知识？”

对于致力于本地新闻的全国性新闻机构Patch，AI为其110名员工记者和众多自由职业者提供协助，他们覆盖了大约800个社区，特别是他们对天气的报道。该公司首席执行官沃伦·圣约翰表示，在一周内，补丁上有超过3,000个帖子，产量的5％到10％都是由机器生成的。

其基本的设定都是，人工准备素材、模板，设定条件，机器自动创作。其中素材的采集、模板讨论、创作运行条件这些都还是需要大量依靠人的工作。

从目前的AI辅助内容创作的情况来看，主要在以下几个方面发挥了作用，

--机器人写手生成内容速度更快,且出错率更低。美联社(Associated Press)与初创公司Automated Insights合作，在2015年部署了一名人工智能写手，该写手一秒钟能撰写大约2000篇文章，出错率比人类写手低。

--AI可以帮助发现有趣的故事.通过AI技术对大量的数据和信息进行分析再加工,能发现很多新奇的角度和线索。发现新闻事件中意想不到的趋势，或者承担一些目前由人类记者完成的耗时的跑腿工作，这将是一个用途。

--自动化工具已经节省了记者报道企业盈利方面的20%时间，以美联社的案例看，它将为媒体在报道的时效性竞争优势上、效率上提供比较大的价值。

--AI工具成为报告和发现线索的生产工具。

--华尔街日报和道琼斯正在试验这项技术，以帮助完成各种任务，包括采访的转录或帮助记者识别“深度假货”，通过AI产生的令人信服的捏造图像。国内在黄反、敏感内容、作弊得识别和应用上也是比较多的。

--“纽约时报”表示，它没有机器生成新闻报道的计划，但该公司已尝试使用人工智能来个性化新闻通讯，帮助评论审核、AntiSpam、攻击型行为识别等，并在图像数字化存档时识别图像。

“华尔街日报”的马可尼先生表示同意，将新闻室中增加的人工智能比作电话的介绍。“它为您提供了更多访问权限，并且您可以更快地获得更多信息，”他说。“这是一个新领域，但技术在变化。今天它是人工智能，明天是区块链，10年后它将成为别的东西。新闻标准没有改变。“

对于AI创作新闻报道是否会替代人类，Mr. Marconi同意这种说法，更像是在新闻采编室内引入电话, “It gives you more access, and you get more information quicker,” “It’s a new field, but technology changes. Today it’s A.I., tomorrow it’s blockchain, and in 10 years it will be something else. What does not change is the journalistic standard.”

国内企业百度百家号后面的创作工具支持、头条的xiaomingbot、新浪新闻的在通讯类信息的采编上得应用，跟清华合作的，都是不错的机器人写作应用案例。

如上总结，是看了这篇文章获得的启发

标签：机器写作, 人工智能, 写作机器人, AI

查看全文 →

二月 12, 2019 · loverty ·

人是怎么学习知识

AI助手