哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • AI搜索引擎的兴起:挑战与机遇
  • 系统3:扩展和增强人类决策能力的关键
  • 决策增强与智能知识管理:人脑的第三个系统
  • 知识管理的算法
  • 信息知识管理技能
  • 碎片化阅读、海量信息时代的轻量级知识管理
  • 俞军和他的产品经理课
  • 为什么我们都对搜索不满意却又无可奈何
  • 搜索产品市场机会探讨:头条不做搜索做什么
  • 搜索产品市场机会探讨

  • Reward hasiblog
    为什么我们都对搜索不满意却又无可奈何
    星期五, 十一月 01, 2019
    你肯定认为是因为我们没得选择。

    其实还真是,虽然看起来你还是有很多产品可以选择的,比如不用百度,用360搜索,用搜狗搜索,用神马搜索等等,可以是真用的时候,总是发现少点啥,比如可能常见的网站并不排在有预期的位置、甚至没有,比如这家企业利益相关的内容排的比非常相关的好结果都靠前,比如总有一些关键词被处理搞的乱七八糟,没啥有价值的信息反馈,差那么点意思,

    那是因为,搜索本身的复杂性,并不是单一的技术、算法,而是用户、流量质量、内容生态、商业变现能力及商业客户众多因素平衡的结果。

    即便是一开始宣称要有道德、不做医疗的搜索们,也会被巨大的服务器、带宽、技术研发成本拖回到现实,依然是要用广告来变现的,只是条数、广告相关性、审核的尺度、售卖政策、流量投放策略等等,不断做一些调整,找到自己的收入。

    从再深一个层次,拉到这20年中文互联网信息服务技术的这个平面去看,我认为这是一种系统能力进化的必然问题,15年前,搜索技术可能门槛很高,没有多少人能干或者能干好,5年前就不是这样了,人才辈出。对搜索技术的理解、产品和需求的认知、算法和计算的能力,大家偏差并不是那么大,都可以实现一个体验差距不那么明显的搜索。

    然而,无论人才、算法和算力如何近似,搜索产品、商业的范式,一直就圈定在这个框架内,后进者用差不多的方法、更多的资源投入,能在一个时间周期在商业空间上打下一块自己的地盘,

    另一个层面,其实这个框架也是是技术方法的产品化范式,只能通过输入关键词,在倒排、正排的PageRank+tf-idf索引里召回相关的列表,从高到低排个序,即使是百度阿拉丁、各个公司的box也是初始化一个权值,然后用排序位置和点击率再次排序、动态优化。核心特征就是,召回的信息一定是列表,列表一定是需要用户点击反馈的行为参与到质量评价体系进而优化算法。

    所以在产品体验上这个GAP就一直存在,因此各家都在产品体验测试上,对比标签百度为0.xxx的一个指标。然后百度的系统化技术研发、产品管理能力这种惯性,使得其实再怎么着也不会开倒车,一直维持一种体验的优势、通过巨大的品牌优势来降低获客成本提高经营效率。

    厂长互联网大会上说,百度搜索结果的首条是准确答案的比例占到51%,虽然在我们这儿是第四条,但是也很不错呀,这还是蛮让人兴奋的事,搜索引擎真有实现向他问个问题,给你个答案的可能了。

    这是也一个搜索引擎产品范式的进化,这种方式的交互,将极大的改变人获取信息、消费信息的方式,同时也极大地改变原来的信息生产、信息展现和存在形式,比如不一定是一个page了。

    我们对搜索引擎充满了抱怨,因为他们,总是找不到我们想要的,抱怨他充满了垃圾、欺骗和广告,抱怨他不思进取,一成不变,没有理想。但是我们又总是对他充满了期待,我们还是得它找我们需要的信息,尤其是当我们有需要找到我们所需的时候。

    千万别给我说Google进来就不一样了,那是你用幻想在评价,如果你深深滴用一用Google,你会觉得Google也就just so so,他面临的问题不是单一靠企业自己就能解决的。

    所以当所有角色都觉得不爽、无奈,却又无法破局的时候,就是创新的机会了。当然这个创新的复杂度,肯定是超越单一的产品局部的改良,而是根本上全新的体验、生态机制、商业化和利益分配机制。

    当然比较确定的一个想法是,作为消费者的我,对搜索和能力边界有了一个模糊不清的但是又有点清晰的认识了,我知道他不能怎么样了、不会怎么样了,比如不能搜到APP的信息了,不能会更精准了,该要找的信息还要去信息本来应该在的地方了

    如果厂长说的那种搜索引擎,真能实现了,把你从10条、百条搜索结果中筛选的时间成本降低的秒得,你愿意为没有广告的搜索服务付费订阅吗?

    标签: , , , , , , , ,

    阅读《为什么我们都对搜索不满意却又无可奈何》更多内容...
    This Written at 十一月 01, 2019 by loverty.   ,
    百度AI写作大脑是怎么工作的
    星期五, 七月 05, 2019
    百度智能写作大脑的工作正式靠知识图谱驱动,根本上构建语义图谱关系,对于理解语义、生成语义都有重大影响。与深度学习算法强调的不可知论相悖的事,一旦要让算法干活、产生价值,就得让算法的输出是可控可靠的,给马戴上嚼子、套上缰绳,才能更好的发挥作用
    2019年百度开发者大会,大家都在关注robinlee被浇水的事情,在开发者大会所呈现的技术的创新、算法的进步上关注的不够。作为一个从业者,其实看到百度开发者大会所展示的百度大脑的能力、产品化、商业化的roadmap上还是颇感欣喜。
    当然,首先表态,对于robinlee被浇水这一件事,作为旁观者,我其实是鄙视浇水的当事人的。一个人以侮辱他人来表达自己的存在感,这是一种卑贱的行为。我们在崇尚个体独立表达、自由行使自己的权力,边界应该是不侵害他人,不能以侮辱他人为基础。这是我的观点。
    舆论的一边倒起哄和看热闹,百度的人也应该深刻反省了,作为国内最优秀的技术公司,在带给中国网民获取信息的便利和自由上在过去19年作出了巨大的贡献,尤其是在一个相对开放、自由的互联网信息技术市场上,依靠团队的实力、坚持,创始人的经营和创新走到了今天,成为全球技术创新领域中国的标杆企业,这是一个让人敬仰的事实。但是今天的百度产品体验和质量每况愈下,百度人真要好好反省。
    今天,我主要想说说百度智能写作大脑。
    百度大脑、百度AI写作大脑的历史进展和我就不赘述了,你可以百度一下,找不到是百度的问题。
    百度智能写作大脑能做什么
    今年百度开发者大会所释放的百度AI写作大脑的技术能力和业务场景,整体上包含智能摘要、语音合成、视频检索、视频生成、文本生成、语言理解、知识图谱和视频理解,能够完成对文本信息音视频版生成,也能反过来用。
    32F80286-9220-4AE2-99EA-08C07F4397D1
    能够做到这一点,主要是因为百度大脑的5.0升级
    4F95F339-579E-4A21-8FB0-39A68F815
    机器能够通过视觉、语音等模拟信号转成可计算文本,然后通过知识图谱构建起语义理解和生成算法能力。
    百度智能写作的技术流程
    之前百度的彭卫华老师,出来分享过,他认为“首先是写作触发,接着文章生成,然后是质量控制,最后是文章发布”。在百度智能写作大脑中,写作触发主要通过网络热点发现、主题分析、观点分析等,核心立意点是生成具有传播力的信息内容。
    他们会从从微博、feed 内容等资源中,提取、匹配出热点事件与概念,接下来判断是否适合机器写作,过滤掉太发散、太泛的话题,生成的话题包括非个性化与个性化的话题,其中个性化话题是通过用户画像进行定向下发到辅助写作系统、百家号熊掌号甚至合作媒体平台上。
    在文章生成部分,彭卫华分享了“宏观规划,包括素材组织与篇章结构规划;微观规划,包括词汇选择与句子结构、自然语言表达的句子;表层实现,具体包括文本生成与润色配图等”。
    其中,规划中素材选择、组织、句子、词汇的选择,都依赖于知识图谱驱动的关联及关系发现。那么知识图谱就在这里发挥了极为重要的作用。
    百度的知识图谱构建方法


    在百度的技术体系中,通过知识图谱做“知识的汇集、整理以及再加工,图谱中的每条边,均是基于语义的链接,是一个极其复杂的知识语义网络”目前百度知识图谱数据包含亿级别实体以及千亿级别的事实,以专家权威、百科实体、垂类挖掘与全网属性挖掘为组成部分,可以做到高时效性的秒级更新,在智能写作中扮演着核心角色,贯穿智能写作的全部流程。
    另外一块,还通过事件图谱分别持续地动态地获取客观世界的事件,并丰富事件属性、建立事件间关联关系,构成以事件为基本单位的知识网络。
    (图片素材来自datafun社区,彭卫华老师的分享)

    (图片素材来自datafun社区,彭卫华老师的分享)
    这些信息和语义单元被挖掘出来以后 ,通过知识图谱和关系权重,不断在各种生成和表达优化上进行应用。
    自然语言生成(NLG)
    这是最有技术含量的一块,目前今日头条已经在用生成来做资讯标题生成、阿里巴巴在用文本生成做商品介绍和描述的标题的个性化生成。百度在写文章写作上的探索可能走的更远。
    彭伟华老师介绍“NLG 主要包含 text2text、data2text、多模到文本三种形式,考虑知识图谱作为先验知识进行相关生成。从人工方案角度讲,主要有人工规则与模板两种。从机器学习方法上来讲,深度学习方向主要包含:seq2seq、DRL、VAE、GAN 等相关技术,非深度学习技术方向包括:排序、基于文法、规则/模板学习、概率图模型等。”

    (图片素材来自datafun社区,彭卫华老师的分享)

    (图片素材来自datafun社区,彭卫华老师的分享)
    欣喜的是,百度把这些技术和能力,通过百度语言和知识技术开放平台供给给所有创新、创业的人,创造者们,可以尽情折腾了。

    百度智能写作平台官方介绍
    1 自动创作:通过接入数据、配置专属写作模板,快速实现批量和自动生成文章的能力。支持聚合写作、关键词创作等多种内容自动生成能力。
    ---从示例来看,基本上是两种实现方式
    (1)纯算法驱动的文本生成,包含对联、写诗这种
    (2)模板生成,就是基于数据和对数据建模分析可视化之后,用模板来生成一个图文描述信息。
    2 辅助创作:可从素材发现、创作工具角度,提供热点发现、事件脉络、热词分析、文本纠错、用词润色、文本审核、文章分类、文章标签、标题生成等技术

    (图片素材来自datafun社区,彭卫华老师的分享)
    ---从示例来看,这个就比较丰富了,能解决很多实际创作、写作、跟文字工作相关的具体的痛点和问题,比如说我最近就感觉痛苦不堪的“智能”输入法问题,输入法太智能了反倒是出错更多、词不达意更多了。
    仔细体验了相关的功能演示、甚至调用了接口去在实际业务上体验,发现这个功能已经挠到了痒痒点了,但是还欠点火候,其文本纠错、用词润色等,都能大大增加写作的输入效率和质量
    B147E97B-390A-48EC-834D-F7FE254A60BA
    其热点发现能力、热词分析能力,如果能结合风云榜,基于热点事件、热词、热门源来形成,可能对于做热点运营和内容创作的人来说会大大增强有用度。
    重点想说说,百度智能写作的标题生成,简直是秒杀“震惊体”“揭秘体”“刚刚体”“惊呼体”“刚刚体”“吓尿体”“难道体”...,温情默默充满关怀
    AEAF55E1-99B9-43A7-99C6-F6644E3DC30A
    3 多模态创作:提供包括图文、视频内容在内的多模态自动创作能力,快速实现文本到视频、视频到文本的多种内容创作能力,全面赋能内容创作。这个是一个比较给力,也比较有想象力的事儿,十分期待!能不能尽快开放API体验一下呵。
    算法生成还有很多挑战
    文本生成,行业上还有较大调整和进化空间,真正要做到端到端的输出,还有很多挑战,目前从行业各位技术大咖的分享和交流来看,还有巨大想象空间和增长潜力。尤其是多模态、跨模态的结合。
    技术演进上,GPT2、BERT、百度的ernie都有了惊人的反馈,怎么更好地应用的产品和体验端,这非常值得探讨

    标签: , , , ,

    阅读《百度AI写作大脑是怎么工作的》更多内容...
    This Written at 七月 05, 2019 by loverty.   ,
    关于“搜索引擎百度已死”的几点想法
    星期五, 一月 25, 2019
    《搜索引擎百度已死》这么是非混淆、逻辑混乱的文章,都能获得如此高关注和转发,实在是让人叹息。
    我觉得这个现象,核心就反映了两点,百度的进步速度、或者进化方向,远远不符合公众对他的期待。其二就是,中文互联网内容生态确实太差了,很多治理责任、道德义务都要经营的商业公司承担。
    搜索引擎业务本身有一定公益属性在里边。作为搜索引擎的用户,大家期待的是你是客观理性公正的反馈相关的高质量的信息内容。但是就这一句话,就有多少难题要解?
    (1)客观,就是原生态地展现中文内容网络全貌。必然导致搜索结果反映的是互联网内容的良莠不齐、甚至杂草丛生。多年前在做打击虚假信息通过搜索引擎传播的时候,做过一个统计,搜索引擎里索引的网页,有42%是低质量、虚假或者为欺骗搜索引擎算法混流量用算法生成的垃圾网页。所以这些内容必然都会被算法干掉。
    (2)理性,所谓理性是符合公众利益、还是符合企业利益,是符合社会大众道德要求,还是恪守商业经营原则。从搜索“嫩滑”出黄图、到搜索结果排前面的都是自家产品的页面,都是你我的内心的正义和魔鬼的争斗,没有大家对色情图片的强烈需求,也不会滋生那么多站长去做图片采集站、去整那么多三俗的图片去混流量,搜索引擎想把这些内容排上来,也没得排。而驱使这件事情按照这个逻辑循环的必然,是在这个业态上,每个利益相关者,包括用户、站长和搜索企业,都在按照自己需求和利益导向在运作,但是又都是非线性运作机制,那么谁应该对最终输出的结果的大众预期负责?群体用户想要的、技术能给的、个体需求,这里边的供给、消费的由谁来监督?说到底,这种社会监管的担子,企业应该背负不起。这种群体利益导向的理性,必然导致搜索引擎选择的价值导向亦然如此。
    (3)文中的作者提到的排序不公正,导致做网站和做内容的,在百度里的流量分配上被歧视。说实在话,我觉得百度百科、百度知道的内容排在前面才是最大的公正,多少采集站、甚至自媒体就靠着东拼西凑,搞个吸引眼球的、标题党的标题,打开网页等广告弹完都得好几分钟、内容更是没有任何价值,这才是对用户的最大不公平。
    (4)再有就是,以搜索流量分发业态的逻辑,形成的巨大商业利益,自然就又无数权利寻租的机会,滋生养水军生成垃圾内容、甚至抹黑攻击企业或者人、收费删贴,还有各种做站做权重、攻击挂马,无数人想从这个利益链上分得一杯羹。
    不知道有几个人真正用过bing中文搜索、谷歌退出中国前的搜索结果。真正完整的再现了在垃圾内容中找几条看起来有用的。
    当然,我不是说百度目前的搜索结果已经好的不行,客观而言,百度现在有搜索质量还是远远好于同行的几家公司,但是也有很多问题,其一就是上面这一堆问题解决的还不够。其二就是相关性算法确实还有提升空间,优质内容、优质原创内容时效性和收录也都有巨大提升空间。尤其是,百度搜索在电脑上的版本,基本上只能反映电脑访问内容,缺了整整一半甚至更多的移动互联网内容。
    传统互联网时代,还有那么一群人,愿意写写blog、在bbs里发表观点分享经验,但是目前监管和管控,导致这些人都闭嘴了。只剩下那些做网页混流量的了,一个企业、一家搜索引擎能承担内容生态繁荣、监管得当、分发合理、利益分配合理的重担么?ta承担吧,你又说ta即是运动员又当裁判,更何况ta还不想承担、抑或有人并不想让ta承担。再次感叹,百度的公关真是...

    标签: ,

    阅读《关于“搜索引擎百度已死”的几点想法》更多内容...
    This Written at 一月 25, 2019 by loverty.   ,
    搜索业务的机会及相关问题回复 2013-05-01
    星期三, 五月 01, 2013
    最近几篇文字全都是写的搜索引擎行业的思考,感谢各位关注的亲们在耐心看这么长的文字,而且耐心地提出问题。

    Q1@〜妙妙菲,问“看了你的贴子才想起来,中搜和搜狗都那么早就做了搜索,为啥现在依然是这样?”

    确实都是很早就参与搜索引擎领域的竞争。前面很多篇都是在说明这个问题,再概括一下,有那么几个因素吧:
    一:在早期做搜索的人还是比较缺的。百度这块优势明显。
    二:没耐心,做啥都是三天两头就希望能丰收到盆满钵满。
    三,对技术的价值认可的不够。

    四,生态机制:搜狗后来弄清楚了搜索业务生态的问题,小川不是提出了著名的三级火箭竞争策略嘛,输入法托浏览器,浏览器导流给搜狗搜索。搜狗浏览器导流给搜狗搜索,有一个经典的玩法,就是页面设计全部跟百度一样,只有域名是sogou的,呵呵。去搜索这图能找到的。

    五:时机:
    另外同期跟百度成长相比,搜索业务体系上下游都跟百度有更紧密的利益关联。因为如此所以百度的成长快,因为成长快,所以能驱动业务生成更大市场影响力,这是个正循环。雷军有句名言说的时势的重要“站在风口猪都会飞”。

    六:因为业务发展问题带来的恶性循环。
    一个公司的业务发展的状况通常直接影响资源的再投入和后续的发展,尤其是遇著不怎么懂业务的。百度、搜狗、搜狐、中搜这几个公司的决策者们,对于搜索业务及行业的认识很明显有差别。所以小平说的”发展才是硬道理“,真是个牛B的方法论,发展能解决问题,原地踏步是稳定了,但是带来的问题更多。

    这位同学说的”依然是这样“其实挺温和的说法。搜狗尚可,能够在营收支出上滚圆,但是无法形成自己独特优势和生态体系。始终是一个follower。中搜其实在做的搜索引擎已经不是在给信息搜索者用,更多是一个商业机制,据说营收颇丰,虽然用户市场份额有限。

    Q2@曾士高,“Google就是因为百度联合政府搞出去的,在Google里搜索那些色情词都是有人恶意刷的。你该不会不知道吧?”

    我回消息给这位仁兄,他没理我。我回的是“百度委托你去刷得词?”。

    有些人就是整天看it新闻就觉得自己是it资深人士,遇到问题从来不过大脑。

    Google当年离开时候,是品牌升华到极致的一个时期。

    离开的真实原因肯定是商业而不是所谓的信仰。孙云丰说了句实话被迅速炒成红人。但是我这个里说相对封闭,应该还好吧,我不想被红哦。

    你算一下Google当年工程院团队的规模、销售和市场团队的规模,再看看离开前,百度Google在用户市场和营收市场的占比,
    再比较一下,进中国之前Google在中国区的投入、营收、市场占有你就清楚了。

    Q3@霖锦:医药问题是百度的痛点,360、即刻搜索以次切入能切下百度的市场份额么?

    基本上很难。360这样的品牌,拿这个粉饰,有点不伦不类。好像他也不需要,其实渠道控制力带来的价值远超过这个。就搜索竞争而言,“医药”问题就是个贞操带,跟内在品质没有关系。

    另外,医药问题是社会的痛点,不只是百度的痛点。有病不舒服,先上网找安慰、找药方,以求自我诊断和解决。这不是在讽刺我们社会的医疗体系的嘛。

    其次,医药广告在网络广告上有监管不力的嫌疑。就是社会上的贴墙小广告贴在网络上重现的一种形态。

    实际生活中还因为影响市容,有人去管。网络上,基本上没人管,骗一单就多一单。

    第三,无论是即刻\360\百度,医药类信息垂直信息服务越来越受重视了。那么从我个人角度来看,好事啊,终于有疑惑,有更多的信息参考。仅此而已。

    Q4@谷度哥:百度这个公司没节操,我不喜欢。

    可以,你可以把忽视它不用它。也可以通过自己的社会影去“黑”它。

    但是基本上百度的节操已经不是影响它业务发展的动因了。百度现在业务体系很系统,惯性会继续驱使业务向前。

    再就是,如果谷度靠这个判断互联网业务使用的选择,谷度会很孤独,没啥可用。

    Q4@常小三:我觉得百度应该推出email服务,这样我使用网络就不用离开百度了。

    Email服务是一种过气的网络产品形态,根本上是通讯联络需求的一种表达形态而已,其实除了email以外,你用的站内消息、你QQ、你的微信都在满足同类需求,业务创新应该是往前看而不是往后看。

    另外,历史上我确实有过这个想法,在早期贴吧的消息系统的基础上,实现web界面、PC客户端、手机WAP端的消息传送,早在2006年,还没有app概念,确实是,加入APP以后,整个消息体系就很完整了,再打通短信端、email通知[请关注一下,微信实现QQ消息和email了通知了,单尚未完全打通]。跟老边沟通过当时。这事一个超越email的联络解决方案:IM+SMS+email+msg的形态,当然这一模式是否行得通,我现在也略持疑虑,facebook尝试这么干了,但是做了点尝试就没下文了,不知道啥情况,有清楚的同学可以一起交流。

    Q5@我爱红粉:百度在移动互联网上为啥就不行呢?

    哈哈,百度的APP压力太大了,承载了太多的梦。

    每个app都太重。以浏览器为例,我是早期用户,现在首页堆的那些东西,让你不忍再看,每次打开个新tab都需要额外增加2步.
    每个APP在满足需求的时候,都不纯粹,非要跟搜索牵连起来。比如说掌百。这可是我在塞班时代就用的,ios时代在用,到安卓时代抛弃了的应用。

    另外百度最近也宣布自己”百度APP“用户过亿了嘛,也没想象那么差,只是基于PC的惯性,你的期待更高了罢了。

    在移动互联网时代,个体风格更显著,所以除了在功能性上有那么些独特性之外,在产品的人文情怀上也许要下点功夫,比如微信的开篇小清新和歌曲打动了多少人啊。

    Q6@ibeyondsearch:我们是一个做企业搜索的小公司,你觉得业务前景如何?

    回答这个问题,我想先阐述我的搜索产品理念:搜索是什么?搜索是帮助信息消费者组织和获取信息的产品。从这个层面上讲,搜索业务无论大小(面向企业内部、面向公共个人服务等)都是有存在的根本动因的。

    至于说存在的形式,确实可以多样化,甚至去搜索框化。但是组织信息和帮助使用者更好的获取信息,依然是其核心价值和目标。

    企业内部数字化资源非常多,各种资源和决策数据的关联对于企业的经营管理非常有用,再就是内部各种公共资源、培训啊、知识库啊、业务公共信息资源等。无论是以分类目录枚举、还是以个人身份引导应用,其实组织内在的资源显性化,给用户使用,帮用户在一堆信息中找到需要的信息,这事儿还是很有前景的。

    再从面向公众服务的搜索产品来看,百度搜狗360啊这种业务,这种业务有个最大的价值是控制信息传播通道。因为搜索后面是黑匣子,所以输出什么用户就智能看到什么,对于传播的影响使其商业价值不断被叠加。

    这类服务,在相当长一段时间,仍然是互联网核心商业模式、产品模式之一。但是其传播的影响力、商业价值会逐步被削弱,目前我们能看到的是,SNS传播对其影响比较大,微博、微信这次芦山地震的传播和捐款救灾信息的传播,影响受众行为的成功比例原高于搜索。

    但是没有搜索显然也是不行的,在新闻的获取,相关基本资料性信息的获取还都是靠搜索。但是搜索显然是没有起点的,用户必须知道相关信息的特征,所以需要内容媒体、社交媒体或是传统电视媒体的引爆。

    搜索和社交的在热点的效应上是叠加的,著名的17.2G,在微博上炒火的当天,搜索的指数也急飙过4万次。之后,微博上不再热的时候,搜索上依然延续了1天,达到13万每天[百度指数数据],但是其热度和与微博相比差了一些。搜索跟社交才应该是珠联璧合的上下游。

    昨天阿里投资金额5.86亿美元,占新浪微博总股份的18%股份。众分析家各种说法都覆盖比较全了,我就补充一下我的看法,三点:

    1 新浪微博上每个用户都是活生生的一个用户,用户属性、地点、兴趣偏好清晰而且显性,基于这些特征与线上消费、线下服务的关联是多么有想象空间的一块大肥肉啊。

    2 一直以来,微博在搞自己的支付及商业生态,而这在阿里系是现成的,如果能在业务上深度结合对用户信用评价、企业信用评价引入微博平台,对阿里大电商生态很有意义。请注意,阿里其实在社交上探索了好几把了从淘江湖到个人积分体系,无非是为了黏性和关系影响的信用评价,从而形成的对购物生态评价体系的价值。

    3 网络信息服务一直就是一个信息代理的角色,更有商业价值的是信任代理,而微博在这个领域的价值和贡献显然目前尚无其他平台可及。

    对于搜索,其意义也在于此,面临着信息代理到信任代理的升级。搜索引擎经历了内容为王、渠道为王,必将在于移动网络普及的情况下,实现信息服务的基于个体的个性化、服务化的用户为王时代。

    对于百度收购投资那部分,@皮皮贱 同学补充近期百度PPS的收购要约,十分感谢,目前为止还是在意向,官方都未对外发布。

    另外有些回复就不一一回应,表示十分感谢。我的文章目前为止都是我写的,如果是转载,我会特别说明。

    标签: , , , , ,

    阅读《搜索业务的机会及相关问题回复 2013-05-01》更多内容...
    This Written at 五月 01, 2013 by loverty.   ,
    百度推掌上百度及手机输入法
    星期五, 十一月 27, 2009
    百度在官方页面上已经提供对掌上百度及手机输入法的正式下载,电脑用户可访问这里ishouji.baidu.com进行下载、手机用户可访问mo.baidu.com进行下载。

    据官方介绍,
    掌上百度是专门为手机用户打造的一款客户端软件,除了具备无线搜索功能外,还整合了百度贴吧、知道功能支持专用数据接口,可以发帖传图,速度更快流量更节省,支持登陆状态记忆。

    百度手机输入法前身为点讯梅花手机输入法,支持全拼、简拼、笔划、双拼、模糊音等多种输入方式,拥有点划结合技术,完美解决触摸屏设备单手输入问题,输入效率极大提升,输入法的词库是基于百度搜索技术的词库,支持在线更新、通讯薄导入、字词频扩展、备份与恢复功能。目前支持诺基亚S60v3、S60V5和Window Mobile。百度手机输入法内置了手机桌面搜索框,可以在手机中进行百度搜索。

    标签: , ,

    阅读《百度推掌上百度及手机输入法》更多内容...
    This Written at 十一月 27, 2009 by loverty.   ,
    百度i贴吧
    星期二, 十一月 17, 2009
    百度i贴吧是什么
    i贴吧是贴吧原有个人中心的升级,是你的个人专属空间,是你在贴吧的家。在这里,你可以记录自己的心情和新鲜事,关注贴吧各路达人,获取自己的粉丝。通过与其他用户亲密互动,形成稳定的好友关系,让贴吧生活更丰富多彩!(via here

    百度注册用户可以选择用32个字以内的话来分享自身的状态,也可以添加链接、图片、视频等。百度i贴吧采用了类似于新浪微博的实名认证形式,对名人明星可以提供认证和高级的定制服务。

    在i贴吧,你可以:

    关注TA---follow你感兴趣的人,基于id的进行信息聚合;
    被众多吧友关注,拥有自己的粉丝---如果你有足够魅力,来自语言、形象、知名度等;
    update自己的状态,记录、分享自己,邀请朋友关注;

    跟twitter功能非常相似,具备转发、re推等功能。但是社区效应更明显,锐推以跟帖的形式展现,很bbs很贴吧,页面上也有显示转贴(twitter中的转发)次数,但是并没有将转贴的人列出来,挺奇怪,列出来不是很好吗?!

    标签: , ,

    阅读《百度i贴吧》更多内容...
    This Written at 十一月 17, 2009 by loverty.   ,
    百度推文档分享平台
    百度在知道频道推出"文档分享"服务,该服务秉承百度web服务一贯特征,简洁、易用、访问速度快。

    百度文档分享平台允许用户上传、分享文档文件,如报告、课件、总结、学习心得等资源。目前支持Word、 Excel、PPT、PDF、txt等文档格式,支持office2007文档格式,网民不需要安装相关客户端软件即可浏览阅读。用户上传的文档能够在线阅读, 但并不支持编辑或修改。文档分享服务有虚拟积分的奖励,积分也可用于下载自己需要的文档。

    标签: , ,

    阅读《百度推文档分享平台》更多内容...
    This Written at 十一月 17, 2009 by loverty.   ,
    SERP信息量增加的影响
    星期二, 九月 15, 2009
    用户搜索点击搜索按钮的时候,对搜索结果页是有一定期待,对于查询返回的页面会有相应的认知模式.SERP搜索结果页第一页,目前的信息加载量极大地超过一年前的这个页面的状态.但是搜索结果页面的样式却没有发生颠覆性的改变,依然是以标题摘要url列表的方式来呈现.

    搜索结果页信息承载量的加大主要表现在,比如在搜索"马云",以一个有确切内容的url link算1条结果计,
    在百度SERP第一页结果,涵盖了百科、人物档案、博客、视频、新闻和贴吧,其中新闻簇是由3个url构成的,一个是百度新闻搜索结果,另外两个是直接新闻信息,视频是一个结果簇,虽然没有显性的多个结果,但是点过去应该还是有N多结果的,还要在这些结果中再次选择。所以这个结果页面事实上至少是12条结果。

    Google则通过对百度百科的页面展现的扩展和博客结果簇的整合,第一页上至少有18个link。在搜索"N97 日历",会发现展现的可用link也有17条之多。


    很多词有搜索都是这种状态,这种信息量的丰富度的增加是为什么呢?我觉得:
    1 原来的10条结果在表达关键词搜索需求所需要的信息量上,维度不够,多样性丰富性不足;
    2 补充某一条结果上更精细的导航需求,比如Google对马云百度百科词条的分段导航的应用,
    3 服务商希望能把相关的信息推送出来,从而引导用户需求.

    缺点:相对于的10条结果而言,用户的选择成本在加大。以前可能主要看前三,可是现在视野里的就成了前7前8啦,判断的复杂度增加了。且由于结果更丰富多彩,展现的样式也有很大不同,视觉感受和可信可靠结果的选择也变得不那么容易。

    优点,很显然除了上面列的一二三,其实还有信息量的增大,这种增加和丰富正面价值也很大,尤其是对于浏览性需求比较大的查询而言。

    结果数的多少和信息量的丰富程度,还是跟查询的类型本身表现出来的特征关系很大,以前有个搜索网站只给搜索结果的前5条,认为提高精准度就能更好满足搜索需求,可这只是关注了其中一部分查询需求,比如寻址类。雅虎07年在时候也改成过5条结果,后来又变回来了,很显然这种尝试是不成功的。

    标签: , ,

    阅读《SERP信息量增加的影响》更多内容...
    This Written at 九月 15, 2009 by loverty.   ,
    百度上线新搜索的功能
    星期一, 五月 11, 2009
    百度搜索上线了一些新的搜索功能,在搜索“人民币汇率”“意甲积分榜”“万年历”“中央电视台节目表”等词进行搜索时,能看到时效性非常好的数据表,几分钟前的交易,作为参考数据即可以在搜索结果中呈现。http://x.baidu.com/








    标签: , ,

    阅读《百度上线新搜索的功能》更多内容...
    This Written at 五月 11, 2009 by loverty.   ,
    百度开放搜索计划
    星期四, 四月 23, 2009
    百度阿拉丁平台已上线,其实质为一个开放搜索计划,了解详情点这里

    阿拉丁
    的好处:
    1 所有数据可以依据最合适该类数据的展现形式展示。使得搜索满足用户需求效果更好。
    2 资源提供方通过这种形式可以获得更好的流量和用户。
    3 通过data feed提供关键词、对应的url数据和数据更新规则可以节省搜索引擎的传统的抓取、调度、解析、质量判定等计算的成本。
    4 通过这层开放平台合作关系,客观上可以提高信息的质量和可信度,因为有开放搜索平台的协议上的保障,可以一定程度上提高搜索引擎的可信,当然这也得看整体上能影响多大的比例,否则对用户信息获取层面也没有太大意义 。

    该平台潜藏的价值和对SEO/SEM行业的影响:
    1 内容供应方所有的结构化的数据以特需形式展现使得用户获取信息的便捷性大大增强,从而使得导入内容网站流量的质量会有提高,用户转化率应该比以前的带pv的时候要高些。
    2 内容网站应该考虑针对过来的用户如何提高访问的粘性和转化成更有效的用户。
    3 白帽子才是正经路子,阿拉丁平台使得这样的机会得以彰显。
    4 内容型网站迎合搜索引擎的信息需求的表现特征,并迎合track特征进行网站结构改造。

    标签: , ,

    阅读《百度开放搜索计划》更多内容...
    This Written at 四月 23, 2009 by loverty.   ,
    贴吧俱乐部
    星期日, 四月 19, 2009
    贴吧俱乐部,什么是贴吧俱乐部,以下引用贴吧俱乐部指南
    是百度贴吧全新推出的,一个由吧友自发创建、自主管理、自由交流的平台。除了支持发贴、投票、上传图片、创建日历活动等贴吧原有功能外,贴吧俱乐部与普通贴吧相比,还有很多独特之处。
    1. 俱乐部全部采取会员发贴制,且可以对俱乐部是否可公开浏览和展示、是否可申请加入等属性进行灵活设置,帮助用户打造更私密、更自由的交流空间。
    2. 俱乐部的创建者可自动成为吧主,对俱乐部拥有完全的管理权。
    3. 可以自由修改俱乐部的名称、简介、目录、标签和人员头衔,并支持繁体字发贴,让您在俱乐部中玩出更多趣味和精彩。
    4. 俱乐部管理团队的设置方式更加灵活,删贴、封禁、上传图片、管理会员等权限可以自由选择和分配,让俱乐部得到更有效的管理。
    5. 提供多种会员邀请功能,帮助您的俱乐部积累人气,并通过它找到更多志同道合的朋友。
    我创建了一个俱乐部id是648927875的搜索爱好者俱乐部,俱乐部url地址是:http://tieba.baidu.com/club/648927875。这串数字地址太不好记了,啥时候能自定义id?

    与之前的我的贴吧有太多的重合,这跟贴吧倡导的“对某个主题感兴趣,立即参与交流,发布自己所拥有的其所感兴趣话题的信息和想法”的原则相悖,更趋向与将权限、会员荣誉、参与性作为一种特权分化用户群,愈来愈向传统社群。

    标签: , ,

    阅读《贴吧俱乐部》更多内容...
    This Written at 四月 19, 2009 by loverty.   ,
    百度搜索词典升级
    星期三, 四月 15, 2009
    今天在百度搜索“买椟还珠”发现来自百度词典的搜索结果,这个结果由来自汉典的汉语解释,和来自译典通的英文翻译组成。再搜索单字发现汉语词典还增加了读音。搜索英文单词,英语内容丰富了很多,有词性、读音、释义、示例等丰富的信息。

    标签: , , , ,

    阅读《百度搜索词典升级》更多内容...
    This Written at 四月 15, 2009 by loverty.   ,
    搜索巨头眼中的“暗网”
    星期四, 三月 05, 2009
    何谓“暗网”,就是搜索引擎无法通过常规的爬虫策略抓取到,其实还是搜索业界很关注的叫做“invisible web”(2),学术也有称Deep Web,HiddenWeb的。

    就是那些原本可以公开给用户提供有价值的信息服务的数据,因为各种原因雪藏深闺,比如,专业数据库呀,或者数据供应方没有提供一个web化的平台可供用户使用,或者内容密码保护,或者是网站用flash交互,使用脚本语言、JavaScript进行数据交互等等,搜索引擎无法通过常规的链接follow来获得这些信息和索引,必须通过一些专门的技术手段或运营策略,将这些数据跨平台整合和关联,以更适合用户理解和使用的方式呈现给用户。

    Brightplanets技术公司的研究发现,暗网数据是浅层WWW资源数据(surface web)的500倍。而且暗网资源倾向于学科范围更狭窄、内容更深入的方向发展,信息内容与每个所需信息、市场及领域具有较高的关联性,商业前途大大的有。

    Google:Onebox,查询模板,反馈迭代

    Google做了大量的onebox搜索,并且在VLDB2008会议上JayantMadhavan做了题为Google'sDeep-WebCrawl的报告(via here),透漏了下一步Google对暗网数据的处理思路,Googlebot将针对数据库提交form获取结果,然后分析结果页面的content,获取相应的link和内容,然后采用关键词反馈迭代方式,获得深层数据资源。这也是能充分展现Google使命“organize the world's information and make it universally accessible and useful”。

    比如来自Search engine land的帖子,显示Google针对地震这个query,会显示最近地震通告,这些数据来自“美国地质勘探局”,


    Yahoo Search Subscriptions/Enhanced Results

    雅虎订阅
    网站内容搜索是05年6月推出的,将可让用户同时搜索来自7个订阅网站上的内容,其中包括纽约时报网站、线华尔街日报,LexisNexis律师、法律咨询信息等有价值的资源。当用户搜索网页上订阅任何一种或所有这些网站做为搜索范围,那么当用户在雅虎搜索的时候,系统也会并行请求这些专业的数据库,最后将来自这项订阅网站上的搜索结果和来自www互联网上的网页的搜索结果并列在一起。当然目标是一致的,方法是各异的。


    增强结果Enhanced Results也是雅虎在解决暗网资源的处理方式,这就是SearchMonkey的结果。比如搜索“Isaac Mao on facebook



    百度:阿拉丁,神灯

    08年12月18日,在百度上海研发中心的揭牌仪式上,李彦宏、李一男向外界透露了正在推进的"阿拉丁计划", 这是百度针对暗网资源的宏观战略的展现。其实在此之前,百度已经尝试在垂直深层信息化资源进行了探索,比如天气预报,股票曲线,国学搜索,专利搜索,统计 数据搜索等。把暗网数据明网化,把深层数据浅层化,把数据库数据web化,让阿拉丁神灯在“让人们最便捷地获取信息,找到所求”上呈现出价值。

    不论是那种方式,目前搜索引擎已经能够解决用户查询时候,请求同时连接不同的数据源。从而能为用户提供更有价值的信息。

    标签: , , , ,

    阅读《搜索巨头眼中的“暗网”》更多内容...
    This Written at 三月 05, 2009 by loverty.   ,
    百度产品新闻索引
    星期六, 五月 03, 2008
    1 2月份百度推出安全中心,免费提供系统漏洞修复、清理恶意软件及插件、U盘病毒免疫等互联网安全服务,与此前推出的杀毒频道模式有所不同,前者主要是提供针对传统杀毒服务的分销.而安全中心则百度与金山联合推出类似于网络版的360安全卫士的东东.

    2 3月26日百度推出im工具,百度hi测试版.百度hi定位为贯穿和整合百度的主要产品线和服务,优化了百度社区用户的服务体验。baidu hi界面简单清新,但是目前还需要邀请才能加入.

    3 4月11日,百度正式推出了个性化定制首页服务,并启用了My.baidu.com的二级域名。目前提供了定制我的热门浏览、天气预报、搜索风云榜、百度新闻、实用查询、热门网站推荐、音乐推荐等模块。其中“我的热门浏览”模块需要安装百度工具栏,将对个人的浏览内容和历史进行记录。

    4 百度推出游戏娱乐平台,采用与国内知名游戏厂商联合运营方式,以推荐绿色益智类游戏作为百度游戏娱乐平台的主打产品,目前有纵横天下、天空左岸、方便面三国、乱舞春秋、帝国崛起、XBA篮球经理等六款游戏,分别与盛大、欢城互动、51Wan合作.与之前的游戏频道game.baidu.com还是有较大的不同,我等俗人实在难以理解之.

    5 百度百科推出2周年之际,测试版转为正式版,且首页进行较大改版.截止目前词条总数达到110万,编辑次数超过270万.

    标签: , , , , ,

    阅读《百度产品新闻索引》更多内容...
    This Written at 五月 03, 2008 by loverty.   ,
    腾讯soso增加整合搜索
    星期四, 五月 01, 2008
    与此前提到的谷歌整合电影搜索结果的模式类似,腾讯的搜索soso,也在网页搜索中整合了很多小搜索:
    1 热门网站直达区--著名网站类,直接在搜索结果前面给出网站介绍,主要频道和功能;
    2 影院放映场次每日更新--电影影视作品类,给出影片介绍和剧院放映信息,用户需要更深层信息可以通过特定入口深挖搜索;
    3 即时天气预报--发地区+天气作为query,搜索结果给出当地三天天气预报
    4 查询实时股票价格--股票名称或代码,目前提供沪深两市/港股行情;
    5 汽车报价范围每周更新--出汽车报价行情;不过用户搜这些车型是否用这样的Query实在很让人怀疑,什么qq3,qq6的
    6 NBA即时比分汇总--目前只针对nba/nba直播这两个query,但是对"NBA 奇才"这样的Query似乎还不支持;
    7 而且优化了谷歌,有道的搜索框中suggestion提示方式,出所有包含该term的特殊提示关键词提示,用黄色*号在Query后面标记,同时也在后面补充高频词;

    在整合搜索中,百度谷歌等都曾经尝试在搜索结果中出天气预报/股票/拼音提示/错别字提示/列车/航班/英汉词典/计算器/度量衡转换/等,但是象搜搜这样一步跨的这么大,还没有过,这就是soso的人工编辑搜索引擎?

    标签: , , , , ,

    阅读《腾讯soso增加整合搜索》更多内容...
    This Written at 五月 01, 2008 by loverty.   ,
    百度视频搜索对连续剧优化
    星期日, 二月 17, 2008
    百度视频搜索针对连续剧优,例如搜索"士兵突击""武林外传""闯关东",搜索结果不是传统的20个相关结果乱序排在一起,现在是识别很清楚按照剧集先后,分段排列.而且,前面还加入了搜索结果"分集索引"导航,是机器自动类聚分集的导播专题,挺有意思.

    标签: ,

    阅读《百度视频搜索对连续剧优化》更多内容...
    This Written at 二月 17, 2008 by loverty.   ,
    百度日本和娱乐频道挂牌营业
    星期四, 一月 24, 2008
    百度日本昨天在东京宣布正式开始运作,提供的服务除了此前发布的网页搜索,图片搜索,视频搜索外,此次还增加了博客搜索,整个UI风格设计也比较简洁漂亮实用地说.但是跟现在的百度首页的交互设计有显著不同,基本上都是采用“搜索框+热点引导”的形式这一变化是针对日本网民的本地化呢,还是百度在尝试新的首页模式的试验田呢,这种设计无疑改变了目前百度首页的单调,新手无所适从的局面,但是不是一种搜索引擎人机交互的进步还有待市场的验证.

    百度娱乐频道已经上线,
    除了页面比较宽,带宽显得比较宽,但是说实话,带宽还不够宽,没有宽带娱乐的感觉.访问起来感觉缺乏整体的严实感松松垮垮的.作娱乐频道跟做搜索引擎,甚至跟做任何其他的互联网产品都不同呀,气质上差的很多表现上差的更多.

    标签: , , , ,

    阅读《百度日本和娱乐频道挂牌营业》更多内容...
    This Written at 一月 24, 2008 by loverty.   ,
    百度推出专利搜索
    星期五, 十二月 28, 2007
    百度宣布推出专利搜索服务,网民可通过百度专利搜索查询在中国国家专利局登记备案的中国所有专利信息,目前整合了超过270万条专利信息,且与中国专利信息中心数据库保持即时更新,可以访问的二级域名试了一下有zhuanli.baidu.com/patens.baidu.com/patent.baidu.com三个.

    百度专利搜索服务目前提供通过搜索专利的申请号、文摘、申请日、公开日、申请人、申请地址、发明设计者、分类号等各种信息来获取相关的专利信息.用Google或者谷歌搜索一下,会发现Google在中国申请62个专利,关于Gmail广告的,通用搜索等的在国外申请过的专利好像都在中国申请了.用百度公司的名称"百度在线网络技术有限公司"可以搜索出来的专利信息有12条,全部是跟搜索引擎,搜索区,竞价排名相关的技术专利.搜索"搜狐信息技术有限公司"还有两条专利,是关于竞价排名和网站导航的.搜索新浪信息技术有限公司,没有任何信息,这就是差距呀,呵呵.奇怪,两个公司都有竞价排名的专利?有啥子不一样呢,我就没有闹明白.

    史上记载,2006年12月,谷歌正式发布了专利搜索服务,但谷歌只提供美国文件的搜索业务.而且从表现形态来看,与百度专利搜索还是略有不同的.

    标签: , , , ,

    阅读《百度推出专利搜索》更多内容...
    This Written at 十二月 28, 2007 by loverty.   ,
    百度统计数据搜索上线
    星期三, 十一月 28, 2007
    11月28日,百度推出统计数据搜索,这是百度在垂直搜索领域的又一次突进。与此前推出的邮编、法律国学、图书等搜索产品模式类似,此次推出的针对统计行业数据的搜索,是和专业统计数据服务商搜数网合作的(via here).

    可用于查询的统计数据的资料库涵盖了从建国至今60多年,涉及54个行业逾2亿9千万个统计数据条目,这是全面、权威的统计数据首次大规模向大众网民免费提供导引服务.此举,将使科研、教育、投资等各行业对文献资料的调阅更加方便、快捷(via here).span>

    标签: , , ,

    阅读《百度统计数据搜索上线》更多内容...
    This Written at 十一月 28, 2007 by loverty.   ,
    百度搜索结果新样式
    星期一, 十一月 19, 2007
    百度搜索今天在百度搜索国美,发现搜索结果样式发生很大的变化,在国美的官方网址下面的原来摘要部分中,增加了摘要文本的超链接,国美的logo,而且还增加了国美网站的部分频道链接,用不同色块标记出来,大大超出原来文本动态摘要所能体现出来的信息的丰富程度.他作为一个整体,与其他9个结果共同组成搜索结果的10条内容.

    而且搜索结果右侧的上方还增加富媒体的Flash广告.猜想这应该是再试验中的新的广告模式?用百度提供的高级搜索验证后发现确实如此.而且第一条结果的丰富内容只是替换掉原来的便捷搜索中相关新闻提示那部分,似乎涉及的查询非常之少,网上也没有看到其他人的说明,或者官方的什么说明.这个会影响百度搜索的响应速度吗,呵呵.

    这个试验或者说这个改进似乎应该是个好的方向,但是摘要链出的到目标网站的链接的甄选却尤为重要,至少我感觉搜索这个词,给我推荐的这些链接并不是我需要的,甚至还有一个死链,这对百度一贯恪守的用户体验原则是一种改善还是一种负面影响呢,值得期待和深入研究.

    PS,这个原来叫做“品牌专区”,是正在尝试一种新的广告模式.

    标签: , , ,

    阅读《百度搜索结果新样式》更多内容...
    This Written at 十一月 19, 2007 by loverty.   ,