基础概念就不重复了,我个人共做搜索产品PM,制定网页结果筛选策略、摘要策略、排序策略、到垃圾内容的剔除、结果质量评级做了多年研究和实战,附了几篇相关主题的我的演讲摘要.
最近几年,我在做的事情基本都跟大数据策略,基于大数据技术的智能情景模式下的软硬件一体化解决方案。食品安全、医药大数据、消费曝光数据的聚合分析。到今天,人脉机会社交大数据平台。
在这一点上,twitter、微博最能表达出这种差异来,twitter一直再跟进关注和传播模型,---这一模型做到再完美再极致,其结局依然是只能了解跟自己有关联的世界。
而微博早已从另外一个维度重新归纳和整理了微博的世界是个什么样,并呈现给用户。你不仅知道你和你的周围是什么样,你还可以向上帝一样俯瞰这个世界到底在发生什么,怎么运行着。
后者这一模型再大数据跟各个互联网业务形态结合,最能简单直接地给出人们最容易理解和接受的描述。比如QQ在线人口分布,百度春运人口迁徙地图,百度风云榜搜索关键词排行榜。输入“行为数据"可以看到我此前对这块的分析。
但是如果说这就是大数据,显然言过其实了。我自己总结,大数据的核心价值再于,显性化了各种连接可能性及其价值。5、6年前,在用SPSS进行关键词和点击数据分析,相关性和点击行为发现,一个色情或者准色情的关键词,与其他类型的关键词对搜索结果的质量要求明显不同,就是底线很低,页面不断地弹、各种不安全。
食品安全,累计2003~2013年初,食品安全事件近三万起,其中近三年来绝对数量确实在减少。而从采集到信息量看,2013年Q1的三个月有1.2亿帖子,心又揪揪了吧。继续看会发现另一个特征,以前的食品安全事件,一般都是一发同一事儿,出一堆。现在全是散点,原因过程及危害不全相同、甚至全不相同。
今天,我做的人脉机会引擎再做什么?本质上,是通过数据的关系计算,发觉人与机会之前撮合的概率。人和机会之间的关系,本质上是人和人之间的关系。就这一点而言,只有中国人能够深刻参透其间的奥妙,比如供需非常匹配的两个人之间,因为性格、因为恩怨则可能不能达成合作。--这一点,在数据上怎么表达?怎么发现?得脉在两个人之间的撮合上叫做,建立关系不同于linkedin的建立联系?有什么意义,得脉不是要做社交吗怎么弄得像个大论坛?得脉的搜索还有没有新玩法?得脉之得在于索还是取?脉络的脉在于有连接还是有关系?
大数据挖掘有很多精彩的故事,但是大数据挖掘对于你来说能有啥作用,一直是一个令人困惑的话题,亦如前面提到的o2o,很好的思想,宏观指导挺起来都对,怎么下手做怎么在业务模型里用到,具体到自己的业务体系就是不好下手和无所适从。在自己的业务体系里通过这些技术和思想,来扩大用户价值攫取商业利益,这是个细致活。【回复“o2o”“o2o沙龙”可获取此前关于o2o的一些思考和相关文章】
我所知道的国内较早使用大数据挖掘形成形成业务模型优化的应该是中国移动,若干年前,刘德寰老师给我们公司做培训交流时候提到的,通过对客户性别、年龄、通话呼入呼出时长、月均话费、缴费方式、呼叫类型等上百个变量进行统计分析,建立起客户平均消费模型,从而指导建立不同级别的套餐定价、促销策略和新品开发,扩大单个用户ARPU。
那么对你的业务来说,是否需要大数据挖掘?如果你的数据存储量非常大,结构比较复杂,你需要整合应用,你可能需要数据挖掘;如果你的数据比较零散,而数据的关联调用非常困难,且数据结构化程度不高,你可能需要大数据挖掘技术。如果你的数据挖掘和多维度分析的计算能力要求高,算法和过程很复杂,也可能会需要大数据挖掘技术。
大数据挖掘能干什么?这个显然跟你的业务有关系,你的业务需要不需要,哪里需要,需要干什么,希望投入什么样的成本,产出什么样的结果,这是决定你要不要做以及怎么做的一个基本考虑。这两年的做的几个项目都跟大数据挖掘有关,谈谈自己的对大数据挖掘的认识。大数据的核心是对数据的应用,之所以用大数据,就是希望通过数据分析处理,来更精准地把握用户、客户行为和更好地挖掘信息的价值,提升业务的利润和控制成本。
1 大数据挖掘可以让杂乱无序的数据清晰化可用度高
大数据有两个典型特征,其一是数据量大,其二是计算复杂。与传统数据库相比,大数据的结构化程度、可用度、数据抽取、数据清洗都是很大的一块工作。
特别典型的传统生产销售型企业的业务系统数据是隔离、分裂的,销售的、生产的、财务的、客户的等等,不同方面其实都是为自己负责的业务目标的和输出构建自己的IT系统、甚至是外包给不同的IT集成商或者软件开发商做的,因而系统都是相对独立,这种独立的结果不只是隔离,而是从数据的结构、数据的记录与存储、软件系统负载等产品技术层面都是不尽相同。数据挖掘需要根据你的目标构建挖掘模型,建立起多个数据系统的关联。
2 让数据和数据之间发生关系,这关系可能产生化学反应
著名的啤酒与尿布、口香糖与避孕套的例子就是典型的数据之间隐性关系的发现,通过对消费行为的数据进行建模和分析,能够发现从事理上,这两个原本不相干的东西,在用户采购东西的时候发生了关系,那么针对这一发现优化你的货架物品摆放就能够提高销售量。
用户亚马逊的朋友可能都看到过,买个手机马上推荐跟手机壳、存储卡打包购买有折扣哦。当然也有傻傻的推荐策略,比如淘宝,你买一个移动电源,他马上推一堆其他的移动电源,告诉你还有更便宜的哦,这玩意儿又不是包子,消费了就没有,不可能这么短的周期如此频繁的消费同类产品。当然,如果这个策略放在阿里巴巴则是很好的策略,对于批量采购行为,这种推荐很能节省用户的成本。
3 对数据产生态进行监控发现异常,预警纠错
通过对系统产生的数据的按照时间建模,记录每个时间点、时间周期内的均值和上下区间,如果某个节点出现超乎寻常的状况,系统能很快发现问题并进行预警和排查。当然这只是技术系统的价值。
从业务系统上,这种数据异常将会给你的经营状况给予警示,帮你从历史时间维度的对比,判断事情变化的因由,提供你决策分析必要的时间、数据和关联信息参考。
4 通过数据挖掘建立知识模型,提供决策支持信息
IT系统在发挥更大的价值在于能通过信息的整合,帮你提供决策参考信息。以前有一个提法叫做知识发现KDD,随着互联网信息内容的丰富、UGC分众智慧的发挥,网络信息的价值效用也越来越大。通过信息存在和信息特征提取,建立起不同信息之间的关联,并能通过语义分析、情感分析,提炼出信息本身的价值倾向、态度、消费效用等,这将为信息在决策参考上提供更系统、数据化的分析和参考。
5 强大的数据处理和分析能够建立以数据驱动的垂直商业生态
数据挖掘的技术系统将负责将所有数据,按照目标重新梳理和建立跟模型对应的数据索引。这个重新构建的数据的秩序将大大增加增加数据的可用性。从垂直行业切入,针对这行业信息服务的需求,建立模型,并不断优化各个细节和子节点的输出,使得行业参与的各较色能在生态上获取自己的利益和价值,那么这将建立起针对这个细分行业的垂直业务生态。
我们身边已经有很多大数据的应用,比如电商购物对用户做推荐,基于用户群和用户行为的分类做精准的广告投放等,亦或计算气象预报,计算地质数据做石油探测、矿产探测,还有金融行业对投资、贷款等的风险预估。
跟大数据挖掘相关的主要技术有数据存储、数据挖掘的分布式计算平台,结构化存储,计算任务管理和调度等,所以一般性的大数据挖掘项目都跟云计算、云存储和自动运维系统密切相关,需要一定投入才能搞得定。
-----
按照CNNIC第32次中国互联网发展统计报告中数据显示(输入cnnic32可获取相关文章),截至2013年6月底,我国网民规模达到5.91亿。互联网普及率为44.1%。互联网网民每天关心什么,在做什么,想要什么,这个是很有有趣好玩且商业价值不菲的数据,试想如果你拥有这些数据,并通过构建恰当的模型分析这些数据,很容易建立商业模型来赚钱,那对于这一堆的0101的存储,将是怎样的宏伟壮观又会是怎么样的有趣有料呢(:。
目前,确实有很多网络行为的数据,各个平台和服务商都在收集应用,但是这个数据他们割裂的存在的,大的、具有全局意义的,有搜索引擎的搜索关键词、微博的发帖转发、浏览器访问和点击,另外还有一种就是基于全网数据的统计分析(搜索引擎的另一面)。
1 搜索关键词
搜索引擎的query一直被认为是觉察互联网需求、倾向的最直观的反映 。PC上,百度搜索超过70%市场份额,绝对一家独大,用户搜索的请求具有普遍意义,从统计意义上说,这部分数据统计分析能够代表网络用户关注的事情和了解的事情的真实情况。移动上百度搜索站搜索份额超过40%,依然领先,所以百度的query数据对网民的需求和关注的反应是很有价值的。
基于百度query分析的搜索风云榜(top.baidu.com)、百度指数(index.baidu.com)两个产品就是这一数据的应用和呈现。百度搜索风云榜能从宏观统计和排行勾勒出全局的热点事件,而百度指数则以单关键词的时间变化曲线来反应事件局部的量化分析和趋势。作为对网民需求和关注的一个集中分析,与Google trends类似,但是百度数据更能反应国内市场的现状。
当然你非要说还有其他的百度query应用来体现这一层涵义的话,百度的Suggestion提示、百度的相关搜索关键词、点击行为也有一定程度上的这层含义。但是只是建立了词与事件的关联,并不具备更清晰的量的分析,所以可以作为线索发现来使用。
2 微博:热门微博、热门关键词和人物排行榜
微博兴起以后,UGC的实时推送和实时发布分享、转发、评论等数据,则更准确的体现的参与的力量和注意力的集中。相对于搜索而言,微博是一个参与程度更高、更面向传播的一个产品,所以在微博上能够关注并参与的话题、事件理论上,热度应该比搜索在统一计算中,权重要给的更高一些。
微博数据分析有很多第三方的,也有微博自己的风云排行榜(data.weibo.com/top/keyword)、热门微博(hot.weibo.com)这个数据都有一定参考意义。还有针对行业和领域分析的微指数,很有趣,代表了这类账号一定周期的活跃度、影响力的变化。
3 客户端记录的用户上网行为、浏览点击行为数据
能够记录这些数据的除了浏览器、输入法软件之外,其他比如QQ、迅雷、360安全卫士猜测也都是能够做到这一点的。
比如从9月8号开始预售10月1日长假前的9月27日出行的火车票(按照今年的放假安排,这天出行最合适),所以这天访问12306的访问量会有一个激增,这时候浏览器是最早觉察的,而且我有在订票,就关注到来自某浏览器的推送广告、大肆发产品推广稿件去提醒告知用户可以用他们的抢票插件。
而搜索相对滞后近一天才反应出来,可以看下9月9日百度搜索的关键词,订票相关关键词才达到新高,而搜索软件推送的抢票类的提醒,我是今天(9月11日)晚上21:00收到的,这里边除了执行力效率之外,数据的效率可能也是一个影响因素。(Tips:百度指数里,如果你认为几个词关键词内涵是一致的,符合你需要描述的主题,你就可以用关键词1+关键词2+关键3来搜索,显示曲线的搜索量是三个词的累加)
凡走过必留下痕迹,过去经常被用来描述搜索引擎用户行为轨迹,今天,我觉得,如果用它来形容浏览器的访问记录和用户点击行为则更贴切。而且通过每天访问的网站、内容、点击行为进行数据统计、挖掘,可以建立一个更贴切地反应网民的关注力的模型。诸如每日访问统计分析排行榜,被点击最多的anchor排行榜等等,哈哈(:
这部分数据目前没有人做在线的用户级产品,但是在商业系统中都有应用,甚至在自己的产品技术体系的架构上、产品创新上、客户营销数据分析上都有用。
4 根据内容的主题计算形成内容发布密集度计算
有没有可能做这么一个模型,通过抓取全网(假设覆盖率100%,实际是做不到的,但是可以设计一个方法来论证数据足够全面和有代表性)网页文本,通过聚类来获得事件主题,然后通过分类来统计计算每个事件主题的热度,从而对全网发布的内容在某一个时间区间进行统计分析排行呢?这样可以做到事件排行、媒体排行、作者、传播通道的逆向分析等若干种拆解方法,什么影响力啊,那些是水军啊,将会一目了然。这其实是搜索索引数据的另一种应用。
如果用这个数据再加上浏览器的访问、点击数据去分析,那将会更有趣。我通过一个小样本集数据玩了一下这个模型,对于色情和准色情内容的访问点击超过在搜索引擎(20%左右)的表现,达到近40%的。
网络行为数据是觉察的脉搏
很多英明的商人早开始盯着风云榜,作为绩效考核的依据;某些投资人已经开始用这些数据评估一个创业项目的成长潜力;更有出版商、游戏发行商通过这些数据自己和竞争对手,研究制定营销和产品策略。这些网络行为数据是觉察的脉搏,通过这些数据的宏观、微观分析,我们能看到一个事情他是怎么来了现在啥状况将会怎么样,用以指导我们应该怎么做、怎么应对。
隐私问题与监管
有人说这些数据的上传和分析涉及到隐私问题,这点上我非常认同robin李彦宏的对英国前首相布朗(Gordon Brown)一句话机敏的回复,布朗说“你知道我每天搜索了什么信息,你知道我的喜好,你知道我想买什么东西,你甚至知道我的年龄、我的收入,你可以据此来发布最有针对性的广告,你是不是侵犯了我的隐私?过去的媒体都是不知道这些的。”李彦宏说“我是知道很多关于你的信息,但我不知道你是谁,我也不会用我掌握的信息对你造成伤害。
当然如果有的软件不只是传了你的浏览、点击数据,还包括你的本地文件、各种账号密码之类的信息,这就不属于隐私问题而是安全问题了。保护好你的数据、信息的安全是个更宏大的话题。对于用户来说,你如果不放心可以装一些进程监护和流量分析额绿色小软件,可以帮你实时监控你电脑里的软件都在干什么。
当然你也应该意识到,无论是搜索、微博还是普通的网页内容,监管和管制是无处不在,所以力求精雕细琢的完美是不现实的,但是整体上这些数据和信息的商业探索和商业挖掘,依然会给我们带来强大的动力。
发表评论