按照CNNIC第32次中国互联网发展统计报告中数据显示(输入cnnic32可获取相关文章),截至2013年6月底,我国网民规模达到5.91亿。互联网普及率为44.1%。互联网网民每天关心什么,在做什么,想要什么,这个是很有有趣好玩且商业价值不菲的数据,试想如果你拥有这些数据,并通过构建恰当的模型分析这些数据,很容易建立商业模型来赚钱,那对于这一堆的0101的存储,将是怎样的宏伟壮观又会是怎么样的有趣有料呢(:。
目前,确实有很多网络行为的数据,各个平台和服务商都在收集应用,但是这个数据他们割裂的存在的,大的、具有全局意义的,有搜索引擎的搜索关键词、微博的发帖转发、浏览器访问和点击,另外还有一种就是基于全网数据的统计分析(搜索引擎的另一面)。
1 搜索关键词
搜索引擎的query一直被认为是觉察互联网需求、倾向的最直观的反映 。PC上,百度搜索超过70%市场份额,绝对一家独大,用户搜索的请求具有普遍意义,从统计意义上说,这部分数据统计分析能够代表网络用户关注的事情和了解的事情的真实情况。移动上百度搜索站搜索份额超过40%,依然领先,所以百度的query数据对网民的需求和关注的反应是很有价值的。
基于百度query分析的搜索风云榜(top.baidu.com)、百度指数(index.baidu.com)两个产品就是这一数据的应用和呈现。百度搜索风云榜能从宏观统计和排行勾勒出全局的热点事件,而百度指数则以单关键词的时间变化曲线来反应事件局部的量化分析和趋势。作为对网民需求和关注的一个集中分析,与Google trends类似,但是百度数据更能反应国内市场的现状。
当然你非要说还有其他的百度query应用来体现这一层涵义的话,百度的Suggestion提示、百度的相关搜索关键词、点击行为也有一定程度上的这层含义。但是只是建立了词与事件的关联,并不具备更清晰的量的分析,所以可以作为线索发现来使用。
2 微博:热门微博、热门关键词和人物排行榜
微博兴起以后,UGC的实时推送和实时发布分享、转发、评论等数据,则更准确的体现的参与的力量和注意力的集中。相对于搜索而言,微博是一个参与程度更高、更面向传播的一个产品,所以在微博上能够关注并参与的话题、事件理论上,热度应该比搜索在统一计算中,权重要给的更高一些。
微博数据分析有很多第三方的,也有微博自己的风云排行榜(data.weibo.com/top/keyword)、热门微博(hot.weibo.com)这个数据都有一定参考意义。还有针对行业和领域分析的微指数,很有趣,代表了这类账号一定周期的活跃度、影响力的变化。
3 客户端记录的用户上网行为、浏览点击行为数据
能够记录这些数据的除了浏览器、输入法软件之外,其他比如QQ、迅雷、360安全卫士猜测也都是能够做到这一点的。
比如从9月8号开始预售10月1日长假前的9月27日出行的火车票(按照今年的放假安排,这天出行最合适),所以这天访问12306的访问量会有一个激增,这时候浏览器是最早觉察的,而且我有在订票,就关注到来自某浏览器的推送广告、大肆发产品推广稿件去提醒告知用户可以用他们的抢票插件。
而搜索相对滞后近一天才反应出来,可以看下9月9日百度搜索的关键词,订票相关关键词才达到新高,而搜索软件推送的抢票类的提醒,我是今天(9月11日)晚上21:00收到的,这里边除了执行力效率之外,数据的效率可能也是一个影响因素。(Tips:百度指数里,如果你认为几个词关键词内涵是一致的,符合你需要描述的主题,你就可以用关键词1+关键词2+关键3来搜索,显示曲线的搜索量是三个词的累加)
凡走过必留下痕迹,过去经常被用来描述搜索引擎用户行为轨迹,今天,我觉得,如果用它来形容浏览器的访问记录和用户点击行为则更贴切。而且通过每天访问的网站、内容、点击行为进行数据统计、挖掘,可以建立一个更贴切地反应网民的关注力的模型。诸如每日访问统计分析排行榜,被点击最多的anchor排行榜等等,哈哈(:
这部分数据目前没有人做在线的用户级产品,但是在商业系统中都有应用,甚至在自己的产品技术体系的架构上、产品创新上、客户营销数据分析上都有用。
4 根据内容的主题计算形成内容发布密集度计算
有没有可能做这么一个模型,通过抓取全网(假设覆盖率100%,实际是做不到的,但是可以设计一个方法来论证数据足够全面和有代表性)网页文本,通过聚类来获得事件主题,然后通过分类来统计计算每个事件主题的热度,从而对全网发布的内容在某一个时间区间进行统计分析排行呢?这样可以做到事件排行、媒体排行、作者、传播通道的逆向分析等若干种拆解方法,什么影响力啊,那些是水军啊,将会一目了然。这其实是搜索索引数据的另一种应用。
如果用这个数据再加上浏览器的访问、点击数据去分析,那将会更有趣。我通过一个小样本集数据玩了一下这个模型,对于色情和准色情内容的访问点击超过在搜索引擎(20%左右)的表现,达到近40%的。
网络行为数据是觉察的脉搏
很多英明的商人早开始盯着风云榜,作为绩效考核的依据;某些投资人已经开始用这些数据评估一个创业项目的成长潜力;更有出版商、游戏发行商通过这些数据自己和竞争对手,研究制定营销和产品策略。这些网络行为数据是觉察的脉搏,通过这些数据的宏观、微观分析,我们能看到一个事情他是怎么来了现在啥状况将会怎么样,用以指导我们应该怎么做、怎么应对。
隐私问题与监管
有人说这些数据的上传和分析涉及到隐私问题,这点上我非常认同robin李彦宏的对英国前首相布朗(Gordon Brown)一句话机敏的回复,布朗说“你知道我每天搜索了什么信息,你知道我的喜好,你知道我想买什么东西,你甚至知道我的年龄、我的收入,你可以据此来发布最有针对性的广告,你是不是侵犯了我的隐私?过去的媒体都是不知道这些的。”李彦宏说“我是知道很多关于你的信息,但我不知道你是谁,我也不会用我掌握的信息对你造成伤害。
当然如果有的软件不只是传了你的浏览、点击数据,还包括你的本地文件、各种账号密码之类的信息,这就不属于隐私问题而是安全问题了。保护好你的数据、信息的安全是个更宏大的话题。对于用户来说,你如果不放心可以装一些进程监护和流量分析额绿色小软件,可以帮你实时监控你电脑里的软件都在干什么。
当然你也应该意识到,无论是搜索、微博还是普通的网页内容,监管和管制是无处不在,所以力求精雕细琢的完美是不现实的,但是整体上这些数据和信息的商业探索和商业挖掘,依然会给我们带来强大的动力。
发表评论