互联网舆情监测系统开发起来是不是很简单？

admin 行业新闻 2018年4月24日 | 0

大家都说舆情监测系统开发起来，比较简单，小编作为一个参与过舆情监测系统开发的一员，小编今天不想说什么，只想把一组数据给广大朋友观赏一下，大家就知道舆情监测系统开发起来技术含量怎么样了。

抓取数据、清洗数据对于当下的舆情监测系统来说，都不算是什么难题了，难就难在如何从已得到的数据中获得商业洞察，再用这些商业洞察指导实践，而不仅仅是简单的各类数据统计。对于我来说，舆情数据是互联网上的公开数据，就是相较于销售数据、用户数据等企业内部之外的数据，姑且称之为“外部数据”。那么，现在问题就转换为：如何从浩如烟海、杂芜丛生的外部数据中获得对企业有价值的商业洞见？下面，笔者将从理论到实践，从数据获取、数据清洗、可视化最后到数据分析，全方位的呈现如何从外部数据中得到商业洞察。

现在互联网上关于“增长黑客”的概念很火，它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。一般来说，“增长黑客”主要依赖于企业的内部数据（如企业自身拥有的销售数据、用户数据、页面浏览数据等），以此为依据进行数据分析和推广策略拟定。但是，如果遇到如下几种情况，“增长黑客”就捉襟见肘了：假如一家初创公司，自己刚起步，自身并没有还积累数据，怎么破？就算有数据，但自己拥有的数据无论在“质”和“量”上都很差，正所谓“garbage in ，garbage out”，这样的数据再怎么分析和挖掘，也难以得到可作为决策依据的数据洞察……能看到数量上的变化趋势，却无法精准的获悉数值变动的真正原因，比如，近期APP上的活跃度下降不少，从内部数据上，你只能看到数量上的减少，但对于用户活跃度下降的真实动因却无法准确判定，只能拍脑袋或者利用过时的经验，无法让相关人信服。由此，笔者引出了“外部数据”这一概念，尤其是“Open Data”这片“数据蓝海”，“他山之石，可以攻玉”，从海量的外部数据中获取可以对自身业务起到指导作用和借鉴意义的insight，借助外部环境数据来优化自己。

越远离坐标原点，沿坐标轴正向延伸，价值度就越高，分析处理的难度也就越大。对于数据分析师而言，“描述型分析”、“诊断型分析”和“预测型分析”最为常见，而“规范型分析”涉及比较高深的数据挖掘和机器学习知识，不是我们接下来讨论的重点。1.1 描述型数据分析描述型分析是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法，是上述四类中最为常见的数据分析类型。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性（如平均值、中位数和众数等）和离散型(反映数据的波动性大小，如方差、标准差等)。

1.2 诊断型数据分析在描述型分析的基础上，数据分析师需要进一步的钻取和深入，细分到特定的时间维度和空间维度，依据数据的浅层表现和自身的历史累积经验来判断现象/问题出现的原因。

1.3 预测型数据分析预测型数据分析利用各种高级统计学技术，包括利用预测模型，机器学习，数据挖掘等技术来分析当前和历史的数据，从而对未来或其他不确定的事件进行预测。

1.4 规范型数据分析最具价值和处理复杂度的当属规范型分析。规范型分析通过 “已经发生什么”、“为什么发生”和“什么将发生”，也就是综合运用上述提及的描述型分析、诊断型分析和预测型分析，对潜在用户进行商品/服务推荐和决策支持。

2. 对外部数据中的分析很重要经过上面对四种数据分析类型的描述，笔者认为现有的基于企业内部数据的数据分析实践存在如下几类特征：大多数的数据分析仅停留在描述性数据分析上，未触及数据深层次的规律，没有最大限度的挖掘数据的潜在价值；数据分析的对象以结构化的数值型数据为主，而对非结构化数据，尤其是文本类型的数据分析实践则较少；对内部数据高度重视，如用户增长数据，销售数据，以及产品相关指标数据等，但没有和外部数据进行关联，导致分析的结果片面、孤立和失真，起不到问题诊断和决策支撑作用。由此，我们必须对企业之外的外部数据引起重视，尤其是外部数据中的非结构化文本数据。对于文本数据的重要性，笔者已在之前的文章中有过详细的论述，详情请参看《数据运营|数据分析中，文本分析远比数值型分析重要！（上）》。与此同时，非结构化的文本数据广泛存在于社会化媒体之中，关于社会化媒体的相关介绍，请参看《干货｜如何利用Social Listening从社会化媒体中“提炼”有价值的信息？》。3. 外部数据的几种常见类型外部数据是互联网时代的产物，随着移动互联时代的兴起，外部数据的增长呈现井喷的趋势。各个领域的外部数据从不同角度刻画了移动互联时代的商业社会，综合这些外部数据，才能俯瞰到一个“全息式”的互联网版图。按互联网行业和领域的不同，外部数据包括且不限于：阿里（淘宝和天猫）：电商大数据腾讯（微信和QQ）：社交网络大数据新浪（新浪微博和新浪博客）：社交媒体大数据脉脉：职场社交大数据谷歌/百度：搜索大数据优酷：影视播放大数据今日头条：阅读兴趣大数据酷云EYE：收视大数据高德地图：POI大数据4. 外部数据的获取/采集随着互联网时代对于“Open Data(开放数据)”或“Data Sharing（共享数据）”的日益倡导，很多互联网巨头（部分）开放了它们所积累的外部数据；再者一些可以抓取网络数据的第三方应用和编程工具不断出现，使得我们可以以免费或付费的方式获得大量外部数据（在获得对方允许和涉及商业目的的情况下），最终的形式包括未加工的原始数据、系统化的数据产品和定制化的数据服务。以下是一些常见的外部数据分析和采集工具：

4.1 指数查询（1）百度指数（2）微指数（3）优酷指数（4）谷歌趋势4.2 爬虫工具从上面的索引结果可以看到，搜寻到的语句和原语句之间即使没有包含相同的词汇，但语义上是相关的，分别从属于4“用户研究”、“运营实操根据”和“内容运营”这三个话题。笔者通过这种文本相似度索引，就可以找到自己感兴趣的内容，进行更进一步的文本挖掘。结语限于篇幅，上述许多模型的用途/使用场景，笔者并未展开详说，比如Lexical Dispersion Plot、Bicluster文本聚类和DTM模型可以预测词汇和主题的热度，从而为写作选材和热点追踪提供参考；而LSI相似文本索引和ATM模型可以在内容创作中进行竞品分析，找到与笔者写作主题相近的作家和内容进行针对性的分析，知己知彼，做好自己的写作风格定位。拿笔者的分析实践为例，在“数据分析”栏目中，采用上述分析手段，笔者发现相关文章大都是理论型和设想型的论述，缺少真实的数据分析实例支撑，真正投入到实际工作中的效果也未可知；同时，很多是常规的、基础性的数值型分析，介绍的工具则是Excel、SQL、SPSS，难以满足当今大数据背景下的数据分析实践。因此，笔者的写作风格倾向于“少许理论+实操”，尽量少扯“看起来对、看过就忘”的理论，在数据分析工具和方法的使用上尽量做到多样化，实例分析不为得出具体的结论，重在开拓读者的数据分析思路，授人以鱼。最后，透过上面的外部数据分析实例，笔者想阐明如下3点：要厘清不同数据类型的特征，如本例中的数值型数据、文本型数据以及从中抽取的关系型数据，对其采用合适的分析思路和挖掘方法；数据分析的方法要尽可能的多样化，如本例中采用了多种分析方法和模型，如交叉分析、高频词分析、关键信息抽取、词汇分散图分析和ATM模型等；在分析层次上，以业务逻辑为轴线，由浅入深，由简入繁，由表及里，既有描述型的统计分析，也有诊断型的数据挖掘，还有基于演变规律的预测型分析。

互联网舆情监测系统开发起来是不是很简单？

互联网舆情监测系统开发起来是不是很简单？

Leave a Reply Cancel reply