数据分析的方法、误区与数据说谎的手法_从零开始做运营_聚合中文网阅读最新章节

    数据分析的方法、误区与数据说谎的手法

    很多人说“数据会说话”，也有人说“数据会说谎”。其实，数据究竟会不会说话，说什么话，是真话还是假话，取决于数据的选择和分析的方式。

    首先，我们要明白一个核心观点：运营数据分析的关键不在于数据，而在于分析。或者说，所有数据分析的关键都在于分析，而不在于数据本身。然后，我们要明确一个前提：数据分析的能力是渐进的，对数据的敏感度是需要培养的。最后，我们要懂得一个事实：数据表达出的信息与多种因素相关，运营人员尝试学习运营数据分析之前，要尽量抛开预设立场，并且明白不同类别的数据在不同的阶段其重要性也是不同的。

    先问一个问题：所有网站的PV、UV、转化率都是核心指标么？答案当然是否定的。因为对于不同的网站（产品），在不同的时间阶段的核心指标是不同的。

    网站（产品）建立的初期，流量指标非常关键，但是流量本身并不仅仅是一项指标，我们先看一下“流量”到底是什么。

    流量包含了好几个指标，最关键的有以下一些：

    UV（Unique Visitors）：独立访客数

    现在谷歌已经将这个指标替换为User，但基本概念并无变化。

    独立访客数和独立IP是两个概念。独立IP要求访问者的IP地址各不相同，而独立访客数则未必。比如，在同一台电脑上，你注册了一个新用户，你哥哥注册了另一个新用户。此时，网站的后台会记录1个独立IP，但同时会记录2个UV。而如果在同一台电脑上，你和你哥哥都没有注册，只是浏览，那么后台会记录1个独立IP及1个UV。当然，在同一天内，不管一个独立IP下的独立访客访问多少次，后台都只记录1次。

    PV（Page Views）：页面访问量

    每一个用户，每打开一个页面，就是一个PV。

    一个网站，从首页到注册成功一共有5个页面，分别是：首页、填写用户名与密码、填写基础资料、填写高级资料、注册成功。每一个用户从首页点击注册并成功完成注册流程，后台会逐一统计，网站因此获得了5个PV。

    RV（Repeat Visitors）：重复访客

    比如，昨天小明浏览了我的微信公众号，今天他又来了。小明就是一个RV。

    TP（Time On Page）：页面停留时间

    比如，王大壮最喜欢看新闻，所以他每天看XO站的新闻频道10分钟；李小勇最喜欢看美女，所以他每天看XO站的美女频道30分钟。这就是TP。

    Trafﬁc Sources：流量来源渠道

    比如，百度每天为你的网站贡献了100个UV；用户直接输入网址为你的网站贡献了10 000个UV；微信每天为你的网站带来1 000个UV。这些都是流量来源渠道。

    所谓流量指标，并不单一地指UV、PV这些基础数据，也不仅仅是用户停留时间、重复访客这种细节数据，它同时还包括了渠道来源数据。

    到了持续运营阶段，单一流量指标的意义已经不大，更重要的是用户的留存、活跃指标，甚至是付费用户的规模。在这个阶段，跟踪所有流量来源的渠道质量依然很重要，需要强化的是用户行为的分析，要拆分出各种维度、各种路径的留存、活跃、转化的情况，以及分析用户的兴趣点，建立用户的成长模型等等。

    到了成熟期，运营人员需要关注用户流失的速度、分析流失的原因，对依然留存与活跃的用户给予重点的关注。数据分析在成熟期的意义是延续网站（产品）的生命周期，持续为存量用户提供优质服务。

    到了衰退期，运营人员要做好数据的保存工作，如果网站（产品）要结束运营，应提前做好各种准备和通知。

    我并不打算就数据分析的方法展开讨论，因为这个话题覆盖范围太大，所以我们着重分析一些关于数据使用、数据分析的误区和数据说谎的手法。

    数据使用的方法

    · 掌握历史数据。

    对于运营人员来说，熟悉、掌握网站（产品）的历史数据非常关键。数据的维度越全面，运营人员对网站（产品）的生命周期，乃至用户的生命周期的把握就会越清晰。

    · 从历史数据中归纳规律。

    历史数据不是拿来看的，而是用来分析的。分析其中的规律，在什么节点数据上升，什么节点数据下降，找出原因，形成经验，对运营人员的工作来说至关重要。

    · 通过规律反向进行数据预测。

    运营人员掌握了规律，就具备了做数据预测的基础。过往3年，国庆节期间，网站的流量都会有明显提升，那么运营人员要不要提前为每年国庆节做一些规划呢？

    · 学会对数据进行拆解。

    数据量越大、维度越多，数据越需要拆解，可以分为按照时间的拆解和按照相关性的拆解。运营人员懂得拆解数据，意味着有能力把控运营的节奏。这是需要每个从事运营工作的人注意的地方。

    运营数据分析的误区

    · 不要用单一类型的数据去评价全局。

    我们举个例子，见图6–2。

    图6–2 近三个月支付宝网站日平均访问人数Alexa排名走势

    资料来源：Alexa网站

    这是Alexa（一家专门发布网站世界排名的网站）统计的支付宝2014年4月~6月日平均访问人数的走势，我们可以通过这个数据认为支付宝的活跃用户在减少么？答案是不能。因为Alexa只统计Web端，支付宝移动端的活跃用户是否在增加呢？我们并不能从这个数据中得到答案。

    · 不要夸大偶然事件，认为带来必然结果。

    运营人员经常会发现一个活动上线之后，运营数据有很大的提升，但是，这有可能是一个偶然事件，如果你认为这样的活动形式必然对数据有所帮助，那么你需要更多的数据来佐证它，并且适时将这种活动转化为机制，如果它真的有效。

    如果你不能证明两者之间的必然性，那么就有理由怀疑，你的运营效果是其他渠道导致的。

    · 避免用结论推导原因。

    运营人员很容易犯的数据分析的错误是，发现数据增长了，然后寻找各种对数据增长可能有帮助的事件，并且将数据增长的原因归功于这些事件。

    运营人员发现数据增长，或者下降，希望找出原因，最好的方式是再现。

    · 避免唯数据论。

    数据既可以说明问题，也可能遮蔽视线。数据并不能解决所有问题，它给你的是一个参考，而不是一个结论。

    运营数据说谎的手法

    想要运营数据说谎，其实很简单，在此简单地举出几种。

    · 拉伸图表。

    图6–3 当日活跃用户数（人）

    图6–4 当日活跃用户数（人）

    上面两张图，其实源数据是完全一样的，但是相同的数据却带来了不同的感受。这就是拉伸图表所带来的结果。

    · 修改坐标轴数据。

    图6–5 当日活跃用户数（人）

    图6–6 当日活跃用户数（人）

    上面两幅图表，其实原始数据也是完全一样的，但是图6–6传递的用户波动的幅度比图6–5要小得多，这得益于图表制作者使用了“对数刻度”，从而让数据的波动没有体现得那么强烈。

    · 故意选择有利的样本。

    这种情况很常见。在运营过程中，运营人员会比其他人更了解自己的用户，那么就会出现下面这种情况：

    一个电商平台要做流失用户挽回活动，运营人员要针对流失用户进行选型。这次选型有两个选择：一是“半年内未购物”的用户，二是“半年内未购物但有登录”的用户。那么，针对哪个样本选型用户的流失挽回活动效果会更好？

    毫无疑问，答案是后者，因为第一个选型样本里包含了“有登录”和“无登录”两种类型。

    很显然，如果我们单单考虑挽回流失用户的难度，对半年都没有登录的用户进行挽回，比对半年内有过登录但是没有购物的用户要难得多。

    · 样本规模差异。

    在产品的运营上，我们经常需要做一些A/B测试来验证某个功能或者设计方案哪个更好，这个时候，最容易犯的错误，也是最容易带来数据说谎结果的情况，是样本规模有差异。比如，A类选型选择了100个用户，而B类选择了1 000个用户，不管我们最终选择绝对值，还是比例，其结果都会存在巨大的误差。

    这些数据分析的误区以及数据说谎的手段，希望引起大家警惕，不要为了指标而做指标，也不要为了汇报好看而去对数据做手脚。这样的做法会逐渐积累风险，最后一发而不可收拾。

    活动数据分析样例

    图6–7是几个活动参与用户数的数据样例，让我们试着分析一下发生了什么。

    活动1是一个参与用户数缓慢上升，到达峰值后回落的活动。

    活动2是一个参与用户数有明显波动，经历“高开——稳定——冲新高——回落”的活动。

    活动3是一个参与用户数高开低走的活动。

    活动4是一个参与用户数异常稳定的活动，高峰和低谷基本处于同一水平。

    通过第1个活动的数据，我们大概可以得出以下结论：

    · 该活动提前预热不够；

    · 该活动随着时间推移，效果有明显提升；

    · 该活动开始后没有进行过任何调整（包括宣传与奖励）。

    通过第2个活动的数据，我们大概可以得出以下结论：

    · 该活动的提前预热做得很好；

    · 该活动开始后进行过调整（宣传或者奖励）；

    · 该活动的奖品发放控制可能有问题，后期力量不足。

    通过第3个活动的数据，我们大概可以得出以下结论：

    图6–7

    · 该活动提前预热做得很好；

    · 该活动没有进行过任何调整（包括宣传与奖励）。

    通过第4个活动的数据，我们大概可以得出以下结论：

    · 该活动宣传不足或宣传渠道有问题；

    · 该活动的设计本身可能有问题。

    这4个活动仅仅是一个样例，但我们可以从中发现一些问题：首先，一个活动的数据并不仅仅是数据层面的波动；其次，数据背后有很多因素互相交织，大量的因果关系导致了事件的发生，数据的走势也由此而来。

    因此，我们接下来要说的就是跳出数据看数据。

聚合中文网阅读好时光 www.juhezwn.com

小提示:漏章、缺章、错字过多试试导航栏右上角的源