4.7 作弊与垃圾流量的识别

4.5.1发展历程及常用手段

作弊流量到今天之所有能够存在，是有其必然性的：网站需要通过流量变现，流量一定的没有大幅增长的情况下只能通过作弊来获取更多的广告收入；市场人员、推广人员、公关人员、数字营销工作人员需要完成流量KPI，既有需求的市场；DSP企业需要购买流量，需要有价差，在初期市场里需要生存，也存在流量作弊的动机；供给方，需求方，中介有需求，都是利益相关方的时候，就有操作的空间了，人的潜力是无穷的。

最初的阶段，在Cookie和IP不变的情况下，不断地单击广告和刷新广告，可以说是非常暴力一种形式，毕竟那是各种制度、规则、监控不完善的时候，还能够捞到好处，说的时髦些就是薅羊毛。但现在反作弊比较完善，这种简单粗暴的方式很容易就被识别到的。

中级阶段，这一阶段的垃圾流量一定的升级，会针对监控做一些规避，如定频清除Cookie或不支持Cookie，因为第三方检测工具的用户识别是基于Cookie的来实现，如果对Cookie做些妨碍，很容易就能够蒙到广告主，这个做法跟爬虫类似，了解过爬虫的朋友就应该知道，部分站点对爬虫没有那么友好，对频率做了一定的限制以缓解对服务器的压力，但是反爬虫机制也有应对的策略，一个列表IP，各种浏览器列表，定时循环来突破网站的限制，同样的原理应用到垃圾流量里，定时的更换IP、浏览器表头、清除Cookie等规避搜索引擎的甄别；另一个是用肉鸡、pop流量、内嵌页面，这种是现在也很难防止的，虽然可以通过数据去侦察识别到，往往需要您定时，很细心的从多个角度去验证，分析才有可能会发现。

高级阶段，基于软件或模拟器模拟出用户持续交互的行为，如用户的第二个页面访问行为，跟真实用户相比，达到了以假乱真的地步，这就不是您简单的通过数据能够发现的了，能够做到这种类型的，可以说技术上已经是很高级的了，应了那句，就怕流氓有文化，您就认栽吧。

高级阶段的作弊已经很难从技术或数据上去防范的了，很多第三方广告平台或行业报告公布出来的虚假流量是20%~30%，这是一个非常高的比例。运用机器模拟人的访问请求的成本非常低，他们可以从中获取很高比例的利润，高额利润促使有人孜孜不倦的钻研这一行业。有一定技术的广告平台都没法去辨别这类流量，还有就是Facebook的，2016年的时候是想建立一个DSP平台的，后来部分是因为虚假流量问题而终止了，以及2017年8月份的Google DBM虚假流量退费事件，即使全球排名前几的巨头都在这一领域面临严峻的挑战。更糟糕的情况是，有些广告投放平台自身在通过机器流量消费广告主的费用，虽然说是道德问题，但给这个行业造成了很大的伤害。通常来说，虚假流量一般是掺杂在真正流量里面，在实际转化可以接受的前提下，可以采取睁一只眼闭一只眼的态度。

如果按照类别，可以分为机器行为和人工行为。

机器行为包含但不局限于：IP重复刷量；换不同的IP重复刷量；机器智能作弊;流量劫持；内嵌隐藏等，具备的数据特点是：IP离散度密集，时间周期反复，设备类型高度集中；人为行为包含真人水军作弊，程序作弊，人工行为数据特点：行为目标明确，行为习惯异常，后续动作不足。

4.5.2防范策略

如何快速简单识别作弊，根据垃圾流量的发展历史和分类特征有三点识别方法。

浅层次作弊，用技术分析可以搞定，这个一般第三方工具会内置有的，如GA的垃圾和机器过滤的规则是遵循IAB/ABC International Spiders&Bot List上的，只要勾选就可以开启自动过滤。

中层次作弊，看用户行为的异常；流量分布；以及一些数据指标异常等，下面会详细介绍一些角度去判别。

高层次作弊，这个很难排除，通常是掺杂部分流量而已。

首先是内部机制，GA里面已经有一个垃圾流量过滤机制了，开启这个功能可以过滤掉很多的垃圾流量，设置的位置在GA里的“管理”→“数据视图设置”→“漫游过滤器”，如图4-19所示：

图4-19 设置漫游器过滤

只要勾选就可以了，虽然这个能去部分垃圾流量，但是您的报告里面一定还会有垃圾流量的，因为不断有新的形式的垃圾流量出现，而第三方工具还没有纳入到过滤规则或根本过滤不了，这时候就要通过一些数据的角度来分析了。

1．查看主机名

在GA中的“流量获取”→“所有流量”→“渠道”报告里面，单击“其他”输入“主机名”后回车，操作演示如图4-20所示：

图4-20 查看主机名操作

这样就可以看到主机名维度的报告，如图4-21所示：

图4-21 查看主机名结果

在这个地方原则上只应该出现一个主机名，也就是您自己的，如果有做跨站就出现多个。可以看到只有第一个是自身的流量，其他的几个都是垃圾流量，至于出现其他主机名，是因为我们的Tracking ID让别人知道，别人模拟用户行为往这个媒体视图发送数据。

解决的方案是将自身的主机名的流量过滤出来，设置是在过滤器里面，作如图4-22所示的设置，这样视图里面就只有本主机名的流量：

图4-22 过滤器设置

2.新用户数=会话数=用户数

从不同的广告维度、用户属性等角度去找上述等式，如果某种类型的流量符合上述的等式，那很大可能就是垃圾流量，因为在等式相等的时候，也就是访客进来后直接跳出的，完全没有访客回访，通常跳出率会有100%。

举个例子，下面是某站在语言角度的，如图4-23所示：

图4-23 语言角度

可以看到新用户数等于会话数，跳出率为100%，再细看语言c，语言列表是没有这种语言的，这部分流量就肯定是垃圾流量了。

继续在二级维度添加“来源/媒介”，可以知道这些流量都来自某搜索平台的ppc流量，所以不要觉得大的搜索平台就不会有垃圾流量，您的SEM里面很有可能也有上述的情况正在浪费您的广告费的。

通常遇到这种情况是及时停掉对应的广告组或广告系列，然后去申诉，Adwords的是有比较完善的申诉机制，国内的平台我就不太了解，不知道能不能拿回您被骗的广告费。

3.某些流量站内表现异常好，就是没转化

这种类型通常会是AFF或DSP的流量，跳出率很低，页面停留时间很长，看上去这个部分用户的页面表现很好，但就是没转化，那么这部分流量很可能就是垃圾流量了，需要注意：用户不会无缘无辜一直停留在您站点，真相只有一个，为了然这个渠道的质量看起来不错，让您多投广告。

比如在DSP投放，带来的流量在页面变现很好，跳出率只有20%，要知道其他一些渠道都是在40%~60%，但这个DSP渠道就是完全没有转化的，您知道了为什么了吗？

下面看一个实际的案例，如图4-24所示，如果只看新用户和跳出率，

图4-24 站内表现异常好，就是没转化

第七个跳出率的只有9%，页面表现是非常好的，如果再告诉您，这个渠道完全么有转化，而且消耗了不少广告费用，您会怎么看呢？

4.时段和设备的角度

如果是机器模拟流量，可能会在部分时段上高度集中某种设备的单击和访问，可以通过这角度去定位流量是否有问题，如图4-25所示。

图4-25 时间角度

如上图，假设站点的目标用户群访问时间是白天才合理的，但是某渠道的很多付费的流量确是在凌晨的时候访问，这时根本就没有客服在，怎么会有转化的呢，可以在二次维度上添加一些维度去判断这些流量是具有什么特征，辅助判断。（这只一种比较极端的例子，仅作为举例使用，通常成熟的平台不会犯这么明显的错误，比如上面提到的第二种情况，它就是在每天都有，但是不明显，就需要将这个渠道的流量从细分剥离出来，查看站内表现情况和访客属性特征方面去分析）

另一个就是设备，如果是机器刷量模拟数量，为了降低开发难度会用同一个设备去做的，就是用某个型号的机子去开发批量模拟用户访问的设备。

通常来说，能够被总结出规律的垃圾流量，大部分都不会是主流的作弊形式的了，整个行业不断在博弈。

Previous4.6 再营销 Next4.8 程序化广告的看法

Last updated 4 years ago