流量作弊和识别

作弊手段

互联网发展到现在,垃圾流量可以说是网络流量中的主流流量了,如果你说,你的网站没有垃圾流量,那么很大可能是你没发现而已。这一节就将带大家认识主流的垃圾流量有哪些,以及如何通过数据的角度去分析出这部分流量是垃圾流量。

什么是垃圾流量,作弊,非主动点击流量就是垃圾流量。

这个定义非常简洁,我很喜欢这个定义,首先是作弊,也就是有利益驱使认为造价的,如刷量,骗点击,木马等形式的,另个是非主动点击,如爬虫,机器这类,会导致网站流量虚高的。

不同的人,会有不同的人类,下面是根据我对垃圾流量的认识做的一个分类,我将垃圾流流量分为两类,一个是流量作弊,一个是流量劫持。

流量作弊就是弄些不好的,假的流量去替代好的好的,坑你。

流量劫持,就是强制用户看到某个页面或访问某个页面。就是你本来想访问凤凰新闻的,但是你最后跳转到今日头条了,这两家的诉讼是今年流浪劫持方面一个比较大的事情了,劫持来的流量可以增加你自己网站的流量,能更多的变现。

作弊流量可以细分成三类:

一是以次充好,将劣质流量包装成优质流量进行投放,这是目前倒卖流量的主要形式,如你买来的视频贴片CPM是5块的劣质流量,但你以优质的噱头,忽悠别人,卖出了25块的价格,就是挂羊头卖狗肉了;另一种是媒体主角度上操作,更改用户的变现,如,本来我投放的人群是,男的,年龄25~45的,有经济实力的人,但是媒体认为更改了用户的标签,将部分低龄层用户也纳入到这个人群去,消耗你的广告位。

二是以假乱真,将广告展示和点击代码放在非自然流量上,用非自然用户的行为进行作弊,通俗的讲就是机器人作弊;

最典型的就是机器流量了,机器流量也有不同的操作形式,如真机群,模拟器,服务API,真机群就是真的有这么一批机器,如手机,电脑,然后通过程序去自动点击,访问广告,智能化最高的形式了;模拟器是,通过一个软件工具,模拟大量的用户去点击访问别人的网站,这个真机群相比,不用购买很多的设备,通过模拟器调试,能够降低开发的难度;最后一个就是通过服务API,也就是请求一些文件,会在服务器有日志的,但是并不是真实的访问你的站点,如镜像网站。

脚本刷量,就是用程序去跑,模拟访问页面。

肉鸡,就是黑客通过的设备,黑客可以随意控制设备在在不知情的情况下去访问一些网站,

通常,脚本数量和肉鸡是相结合在一起的。就是木马是在用户不知情的情况下植入的,通常隐藏在某个应用程序中,用户很难发现。这类木马需要比较高的技术。因为要root获得最高权限。安卓系统是比较容易获得最高权限,木马自动识别手机是否在黑屏状态。一旦是黑屏,仅需一两秒点几个按键,就可以神不知鬼不觉地关注某个公众号、点击某篇文章。被这种木马控制的手机,随时可以“秒关注”、“秒赞”、“秒阅”,即便是关注某个公众号、点击了某篇文章,微信用户也看不到这种操作,隐蔽性强。

以假乱真这种形式是最具规模效应的,但是它有一个天然的弊端,及时需要大量的新ip加入,因为旧的ip操作过于频繁,会被第三方工具检测出来。

三是暗渡陈仓,将广告素材隐藏在网页不起眼的位置或是植入代码,在上网者没有察觉的情况访问了广告链接,起到作弊的效果。

首先就是隐藏广告了,隐藏广告里面也有多种做法,如Iframe隐藏,广告重叠,媒体主交互,

iframe隐藏只是将广告请求隐藏在iframe里面,iframe是不会被访客看到的,也就是访客访问网站的时候,会请求广告,但访客看不到广告,这是一种对访客比较友好的形式,

广告重叠,就是广告相互叠在一起的,后面的广告没有被访客看到,这种形式通常存在于移动端,因为移动端的展示的面积有限,为了展示更多的广告,会采用重叠的方式,这样,在后面的那个广告,访客自然是看不到的。

媒体主交换,就是投放在媒体A的广告,出现在B的广告上,也就是你想让A网站访客看到的广告,实际是卡不到的。 这三种方式用于CPM结算的广告居多。

雇佣诱导,就是给钱或诱导访客去点击,雇佣的话,很普遍出现于淘宝刷单,不时会受到一些短信,你的信用蛮好的,想要刷单加XXXX,或说一些QQ群,人肉下载APP的;诱导就是刺激用户,这类通常是在三俗居多,另一个是qq群里的发消息就被踢出群的哪种,web端还有一种就是你要下载软件,但你点击下载了,下载到的是另一种的,这种应该是误导的,但也放到这个类型里面。

通常下载类的会采用这种欺骗方式。

重复流量就是定时更新ip,更新浏览器,设备识别码的方式,这是最早出现的作弊方式,也是成本最低的,所以到现在还是蛮流行的,很容易会被第三方工具检测到的的。

另一个大类流量劫持了,流量劫持就是你想访问A网站的,但实际你到了B网站,在请求的整个过程中,都有可能被劫持,如DNS,路由,数据包,网页,下载,通常只有运营商或一定规模的IT公司才有这个技术实力去做,劫持到的流量通常有三种做法。一种是引导到到自己的网站,然后再变现,一种是直接引导到广告主的网站,另一种是替换里面的信息,如广告,将自己的广告替换进入,访客看到的就是你的广告;劫持通常实现在http,如果你升级到https,数据做加密了,就没那么容易被劫持。

可以看到垃圾流量的类型是有很多的,五花八门。

流量端识别

那么怎么对这些垃圾流量做防范的呢?大部分的垃圾流量是善意的,也就是请求的表头有标示的,这种类型的第三方工具可以将其过滤掉的,对于恶意的,我们也可以通过数据的角度来分析出来的。

在GA里面,在数据视图设置下面有个漫游器过滤,如果你开启了这个过滤,就会将部分的垃圾流量过滤掉,这个过滤的规则是遵循美国广告互动局和另一个组织的,美国广告互动局我们在上一节的时候有提到的,它也是程序化广告技术标准的制定放,这个功能打开了只能够过滤掉部分的垃圾流量的,因为有些新的形式,并没有被美国广告互动据纳入进入。

你可以用开启了漫游器过滤的数据视图和一个没有做任何设置的数据视图做对比,你会发现,两者的数据是由些差异的,差异的部分就是垃圾流量了,被过滤掉的。

对于没有被过滤掉的垃圾流量,我们可以通过数据的角度去分析判断:

方法1、查看主机名

首先第一个就是从主机名的角度,在GA中的用户,技术,网络这个报告中,将主维度选取为主机名,然后看这个报告是否有除了你现有主机名之外的其他主机名,如果有,这些都是垃圾流量,这种垃圾流量产生的原因是,知道知道GA的跟踪id,我们就可以给这个跟踪id发送数据,以此类推,如果你要干扰你竞争对手的数据,可以将它的跟踪id挂在一些网站上去,这样它的GA就可以收到一些感受数据,为什么说是可能呢?因为这些垃圾流量可以用过滤器过滤的,如果对方开启了过滤器过滤,那么就不会对其产生营销。看图中, 出了第一个是自己的网站的流量,其他的都是垃圾流量,所以需要将其他的流量过滤掉。

方法2:IP的角度

第二种方法是从ip的角度,通常这种类型的造假是通过重复访问的额,也就是定义切换ip,清除cookie,但我们可以通过获取用户的id,看这个ip的数据,如某个ip在这端时间段的会话数真多,但是跳出率是100%,这种就是重复访问造成的,现在这种不常用,但是还是有人会用的,ppt里面的截图的数据是正常的,在这里只是作为一个方法讲解,GA可以通过一些设置可以获取ip的,具体的方法去网站上看,上面有教程。

方法3:维度中不应该出现的字段

维度中不该出现的字段,有些机器流量会产生维度中不该出现的字段,如下图中的语言C,GA的语言划分表示是采用国际某个组织的,这个里面是没有c这个语言的,也就是这个是机器的,在看看这个跳出率是基本是100%,那就跟坐实这个,你还可以在次级维度里面添加来源/媒介,继续定位这部分垃圾流量是来源于哪个渠道,作图中的c语言是搜过的ppc广告来的,如果广告系列高度集中就停止了该广告系列的推广,然后看看有没有申诉,如果有就去申诉,国外的adwords如果是问题流量,你可以申诉,举证,如果是,后面可以退换广告费的,国内的平台我就不知道的,不要觉得是大平台就没有机器流量,你稍不流量,就被机器流量耗费你的广告费了。

归于国内平台的流量,虚假流浪主要会是C语言,当然还会有其他各个乱套的字符,如右图,在去年特朗普竞选的时候,有段时间就出现很多有特朗普名字的垃圾流量。

方法4:异常好,无转化

异常好,无转化,如下图中的,跳出率是非常好的,可以说这个来源的访客在站内的表示是不错的,但是这个渠道完全没有转化,那么就需要注意了,这个很有可能是会有二次页面访问的造假形式,这个是比较很高级的作弊方法,能够将着陆页的各个指标模拟的很真实的,让用户很难判断,这时候就就需要看这个页面的在浏览器,设备,时间上的 分布集中情况,如果没有异常,再去页面行为流,看这个渠道在第二个页面之后的行为表现,如果第二页基本就退出,那这个很大可能是垃圾流浪。

方法5:异常集中

异常集中,如时段上,你的潜在用户跟踪不会在晚上访问你的站点的,你没做时间显示,晚上数据异常,有很多的流量在点击你的广告消耗你的广告位,这个直接就垃圾流量,目的为了消耗你的广告费的。其他的如地域,设备上的高度集中,可以作为辅助参考。

方法6:新用户=用户数=会话数

接下来要介绍的这种方法是最有用的,新用户=用户数=会话数,也就是新用户进来,很短的时间就离开了,通常这类用户的跳出率是100%的,所以这个肯定是有问题的流量,这种方法屡试不爽,总能找到问题,是我使用最多的一种访问,可以从各个维度去看这个等式,如来源,城市,网站等。

落地端识别

方法1:热力图

这种是热力图的,正常访客进来,产生比较密集的点击,如果是机器流浪进来,点击会是很稀疏的,甚至是没有,通过这个可以对比分析出,这个来源的流量是否有机器流量,这是热力图的使用方法之一,如果有参加过我课程的同学,应该会在课程上听过的,书上也有讲解。没有找到能够对比的图片,所以放了地图的热力图做。这种方法的实用性不强,因为数据太少的话,真实的和机器的渠道都是会比较稀疏的,如果多的话,足够明显能够判别出这个渠道是垃圾流量,那么这个就是个很严重的问题,整个来源都是机器流量,推广的人要么是没发现,要么是知道不处理,这就是你们内部的问题。

下面看看各个方法的有优劣,最实用的方法是新用户=用户数=会话数,这个是最快捷的方式,很容易就定位到问题的,然后就是异常好,无转化和维度中不应该出现的类型,这两种比较常用,其他的都是方法实用性不强的。查看主机名这个是非常有效的判断方法,但是你设置好过滤器后就不会再有问题的了;

在使用这些方法的时候往往还会结合对比和次级维度来做更细致的判断。 那什么情况下才会考虑到是不是垃圾流量呢?或是说什么时候需要做垃圾流浪识别呢?

我一般情况下会在流浪暴涨的时候,这时候你就需要注意,是不是机器流量,另一个是新增渠道的时候,要留意渠道数据是否合理,有问题的,最后一个是定期做review。出现问题及时排除。

如果发现有垃圾流量,ad可以去申诉,如果是国内的百度,搜索,今日头条这些,我不知道有没有申诉的途径,如果没有,停掉该系列的广告,或做限制性投放。

Last updated