1.4 术语扫盲和原理解析

1.4.1、会话切分

Sessions(会话):是指在指定的时间段内在网站上发生的一系列互动,互动可以是页面浏览,事件,社交互动或电子商务等。一个用户可以同时开启多个会话,这些会话可以发生在同一天,也可以在不同的时间。

会话默认有效期是30min,超过30min就会开启新的会话,如果遇到下面3种情况,会话数将会加1。

1.活动状态超过30min

如果在访问我的网站期间,小鲍在未关闭网页的情况下离开午休了31min,并在午休后继续回来浏览网站,会发生什么情况?

在这种情况下,小鲍来到网站时打开的第一次会话会在时间达到30min后(午休期间)结束。当他结束午休回来继续浏览网站时,GA会设置一个新的时长30min的有效期,即开始了一次新的会话,如图1-43所示。

图1-43 活动状态超过30min

小波在购买产品途中离开了您的网站去吃午饭。吃完饭后他返回完成了交易。新会话的着陆页是“添加到购物车”页。

如果小波在浏览我的网站时中途开着网页离开,但在午休了29min后回来继续浏览,会发生什么情况?

小鲍回来后,刚才打开的会话会从他之前在您网站上查看的最后一个网页开始(前提是他没有通过其他广告系列来源回到网站,这种情况我们在下面会详细介绍)。对 GA而言,他并没有离开过您的网站,如图1-44所示。

图1-44 活动状态未超过30min

小波在购买产品途中离开了您的网站去吃午饭。这次不同的是,他在30min内就回来继续浏览,因此之前的会话并没有结束。值得一提的是,他在“网页浏览2”(产品)期间在网页上停留的时间是29min,因为页面停留时间的计算方法是统计连续两次网页浏览开始时间的差值:网页浏览3-网页浏览2(14:31-14:02=29分钟)。

2.午夜,过了晚上12点

小鲍在8月14日晚上11:50打开您的网站,在8月15日凌晨00:10离开。第一次会话结束于8月14日晚上11:59:59,第二次会话开始于8月15日凌晨00:00。所以,小鲍在这段时间产生了两个会话。一天结束的时间取决于您的数据视图时区设置。

3.广告系列覆盖

用户的广告系列来源一旦发生改变,GA就会打开一个新的会话。需要注意的是,即使现有会话仍处于有效状态(即时间未达到 30 min),如果广告系列来源在会话期间改变,系统也会关闭第一次会话并打开一个新会话,如图1-45所示。

假设小鲍按以下顺序打开您的网站。

图1-45 广告系列覆盖

GA会保存广告系列来源信息。只要广告系列的值发生了变化,GA就会开启一次新的会话。在上面的例子中,小鲍首先通过Google自然关键字“Red Widgets”到达您的网站,而后来是通过Google付费关键字“Blue Widgets”回到的网站。

两个搜索字词都更新了广告系列,因此每个关键字都对应一次新的会话

这种情况通常会改变用户的“来源/媒介”等字段,也就是会产品一个用户对应多个“来源”的情况。

4.示例

用户A在站点浏览网页29min,用户B浏览了31min,那么A的会话数为1,B的会话数为2,所以会话数可以作为衡量用户活跃情况的一个指标。

如果用户A在23:50访问站点,在00:10离开的,虽然只访问了20min,但是经过了午夜,会话数会记录为2。

如果用户A在10:00是通过AFF渠道进来的,10:10离开,10:15时通过PPC渠道进来,虽然没有超过30min,但是从不同的广告系列进来,会话数会被记录为2。

1.4.2、数据的3个层级

当用户的行为(例如,用户在网站上加载网页或在移动应用上加载屏幕)触发跟踪代码时,GA就会记录该活动。系统会将每次互动打包为一项匹配(Hits)发送至 GA的服务器。常见的互动类型有页面跟踪匹配,事件跟踪匹配,电子商务跟踪匹配和社交互动匹配。匹配和会话、用户的关系如图1-46所示。

图1-46数据的3个层级

交互是GA数据中的最小单位了,称为互动或匹配,每次互动都是一个Hits,一个会话可以有多个交互,一个用户可以有多个会话。GA在每个会话的交互的数量做了限制,每个会话最多有500个交互,前十个交互没有限制,只有是每秒限制为1个,所以您能看到的一个用户在一个会话里面最多的页面浏览只是500。另一个需要注意的点是,如果您做事件跟踪的时候需要注意这个频率限制,高频行为跟踪不适合每个都做事件跟踪,需要采用定时的形式,如10秒计数后发一次交互。

1.4.3、用户识别(Client ID和User ID)

Client ID:表示的是唯一的浏览器或设备,这个GA默认识别访客的方式,访客首次访问的时候就会自动在会话中生成一个Client ID,如果切换浏览器或设备,会生成一个新的Client ID,这个也是“新用户”的计算原理。

如:用户A在9:00首次用Chrome访问了我们站点,会产生Client ID-A,9:10后退出,在9:15用IE访问,会产生Client ID-B,这两个ID是完全不同的,所以新用户的为2。

真实的Client ID的构成如下,是一段随机数+时间戳,前面的GA1.2中GA表示GA,1表示版本,现在所有的都是1的,2表示域名的级别,如果域名是www.example.com,就会是GA1.2,如果是www.blog.example.com,就会使GA1.3。具体结构如图1-47所示。

图1-47 Client ID示意图

User ID:表示的是唯一用户,只有用户登录的时候才会识别到,User ID是一串唯一字符串。

如:用户A注册后生成User ID为abcd123,如果用户A切换一个设备访问登录,那么只是生成一个新的Client ID,这时是被看成是2个用户;如果A切换一个设备登录,那么用户的带有User ID,值依然为abcd123,由于User ID是不变的,所以可以用于做跨设备跟踪。

两者的区别如表1-23所列。

表1-23 Client ID 与 User ID 之间的区别

Client ID

User ID

此类ID代表的是什么?

一个匿名设备或浏览器实例。

一个用户(例如一个已登录用户账号),该用户可能在一个或多个设备和/或浏览器实例中与内容互动。

此类 ID 如何设置?

由 GA库随机生成并自动随所有匹配发送。

您必须设置您自己的 User ID: 并将其随您的 GA匹配发送。

如何使用此类 ID 计算唯一身份用户数?

在未启用 User ID 的数据视图中,Client-ID 可用于计算唯一身份用户数。

在启用 User-ID 的数据视图中,User ID 可用于计算唯一身份用户数。

1.4.4、新用户、回访用户、用户和访客的关系

新用户(New User):用户首次访问站点就被记录为新用户,这个用户的别是存储在会话,所以如果用户切换了浏览器或设备再访问的时候,会被记录成另一个新用户。

如用户A在9:00首次用Chrome访问了我们站点,9:10后退出,在9:15用IE访问,这时新用户的数量是记录为2。

回访用户(Returning Users):非首次的访问都是回访用户,一个新用户访问超过30分钟,就会被记录成回访用户。

如:用户A早9:00首次通过Chrome访问我们站点,在9:31分才离开,这时新用户记录1,回访用户也记录1。

用户(Users):用户数,是新用户和回访用户的去重,但由于新用户在切换设备和浏览器的时候会产生新用户数,所以这里的去重后的用户数并不是实际的唯一用户数,但可以看似是唯一用户数,GA中是不提供真实的唯一用户数的。

所以:用户数<新用户+回访用户,如图1-48所示。

图1-48 用户数量关系

新访客(New Visitor):新用户和新访客在数值相等的,但在技术上的实现是不同的,新访客是一个维度,新用户是字段。维度会出现在的列里面,字段是出现在头部的行里,如图1-49所示。

图1-49 新访客和新用户

1.4.5、跳出率和退出率

跳出率(Bounce Rate)是指该网页是会话中“唯一网页”的会话占由该网页开始的所有会话的百分比。(基于会话)

退出率(%Exit)是指该网页是会话中“最后一页”的浏览占该网页总浏览量的百分比。(基于PV)

跳出率是衡量着陆页的好坏的,退出率是衡量页面内容好坏的。在网站上每天都只有单一会话的连续几天内,看如何计算退出率和跳出率指标。举一个例子。

星期一:网页B>网页A>网页C

星期二:网页B>退出

星期三:网页A>网页C>网页B

星期四:网页C>退出

星期五:网页B>网页C>网页A

退出率和跳出率的计算结果如下。

退出率

网页A:33%(在5个会话中,有3个包含网页A)

网页B:50%(在5个会话中,有4个包含网页B)

网页C:50%(在5个会话中,4个包含网页C)

跳出率

网页A:0%(有1个会话由网页A开始,但该会话不是单页会话,因此没有跳出率)

网页B:33%(跳出率低于退出率,因为有3个会话由网页B开始,但只有1个会话发生跳出)

网页C:100%(有1个会话由网页C开始,且发生跳出)

简单理解就是跳出率是基于会话,而且是着陆页才有,如果计算某个着陆页A的跳出率,也就是分子是着陆页为A,且只访问了A页面会话数,这个会话数就是A页面的页面的浏览量了,分母就是所有经过且包含着陆页A的会话数。

1.4.6、时长的原理:页面时长&会话时长

GA的页面停留市场和会话时间是根据Hits的时间差来计算的如图1-50所示。

图1-50 页面停留时长的计算

如果用户只访问一个页面,只有一个Hits,也就是跳出了,时间自然就是0,简单的就可以理解为用户直接跳出的时间都为0。通常第一个页面的结束时间就是第二个页面的开始时间。

Page1的页面停留时间:退出:0:10-开始:0:00=0:10

Page2的页面停留时间:退出:1:25-开始:0:10=1:15

Page3的页面停留时间:事件:2:38-开始:1:25=1:13

可以看到页面的结束时间是事件,也是Hits的类型,如果您做事件跟踪,事件默认是会纳入时间计算的,如果是只有一个页面的时候,也就是事件会纳入跳出率的计算,会导致实际跳出率偏小,所以在做事件跟踪的时候建议都设置为匹配的类型,这样就不会影响页面停留时间的计算和跳出率的计算。

这里还有3个需要注意的地方。

  • 会话的时长时间计算全部的。

  • 页面的时长是按1%抽样计算的(统一版默认是1%抽样,经典版默认是10%抽样)。

  • 页面时长报告中的寻址等时间不是通过Hits来计算,是通过浏览器传递的,是抽样的。

1.4.7、来源、媒介和广告系列

来源、媒介和广告系列对应的是Source、Medium和Campaign,主要用于标记流量来源,各个字段对应的意思详见到表1-24:

表1-24 来源、媒介和广告系列

字段

解析

来源

标识为媒体资源带来流量的广告主、网站、出版物等,表示从哪个站点过来的流量,例如:google、newsletter4、billboard

媒介

广告媒介或营销媒介,通常是结算的方式,例如:PPC(Pay Per Click,从售卖方式角度,按单击付费),CPC(Cost Per Click,从结算方式角度,按单击付费),AFF(Affiliate,网盟)

广告系列

广告系列,如什么活动

1.4.8、事件的字段

主要是事件报告相关的常用字段,各字段对应的意思如表1-25所列。

表1-25 事件的字段

字段

解析

事件总数

事件总数,表示跟踪到的事件总的数量

唯一身份事件数

唯一事件数,会话内事件的去重,可以表示人数的去重,有多少人触发了这个事件

Unique Dimension Combinations

基于事件类别/事件行为/事件标签的去重

1.4.9、事件类别、事件操作、事件标签和事件价值

事件的结构是事件类别—事件操作——事件标签/事件价值,各个字段对应的用法如表1-26所列。

表1-26事件的参数

字段

值类型

是否必填

解析

Event Category

文本

事件类别,指跟踪用户行为的大类

Event Action

文本

事件行为,跟踪用户具体位置的行为,如单击填写邮件,单击填写密码,单击确定提交注册等。

Event Label

文本

事件标签,可以是具体的页面或不填

Event Value

数值

事件数值,与事件相关的数值

分为互动事件和非互动事件,互动事件是指这个Hits计入跳出率和页面时长的计算,非互动事件则不纳入计算,对于着陆页做事件跟踪就需要做这个区分,着陆页的事件类型都是非互动类型的,如果没有做这个区分,那么这些事件会影响真实的跳出率,设置的方法是nonInteraction设置为TRUE。

1.4.10、抽样

为了缩短处理时间的情况下快速获得报告结果,所以在GA中的很多统计分析中都是抽样的;GA中也提供了没有抽样的标准报告,但并没有列出哪些是标准报告,所以使用过程中关注左上角看是否有抽样,如果抽样,缩短时间维度。GA理论上是说会话超过50万时候会抽样,但个人实际使用过程中,在不到该限额的时候就已经抽样了,所以抽不抽样看左上角的提示。可以通过API去查询,API返回的数据里面有个字段是说明数据是否抽样,也有GA开发者将其封装,直接可以在网页上使用。

1.4.11、细分

细分可让您分离出这些数据子集并进行分析,从而检查并响应业务中的各个子趋势。具有以下特点。

  • 细分可以抽取出符合部分特点的用户具体看其表现,还可以用于不同群组的对比,最多只能有4个细分。

  • 里面有个比较高级的功能,就是序列,可以符合步骤顺序的用户单独抽取出来具体分析。

  • 可以共享出去,一个数据视图建立细分,同账号的其他数据视图也可以用的。

  • 时间范围不能超过90天,超过会失时。

  • 级别一般是基于会话级别,如果报告涉及到用户,采用用户级别。

1.4.12、Measurement Protocol

Measurement Protocol简称MP协议,中文名是测量协议。测量协议是一套规则,只要应用遵循规则就可以向GA服务器发送原始数据。测量协议通常用于跨设备跟踪。

通过这个协议,只要设备能链接网络,您可以收集和跟踪用户的交互数据并将其发送到GA服务器,这个设备可以是手机、平板、数字设备等。

1.介绍HTTP的请求和响应

为了更好的理解测量协议的请求,您必须明白HTTP的请求和响应,所有的浏览器和服务器之前的数据交互都是通过HTTP的请求和响应完成的。浏览器和服务器通过发送http请求去请求资源,如HTML文本,图片和cs等,服务器通过HTTP响应返回HTTP的请求数据给浏览器。

HTTP请求的结构如图1-51所示。

图1-51 HTTP请求的结构

HTTP响应的结构如图1-52所示。

图1-52 HTTP相应结构

您可以通过以下步骤去看HTTP的请求和响应,如图1-53所示。

  1. 打开Chrome浏览器。

  2. 打开一个网页

  3. 按<F12>

  4. 单击“Newwork”选项。

图1-53 HTTP的请求和响应

在开发者窗口的右边,您将看到HTTP请求和响应的头部

2.测量协议的请求

为了发送HTTP请求给GA服务器,您需要按照测量协议的规则格式化HTTP请求,这种格式化的HTTP请求就叫做测量协议请求,图1-54就是测量协议请求的样子.

图1-54 测量协议请求

测量协议请求由代理, 接口和加载数据组成,如图1-55所示。

图1-55 测量协议的构成

在浏览器查看测量协议请求的步骤,如图1-56所示。

  1. 打开Chrome浏览器。

  2. 打开一个部署有GA跟踪代码的站点。

  3. 按<F12>。

  4. 单击“Newwork”选项。

图1-56 查看测量协议

5、在搜索框输入“collect”搜索,右边的开发者串口您就可以看到测量协议的请求,如图1-57所示。

图1-57 测量协议请求

3.用户代理简介

用户代理是一串字符串,用于浏览器服务器向Web服务器发送数据时的区分标识。下面就是一个用户代理:

Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36

您可以再HTTP的请求中看到用户代理如图1-58所示.

图1-58 用户代理

4.传输数据简介

传输数据是只您通过测量协议发送给GA服务器的数据。也就是传输数据是已经按照测量协议规则格式化了个数据,图1-59所示就是一个传输数据的例子。

图1-59 传输数据

传输数据构成了URL的查询字符串,在问号的后面,传输数据可以包含多个参数,每一个参数都是键值对的形式。

(1)传输数据的类型

有两种传输类型,具体如下。

  • 单个Hits传输:传输数据只在一个Hits发送给GA

  • 多个Hits传输:传输数据在多个Hits发送给GA

注意

单个Hits传输不能大于8K,这种限额通常只有在使用增强型电子商务的时候才需要注意

(2)提交方式简介

提交表示是从哪里和怎么发送传输数据,下面图1-60就是一个提交的例子.

GET http://www.google-analytics.com/collect

图1-60 提交方式

(3)提交的构成

  • GET/POST方法 表示怎样发送传递数据。

  • GA服务器的路径和发送传输数据的路径。

  • URL的结束节点用于区分是单Hits发送还是多Hits发送。

5.测量协议的规则

测量协议遵循以下几个规则。

  • 格式化协议请求。

  • 传输数据有数据长度和格式要求。

  • 传输参数有数据长度和格式要求。

  • 部分参数可以一起发送,部分不能一起。

  • 部分参数需要要求特殊的Hits类型。

  • 要求键值对形式。

  • 有效的键

  • 有效的Hits类型。

  • 每个指有长度和格式要求。

  • 支持的数据类型。

  • 格式化提交方式。

简单地说就是按照测量协议的请求的格式发送数据。

6.如何使用测量协议

在使用测量协议之前,您需要做以下几件事情。

(1)让您的开发写程序将您需要的数据提取出来,如图1-61所示。

图1-61 推送数据

(2)将所需数据按照测量协议的格式组装,如图1-62所示。

图1-62 组装有效数据

(3)为了能成功发送数据给GA服务器,您还需要添添加HEEP请求的类型,请求中还需要包含用户代理,提交方式,传输的数据。如图1-63所示。

图1-63 发送给GA服务器

当GA接收到您的发送的HTTP请求的时候,它就会处理HTTP请求里面传输的数据。如果GA服务器成功处理传输数据,服务器将会返回200的状态给您,如图1-64所示。

图1-64 发送成功返回2XX状态

如果GA服务器处理传输数据不成功,也不会发送错误代码给您,图1-65就是这个处理的流程图。

图1-65 传输数据处理流程

7.测量协议的使用政策

根据Google发布的测量协议许可政策,您只能在下列情形下使用。

  • 您有来自合法渠道的权限去使用它。

  • 您不收集用户的个人隐私信息或可以识别特定个人的信息,如名字、邮箱地址。

  • 您必须给您收集的对象有明显的提示,让其知道它的数据被采集。

测量协议支持的数据类型:整形、字符串、布尔型和货币。

8.通过POST方法发送传输数据

您可以通过GET或POST方式发送传输数据,Google推荐使用POST方式,这样您可以发送尽可能多的数据给GA服务器,GA服务器的地址是https://www.google-analytics.com

如果您通过POST方式向GA发送数据,您需要将传输的数据按照URL编码,传输数据最大8191个字节;GET的最大2000个字节,按照下图1-66形式就可以向GA发送数据。

图1-66 发送数据格式

9.通过GET发放发送传输数据

如果您不能通过POST方式提交数据,那您可以通过GET方式提交数据,按照如图1-67格式。

图1-67 提交数据格式

10.如何防止被缓存的 HTTP GET 请求

在通过GET方式向GA服务器发送数据的时候,GET有可能被缓存,会导致请求不再唯一和从缓存检索后续的请求和发送给GA,为了防止这个,我们可以在传输数据的最后添加一个参数“z”,值是随机数,如图1-68所示。

图1-68 防止被缓存的格式

也就是:

https://www.GA服务器.com/collect?v=1&t=pageview&tid=UA-1029844-34&cid=c461d1ba-d341-499f-bc9e-673b67f2aa18&dh=mydemo.com& dp=%2Fhome&dt=testing%20page1111111%20tracking&z=12345

11.通过测量协议请求发送单Hits

为了通过测量协议发送单Hits给GA服务器,需要用“/colletc”作为传输的结尾,如图1-69所示。

图1-69用“/colletc”作为传输的结尾

也就是:

User-Agent:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36

POSThttps://www.GA服务器.com/collect?v=1&t=pageview&tid=UA-1029844-34&cid=c461d1ba-d341-499f-bc9e-673b67f2aa18&dh=mydemo.com& dp=%2Fhome&dt=testing%20page1111111%20tracking&z=12345

12.通过测量协议发送多Hits

用“/batch”作为传输的结尾可以发送多Hits,如图1-70所示。

图1-70发送多Hits结构

每个batch最多可以发送20个Hits,整个传输数据不能大于16k。

测量协议可以应用在:邮件打开跟踪、微信小程序跟踪、社交交互跟踪以及线下能联网的设备。

Last updated