数据分析之用户画像

摘要

用户画像，即用户信息标签化,是通过收集用户的社会属性、消费习惯、用户偏好、生活习惯、用户行为等各个维度的数据而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。

标签化就是数据的抽象能力。

互联网下半场精细化运营将是长久的主题
用户是根本，也是数据分析的出发点

用户画像可看作企业应用大数据的根基，是定向广告投放与个性化推荐的前置条件，为数据驱动运营奠定了基础。

而用户画像可以帮助大数据“走出”数据仓库，针对用户进行个性化推荐、精准营销、个性化服务等多样化服务，是大数据落地应用的一个重要方向。

用户画像的3种标签类型

用户画像建模其实就是对用户“打标签”，从对用户打标签的方式来看，一般分为3种类型：①统计类标签；②规则类标签；③机器学习挖掘类标签。

下面我们介绍这3种类型的标签的区别：

统计类标签

这类标签是最为基础也最为常见的标签类型，例如，对于某个用户来说，其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。
规则类标签

该类标签基于用户行为及确定的规则产生。例如，对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中，由于运营人员对业务更为熟悉，而数据人员对数据的结构、分布、特征更为熟悉，因此规则类标签的规则由运营人员和数据人员共同协商确定；
机器学习挖掘类标签

该类标签通过机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如，根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

在项目工程实践中，一般统计类和规则类的标签即可以满足应用需求，在开发中占有较大比例。机器学习挖掘类标签多用于预测场景，如判断用户性别、用户购买商品偏好、用户流失意向等。一般地，机器学习标签开发周期较长，开发成本较高，因此其开发所占比例较小。

用户画像的准则

统一化：统一标识用户ID，如使用手机号、微信号、微博等
标签化：给用户打标签，对用户行为进行理解
业务化：由用户标签，指导用户关联

用户唯一标识：用于用户行为的串联

对用户标签化，可以进行用户消费行为分析

用户标签：基础信息如性别、年龄、地域等
消费标签：消费习惯、购买意向、是否对促销敏感等
行为标签：时间段、频次、访问路径等
内容分析：页面停留时长、内容浏览，分析用户感兴趣的内容

因此用户画像是现实世界中的用户的数学建模。

当得到了精准的用户画像，那么就可以为企业更精准的解决问题，业务推荐等。

用户生命周期

获客：拉新，精准营销获取客户，找到优势的宣传渠道
粘客：场景运营，个性化推荐，提高用户使用频率，比如说可以通过红包、优惠等方式激励优惠敏感人群
留客：流失率的预测，降低流失率，顾客流失率降低 5%，公司利润提升 25% ~ 85%

用户画像建模过程

按照数据流处理阶段划分用户画像建模的过程，分为三个层，每一层次，都需要打上不同的标签。

数据层：用户消费行为的标签。打上事实标签，作为数据客观的记录
算法层：透过行为算出的用户建模。打上模型标签，作为用户画像的分类
业务层：指的是获客、粘客、留客的手段。打上预测标签，作为业务关联的结果

标签化的作用

数据挖掘的最终目的不是处理 EB 级别的大数据，而是理解、使用这些数据挖掘的结果。对数据的标签化能让我们快速理解一个用户、一个商品，乃至一个视频内容的特征，从而方便我们去理解和使用数据。而数据标签化实际上是考验我们的抽象能力：如何将繁杂的事物简单化？

标签体系的层次性

目前主流的标签体系都是层次化的，如下图所示：

首先标签分为几个大类，每个大类下进行逐层细分。在构建标签时，我们只需要构建最下层的标签，就能够映射到上面两级标签。上层标签都是抽象的标签集合，一般没有实用意义，只有统计意义。例如我们可以统计有人口属性标签的用户比例，但用户有人口属性标签本身对广告投放没有任何意义。

标签构建的优先级

构建的优先级需要综合考虑业务需求、构建难易程度等，业务需求各有不同，这里介绍的优先级排序方法主要依据构建的难易程度和各类标签的依存关系，优先级如下图所示：

我们把标签分为三类，这三类标签有较大的差异，构建时用到的技术差别也很大。第一类是人口属性，这一类标签比较稳定，一旦建立很长一段时间基本不用更新，标签体系也比较固定；第二类是兴趣属性，这类标签随时间变化很快，标签有很强的时效性，标签体系也不固定；第三类是地理属性，这一类标签的时效性跨度很大，如GPS轨迹标签需要做到实时更新，而常住地标签一般可以几个月不用更新，挖掘的方法和前面两类也大有不同，如下图所示：

用户画像8大系统模块及解决方案

搭建一套用户画像方案整体来说需要考虑8个模块的建设，如下图所示。

用户画像基础：需要了解、明确用户画像是什么，包含哪些模块，数据仓库架构是什么样子，开发流程，表结构设计，ETL设计等。这些都是框架，大方向的规划，只有明确了方向后续才能做好项目的排期和人员投入预算。这对于评估每个开发阶段重要指标和关键产出非常重要。
数据指标体系：根据业务线梳理，包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。
标签数据存储：标签相关数据可存储在Hive、MySQL、HBase、Elasticsearch等数据库中，不同存储方式适用于不同的应用场景。
标签数据开发：用户画像工程化的重点模块，包含统计类、规则类、挖掘类、流式计算类标签的开发，以及人群计算功能的开发，打通画像数据和各业务系统之间的通路，提供接口服务等开发内容。
开发性能调优：标签加工、人群计算等脚本上线调度后，为了缩短调度时间、保障数据的稳定性等，需要对开发的脚本进行迭代重构、调优。
作业流程调度：标签加工、人群计算、同步数据到业务系统、数据监控预警等脚本开发完成后，需要调度工具把整套流程调度起来。
用户画像产品化：为了能让用户数据更好地服务于业务方，需要以产品化的形态应用在业务上。产品化的模块主要包括标签视图、用户标签查询、用户分群、透视分析等。
用户画像应用：画像的应用场景包括用户特征分析、短信、邮件、站内信、Push消息的精准推送、客服针对用户的不同话术、针对高价值用户的极速退货退款等VIP服务应用。

一款用户画像产品是什么样的？

开发画像后的标签数据，如果只是“躺在”数据仓库中，并不能发挥更大的业务价值。只有将画像数据产品化后才能更方便业务方的使用。这里简要介绍用户画像产品化后，主要可能涵盖到的功能模块，以及这些功能模块的应用场景。

画像产品按常见的功能来看，主要包括标签视图与即时查询，用户分群，用户人群透视分析，对用户从事件、留存、漏斗、分布等多维度展开的深入交互式分析等模块。下面详细介绍画像的产品形态。

标签视图与查询

标签视图与查询功能主要面向业务人员使用，如下图所示。

在标签视图版块中，层级化地展示了目前已经上线使用的全部用户标签。用户可以层级化地通过点击标签，查看每个标签的详细介绍。

在上图中，当点击“用户属性”这个一级类目，可进入到“自然性别”“购物性别”“用户价值”等二级类目，点击“自然性别”二级类目，可看到展开的“男性”“女性”三级标签，进一步点击三级标签“男性”或是“女性”，可以进入查看该标签的详细介绍，如下图所示。

在该标签详情页中，可以查看人口属性这一个类目下面的各个标签覆盖用户量情况。

每天通过对标签的覆盖用户量进行监控，可以作为预警使用。例如：某天某个标签的覆盖用户量与前一天相比出现了很大比例的波动，需要排查该标签当日ETL作业是否出现异常或是否因业务上的操作导致标签量级的波动。

在标签查询模块中，通过输入用户对应的userid或cookieid，可以查看该用户的属性信息、行为信息、风控属性等多维度的信息，从多方位了解一个用户的特征。

用户人群功能

用户人群功能主要面向业务人员使用。产品经理、运营、客服等业务人员在应用标签时，可能不仅仅只查看某一个标签对应的人群情况，更多地可能需要组合多个标签来满足其在业务上对人群的定义。

例如：组合“近30日购买次数”大于3次和“高活跃”“女性”用户这三个标签进行定义目标人群，查看该类人群覆盖的用户量，以及该部分人群的各维度特征。下面介绍产品上的实现方式。

在“用户人群”版块下，点击“新建人群”或编辑之前已添加的分组，进入详情页可自定义涵盖某些标签的人群。

在自定义编辑用户分群时，对于有统计值类型的标签，可以自定义筛选该标签的取值范围，如上图中“近30日购买次数”标签，业务人员可筛选该标签的数值。对于分类型标签，如上图中“活跃度”标签，业务人员选中该标签即可圈出包含该标签的用户。

“人群名称”和“人群描述”表单用于业务人员描述该人群在业务上的定义，方便后续继续查看、应用该人群。

参考网址

https://blog.csdn.net/zw0pi8g5c1x/article/details/105212676