本文将用较长篇幅,从数据收集、数据处理、数据分析与管理、数据应用四大部分,来简要阐述一下构建企业级 DMP 系统的全生命周期流程,以及整理归纳出其中的知识要点。
一、数据收集
基础数据源的收集是做好后期数据分析、管理和应用的基石。因为如果没有提前做好数据采集,后期想做分析时也没有数据可做;如果数据源本身出了问题,那么后面做的所有工作都是没有意义的;另外,注重数据的采集工作,才能在后期数据使用过程中出现异常情况时,更好的追本溯源。
那么,可以被 DMP 利用的数据源有哪些呢?
1)站内与销售数据
指用户在广告主官网、EDM、电商网站或 APP 中产生的行为数据,往往对应着非常明确的目标用户及其兴趣。例如:站内流量、搜索、浏览、比价、加入购物车、购买、页面停留时间、注册情况、留言等数据。
2)网络行为数据
指记录用户在网页端(PC+Mobile)一切冲浪行为的数据。这类数据的核心是:描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类行为,从而了解受众行为偏好。包括:用户 ID、用户行为、用户设备、IP、URL、地理位置等数据。
这里需要提一下,记录用户在 PC 端行为的是 cookie;而 cookie 技术在移动端并不适用,这时要使用 IMEI(安卓设备)或 IDFA(苹果设备)来标识用户信息。
3)社交数据
指用户在微信、微博、QQ、天涯等社交网络中产生的数据。包括:社交账号数据、受众属性数据(性别、年龄、学历等)、行为兴趣数据等。
4)投放数据
指在(DSP)广告投放过程中产生的数据。如受众定向数据、曝光数据、点击数据、转化数据、创意数据、成本花费数据等,能方便营销者根据实时的反馈数据及时优化调整投放策略和预算配比。
5)第三方数据
指第三方独立数据供应商提供的数据,包括 BAT 数据、运营商数据、高质量媒体数据、第三方监测平台数据、垂直领域平台数据等。
6)线下数据
指企业拥有的 CRM 或市场调研等数据。
以上各类数据对广告效果的意义不尽相同:随着用户主动意图的提升和更靠近转化的行为,相应的数据价值也随之增大。而在实际操作中,营销者不一定要全部接入以上数据,而是应该结合自己的业务、商业目标,和自身实力,在投入可控的范围内整合有效、高价值的数据。
那么,如何进行数据收集呢?
1)加挂代码
是指在网站、网页或者广告展示处等多个阵地埋置一小段 Javascript 代码(一般形式),进而让相应的用户数据实时传送到 DMP 系统中。
2)爬虫获取
是一种按照一定的规则,自动地、高效地抓取到网络上所有公开的、你需要的数据的技术。如美数独家重磅产品 AdVision,可通过爬虫技术,攫取 95% 以上的网络页面,采集线上广告投放数据,如广告内容、投放素材、媒体类型、广告位尺寸、投放时间等;还能对网页、BBS、微博、微信等页面的 UGC 关键字进行抓取,获取相关受众行为偏好数据,然后实时将这些爬虫数据接入到 DMP 中。
3)开放 API 接口
DMP 通常不能作为一个独立、封闭的系统存在,其需要提供丰富、开放的 API 接口。这当然也包括在数据收集端开放接口!这些接口的开放,就意味着第三方数据、线下数据等都可以无缝接入到 DMP 系统中。
二、数据处理
数据收集的过程是把来源于不同渠道的海量数据(跨屏、跨设备、跨线上线下)整合到 DMP 统一的数据库中。但这些基础数据往往是非结构化、非关系型的。因此,为了进一步挖掘这些数据的最大价值和生产力,DMP 就要把这些多源数据,依据统一的数据标准化规范和流程,进行有效的清洗、结构化处理、脱敏保护、打通整合,即数据处理过程。
1)数据清洗
数据清洗,是整个数据分析过程中不可缺少的重要环节,其结果质量直接关系到模型效果和最终结论。数据清洗包括:去除/补全有缺失的数据;去除/修改格式或内容错误的数据;去除/修改逻辑错误的数据;去除有明显错误的无用和重复数据等,最终使“脏”数据变为“干净”数据。
而数据清洗的方法有多种,通常有:人工检查实现、通过专门编写应用程序实现、利用概率统计学原理实现、计算机自动执行算法实现等,这里不一一详解,营销者应该根据相关的业务规则合理选择。
2)数据结构化/标准化处理
是指 DMP 能够提供统一的数据结构化/标准化规范和流程,将来源于不同渠道、不规则的、不同使用方式的、复杂冗长的原始数据,在一致的数据描述下进行整合和关联,进而划分为固定的基本组成要素,可通过一个或多个二维表来表示。经过结构化/标准化的数据具有一定的逻辑性、精确度高、统计方便、操作简单、可迅速建模分析等特点,在需要对大量的用户进行行为分析、用户画像时意义重大。
3)数据脱敏保护
指对某些用户敏感信息或私密性信息,通过脱敏规则进行数据的去隐私化或变形,最终实现数据的可靠保护。常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、密码类、交易日期、交易金额、疾病等。
常见的数据脱敏算法包括但不限于:
*Hiding算法:将数据替换成一个常量。如:500→0;
*Hashing算法:将不定长度的数据映射为定长hash值。如:张三丰→123;李四→456;
*Truncation算法:将数据尾部截断,只保留前半部分。如:010-66666666→010;
*Mask算法:数据长度不变,但只保留部分数据信息。如:13011231555→130****1555;
*Floor算法:数据或是日期取整。如:20170213 12:31:45→20170213
4)数据映射(ID Mapping)
指通过各种技术手段、算法把碎片化、多元化的数据全部串联起来,消除数据孤岛,最终识别这些数据同属于一个用户,提供一个用户的完整信息视图。可以说,没有 ID Mapping,程序化交易就变成了盲目投放,它的实时竞价、精准投放、低成本的优势也就不存在了。
要如何实现 ID Mapping 呢?以美数为例,其作为大数据服务提供商,与运营商、互联网平台紧密合作的基础上,通过一系列算法,将设备号、Wifi、用户账号与 cookie 进行强关联,最终真正实现设备与网络、用户与设备、用户与网络的多对多打通,实现了跨屏、跨线上线下的数据同源。
当然,概率论方法也是一种数据打通的方式。即借鉴多种匿名的数据信号,比如 IP 地址,设备类型,浏览器类别,地域以及操作系统来创建设备之间的统计学意义上的关联。但这种方式准确率比较低。
三、数据分析与管理
数据分析与管理这一步骤是 DMP 系统的核心功能,其能从数据背后获得深刻的“人”的洞察,进而提取并挖掘出真正有用的数据信息指导应用,充分发挥数据的价值。
那么,DMP 是如何对数据进行分析与管理,将数据变成“人”的呢?
1)数据分类是基础
当 DMP 系统中汇聚、积累了大量有效数据之后,DMP 应该具备依据各种逻辑快速、高效地分类并分析这些数据的功能。比如,分析购买过品牌产品的这类人群属性,就可以大体勾勒出这类人群是偏男性还是女性,以哪个年龄段为主,有什么兴趣爱好等。当然,还有其他自定义分类方式。可以说,这种基于企业自身业务特点和商业逻辑的分类操作,是后续创建人群细分,进行人群深入洞察的基础,更将直接影响到品牌的广告投放策略和最终的营销效果。
那么,如何进行数据分类呢?聚类算法是很好的解决方式!即没有事先预定的类别,类别数也不确定。只是根据“物以类聚”的原理,将具有相似特征和行为的用户数据聚成一类。其是进行用户数据分群处理的有效工具。
2)人群洞察(画像)是关键
将数据映射到相应的类别中以后,DMP 就要开始进一步对这些不同类别数据背后的“人”进行分析和深入洞察了,即完成人群画像操作。比如,绘制历史购买过产品的人群画像。
人群画像,指用数据来描述出某一类人群的特征。可以说,人群画像承载了营销者的两大业务目标:一是如何准确了解现有目标用户并制定营销策略;二是如何在茫茫人海中拓展新客群,为品牌带来更多商机和利润。
提到人群画像,你可能还听过受众/个体画像。这两者意义并不完全相同,千万不要混淆。但是,人群画像与受众/个体画像具有强关联,即人群画像的基础在于对个体的准确描述。如果个体描述不准确,人群画像也会有偏差。而对每一个个体描述的过程,我们称之为“打标签”的过程,即通过对用户所有数据分析而得到的高度精炼的特征标识。
那么,DMP 如何为受众贴上标签,完成精准画像呢?
2.1结合静态受众数据打标签
静态受众数据是指基本保持稳定的数据,主要包括人口属性类数据,如性别、年龄、学历、住址等;社会属性类数据,如职业等;财富属性类数据以及家庭情况数据等等。这些静态数据从哪里来?可能从网站注册信息、CRM 或市场调研等日常积累中来。如果前期数据收集工作做到位,则可以直接利用这些 PII(Personally Identifiable Information),即个人识别信息来为受众打上标签。
此外,DMP 除了根据静态受众数据直接得到用户标签,还可以通过相关技术和算法对这些基础数据信息进行处理、分析和推断,从而得到受众其他标签。比如根据出生日期可以推算出星座、生肖、性格等;再比如根据家庭地址在高端住宅区,为此人打上“高消费人群”标签等。
当然,出于法律保护和受众隐私安全问题,有的企业无法获得真实、公开的 PII 信息,这时,如何判断受众的静态属性呢?DMP 可以应用诸如 SVM(支持向量机)等判别分类的算法,并结合训练和学习完的受众样本,把数据库中的未分类数据项,根据特征或属性映射到给定类别中的某一类中。但不得不承认,这种操作方式需要强大的大数据技术和算法做支撑,执行起来难度系数较高,且存在不准确性风险。
2.2结合动态受众数据打标签
动态受众数据是指随着用户时间、地点、行为轨迹等的变化而常常变化的数据,主要是指用户网络行为类数据,如浏览、点击、搜索、购买等,或社交类数据等。DMP 通过对这些动态数据进行分析与挖掘,能将用户信息标签化,进而形成完整的人物画像。
其中,NLP(自然语言处理)是 DMP 系统中常见的能够准确识别受众所浏览网页的主题内容或者一个网站主题的常见算法。但在这里暂不赘述 NLP 原理,而是举例另外一种和 NLP 功能类似的技术——美数“页面关键词提取”技术。其基于全方位整合用户网上浏览页面行为以后,通过正文提取(利用“基于行块分布函数的通用网页正文抽取”算法)、分词处理(利用“逆向最大匹配算法”)、关键词提取(利用“TF-IDF,一种用于资讯检索与数据挖掘的常用加权技术算法)这三大流程步骤,来提取关键词高度概括页面主题内容,然后对受众的全部页面关键词标签进行加权归一化处理,量化出每个关键词标签对于受众的重要程度,最终细粒度地推断、刻画出受众对某件事、某领域的兴趣程度,形成受众画像。
至此,DMP 完成了对受众/个体的画像。紧接着,要通过聚类模型和算法,将含有相似关键词标签的个体用户聚合在一起,并通过加权归一处理,最终形成某一类目标人群画像,如历史购买过产品的人群画像。
四、数据应用
一旦应用企业级 DMP 系统完成了数据的收集、处理、分析工作,并通过建模锁定了目标人群之后,DMP 就要正式发挥对企业的真正价值了,即将数据实际落地应用!
那么,DMP 有哪些应用,能够为企业带来什么帮助呢?
1)相似人群扩散
即根据数据分析与管理流程下绘制的目标人群画像,DMP 通过 Look-alike 算法自动发现并找到与目标人群特征相似度最高的人群。
2)人群定向投放
即将 DMP 无缝对接到 DSP,并从人口属性、行为兴趣、时间地点、关键词、媒体类型等多个维度创建投放定向设置(Campaign),从而有效区隔和精准定位到目标受众;并为每个 Campaign 进行合理的预算配比。
3)衡量广告效果
对于多 Campaign 所产生的广告投放效果,DMP 应该能具备实时统计和观测的功能,并提供详尽的数据报表,以便运营人员可以及时优化、调整营销策略和预算配比。
4)访客召回营销
即借助 DMP 实时追踪用户的访问行为,并通过算法模型洞察其兴趣程度,然后结合重定向技术轻松实现对高兴趣人群的召回营销,重新唤醒其购买欲望。
5)规划渠道分发
DMP 除了能分析出每个 Campaign 效果以外,还应该能获得各媒体渠道的多维度数据表现,并建立归因分析模型,客观的评价媒体渠道对于最终转化的贡献,用数据指导媒介策略。
6)指导创意内容
广告是否有效,除了在对的时间、地点,找到对的人以外,更要“说对话”!而 DMP 可以通过数据了解“人”的兴趣爱好,并洞察其属于哪一消费阶段(购买前、中、后),从而用数据来分析出哪些创意更吸引眼球,进行个性化广告推荐;并且,还能用数据分析结合 DCO(动态创意优化)技术,为消费者动态展示产品创意的同时,智能推荐强相关产品及其创意,挖掘和匹配消费者多个兴趣点。
结语
数据是数字营销的根基与命脉!如今,营销者们正面临着一场寻找、定位、吸引、留存、扩散关键受众的全方位军备竞赛。因此,做自有 DMP 的先行者,拥有一个全生命周期的、强大的专属 DMP 平台,将助力营销者以量的积累推动质的飞跃,使品牌和产品最终在喧嚣的市场中脱颖而出,决胜数字营销!