- 日志采集的挑战
数据采集面临的主要挑战已不是日志采集技术本身,而是如何实现日志数据的结构化和规范化组织,实现更为高效的下游统计计算,提供符合业务特性的数据展现,以及为算法提供更便捷、灵活的支持等方面。
规范制定——元数据注册——日志采集——自动化计算——可视化展现
3、数据同步
3.1 数据同步方式
直连同步、数据文件同步、数据库日志解析同步
直连同步
直连同步是指通过定义好的规范接口API和基于动态链接库的方式直接连接业务库,如ODBC/JDBC等规定了统一规范的标准接口,不同的数据库基于这一套标准接口提供规范的驱动,支持完全相同的函数调用和SQL实现。
这种方式配置简单,实现容易,比较适合操作型业务系统的数据同步。但是业务库直连的方式对源系统的性能影响较大,当执行大批量数据同步时会降低甚至拖垮业务系统的性能。如果业务系统采用主备策略,从备库抽取数据,避免影响。数据量较大时,采取这种抽取方式性能较差,不太适合从业务系统到数据仓库系统的同步。数据文件同步
数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如FTP服务器传输到目标系统后,加载到目标数据库系统中。
优点:简单实用。
缺点:通过文件服务器上传和下载可能会造成丢包和错误,为了确保数据文件同步的完整性,需要校验文件,校验文件记录数据文件的数据量和文件大小等。文件传输之前对文件进行压缩,解压缩,加密和解密,可以大大提高文件传输效率和安全性。数据库日志解析同步
大多数主流数据库都是实现了日志文件进行系统恢复,日志文件信息丰富,数据格式稳定,可以通过解析日志文件获取发生变更的数据。
优点:数据库日志解析同步方式可以实时和准实时的同步,延迟可以控制在毫秒级别,并且对业务系统的性能影响较小。目前广泛应用于从业务系统到数据仓库系统的增量数据同步应用中。
7 数据挖掘
数据挖掘过程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用、效果反馈等环节。
数据中层分为特征层(Featural Data Mining Layer, FDM)、中间层、应用层(Application-oriented Data Mining Layer, ADM),其中中间层分为个体中间层(Individual Data Mining Layer, IDM)、关系中间层(Relational Data Mining Layer, RDM)。
不同数据层的作用的区别:
- FDM层:用于存储在模型训练前常用的特征指标,并进行统一的清洗和去燥处理,提升机器学习特征工程环节的效率。
- IDM层:个体挖掘指标中间层,面向个体挖掘场景,用于存储通用性强的结果数据,主要包含商品、卖家、买家、行业等维度的个体数据挖掘的相关指标。
- RDM层:关系挖掘指标中间层,面向关系挖掘场景,用于存储通用性强的结果数据,主要包含商品间的相似关系、竞争关系、店铺间的相似关系、竞争关系等。
- ADM层:用来沉淀比较个性化偏应用的数据挖掘指标,比如用户偏好的类目,品牌等,这些数据已经过深度的加工处理,满足某一特点业务或产品的使用。
常见数据挖掘应用:
- 个体挖掘应用
- 用户画像
- 用户身份&同人识别
- 业务指标预测
- ID反作弊
- 关系挖掘应用
- 相似关系挖掘
- 竞争关系挖掘
- 推荐系统
7.4.1 互联网反作弊
反作弊方向
- 账户/资金安全与网络欺诈防控
- 非人行为和账户识别
- 虚假账单与信用炒作识别
- 广告推广与app安装反作弊
反作弊方法
- 基于业务规则的方法
- 基于监督学习的方法
- 基于无监督学习的方法