读《大数据之路：阿里巴巴大数据实践》有感

日志采集的挑战
数据采集面临的主要挑战已不是日志采集技术本身，而是如何实现日志数据的结构化和规范化组织，实现更为高效的下游统计计算，提供符合业务特性的数据展现，以及为算法提供更便捷、灵活的支持等方面。
规范制定——元数据注册——日志采集——自动化计算——可视化展现

3、数据同步

3.1 数据同步方式

直连同步、数据文件同步、数据库日志解析同步

直连同步
直连同步是指通过定义好的规范接口API和基于动态链接库的方式直接连接业务库，如ODBC/JDBC等规定了统一规范的标准接口，不同的数据库基于这一套标准接口提供规范的驱动，支持完全相同的函数调用和SQL实现。
这种方式配置简单，实现容易，比较适合操作型业务系统的数据同步。但是业务库直连的方式对源系统的性能影响较大，当执行大批量数据同步时会降低甚至拖垮业务系统的性能。如果业务系统采用主备策略，从备库抽取数据，避免影响。数据量较大时，采取这种抽取方式性能较差，不太适合从业务系统到数据仓库系统的同步。
数据文件同步
数据文件同步通过约定好的文件编码、大小、格式等，直接从源系统生成数据的文本文件，由专门的文件服务器，如FTP服务器传输到目标系统后，加载到目标数据库系统中。
优点：简单实用。
缺点：通过文件服务器上传和下载可能会造成丢包和错误，为了确保数据文件同步的完整性，需要校验文件，校验文件记录数据文件的数据量和文件大小等。文件传输之前对文件进行压缩，解压缩，加密和解密，可以大大提高文件传输效率和安全性。
数据库日志解析同步
大多数主流数据库都是实现了日志文件进行系统恢复，日志文件信息丰富，数据格式稳定，可以通过解析日志文件获取发生变更的数据。
优点：数据库日志解析同步方式可以实时和准实时的同步，延迟可以控制在毫秒级别，并且对业务系统的性能影响较小。目前广泛应用于从业务系统到数据仓库系统的增量数据同步应用中。

7 数据挖掘

数据挖掘过程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用、效果反馈等环节。
数据中层分为特征层（Featural Data Mining Layer, FDM）、中间层、应用层(Application-oriented Data Mining Layer, ADM)，其中中间层分为个体中间层(Individual Data Mining Layer, IDM)、关系中间层(Relational Data Mining Layer, RDM)。

阿里巴巴数据挖掘中台.png

不同数据层的作用的区别：

FDM层：用于存储在模型训练前常用的特征指标，并进行统一的清洗和去燥处理，提升机器学习特征工程环节的效率。
IDM层：个体挖掘指标中间层，面向个体挖掘场景，用于存储通用性强的结果数据，主要包含商品、卖家、买家、行业等维度的个体数据挖掘的相关指标。
RDM层：关系挖掘指标中间层，面向关系挖掘场景，用于存储通用性强的结果数据，主要包含商品间的相似关系、竞争关系、店铺间的相似关系、竞争关系等。
ADM层：用来沉淀比较个性化偏应用的数据挖掘指标，比如用户偏好的类目，品牌等，这些数据已经过深度的加工处理，满足某一特点业务或产品的使用。

常见数据挖掘应用：

个体挖掘应用
- 用户画像
- 用户身份&同人识别
- 业务指标预测
- ID反作弊
关系挖掘应用
- 相似关系挖掘
- 竞争关系挖掘
- 推荐系统

7.4.1 互联网反作弊

反作弊方向

账户/资金安全与网络欺诈防控
非人行为和账户识别
虚假账单与信用炒作识别
广告推广与app安装反作弊

反作弊方法

基于业务规则的方法
基于监督学习的方法
基于无监督学习的方法

最后编辑于：2019.03.13 23:49:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,390评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,821评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,632评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,170评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,033评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,098评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,511评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,204评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,479评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,572评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,341评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,213评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,576评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,893评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,171评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,486评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,676评论 2赞 335

读《大数据之路：阿里巴巴大数据实践》有感

3、数据同步

3.1 数据同步方式

7 数据挖掘

7.4.1 互联网反作弊

推荐阅读更多精彩内容