2021-02-17 假期最后一天的思考

假期永远的不足,一转眼春节假期的最后一天了。这个假期叫Holiday,千万别跟Vacation弄混了,Holiday来源于圣经,本身Holy也是神圣的意思,而且据圣经记载,上帝前六日造世间万物,第七天休息。对于国人来讲这么神圣的一天就应该叫Holiday。感觉假期里也没干什么正经事,倒是花了点时间研究了一下MC20,MC=Maserati Corse,玛莎拉蒂的赛车制造部门,这意大利人造车,做服装,玩时尚,东方人很难比的上。因为这些事DNA里面的东西。这家伙一身的高科技,几千小时的风动和CFD测试(CFD是个参数用来预测涡凹风险来运转每个打开角度和工作条件)2.9秒破百,整个就是一个贴地飞行。而且不在使用法拉利的发动机,直接改用F1的平民版....


MC20

迫不及待打开招商银行网银(话说这个月活过亿,装机过亿的App真的好用),然后迅速坐回到电脑前,写点明天要干的事情,并告诉自己避免贪嗔痴(这都是修行之大忌,贪念需要用不净观对应对;一念嗔心起,百万障门开,用好自己的慈悲观;痴念,要用因果观。)做好当下的工作,让自己充满价值感。
2021年很重要的一项工作就是公司的资产信息化,为啥不说数字化,害怕跟区块链和数字货币搭上关系。公司的资产非常多,其中最具价值的一部分就是客户信息。分析客户的留存数据,就是以新客获取,老客转化为目的,顺带看看自己的公司那里没做好,用的是销售漏斗还是销售有漏洞。大多数公司跟客户的触达方式,无非就是主动和被动。所谓的主动就是通过各种营销工具(小程序,微信,App,公众号等),所谓被动,应管理要求而由销售人员进行的CRM数据录入,当然做风控,贷后呀,客服呀里面都会有触点数据。假设,我们的系统结构如下:


数据流向

因为基本上用的都是以InnoDB为存储引擎的Mysql,而且都是Row Based BinLog作为业务系统的事务型数据库,所以我们也选用了Canal,来完成数据的同步。还是简单提一句,关于这个阿里开源的项目,的确很方便,网上这张图解释了所有关于Canal。
Canal的样子

但是canal的数据同步不是全量的,而是增量。是基于binary log增量订阅和消费,以前用过都是当作数据库镜像或备份来用,而且恢复起来很方便。为啥是个增量同步,看看Canal的Event Parser就知道。


EventParser

本身Canal的内部结构如下图:
Canal结构

我们的老朋友ZK依然出现在各种场景中,Zk在这里就是做了HA,另外保证了Canal Client的节点有序性,同时通过Watcher的机制减少对主库的Dump的访问次数。
然后就是配置Kafka与Canal的链接。
canal.serverMode=kafka
canal.mq.servers = 192.168.1.105:9092
canal.instance.master.address=192.168.1.105:3306

然后自己实现一下你的Producer,Consumer。当然,你可以选择使用Flume这种代理的形式,或者使用Spark Streaming直接写代码,也是可以的,网上太多例子了。当然,在这个过程中,要仔细分析业务场景,比如说,CRM里面的数据,需要做相应的清洗,因为没有人会愿意把数据填写非常仔细,会有很多录入型的错误(“张先生,李小姐,高女士”,这还不说,电话都是“138000000”,录了意义也不大,但是由于流量池的销售线索属于销售自己,如果销售线索本身属于公司,还是可以进行要求的),CRM里面属于线索型数据,用来做营销指引或获客后的快速响应反馈效果还是不错的。业务系统中的数据,一般就是订单的数据,这是RFM的好原料;当然,在做用户信息化的过程,一定是梳理公司销售线,运营线,技术线的过程。需要SOP支撑,需要奖惩机制,需要SLA定义,需要后续强有力的客服服务体系。不论什么行业,都能找到高ARPU值的用户(是每用户平均收入 - Average Revenue Per User;ARPU注重的是一个时间段内运营商从每个用户所得到的利润)。风控系统的数据一般作为营销补充以及我们风控模型完善的内容。最后就是从Hive中拿到我们想要的数据,你必须做好你的指标体系中的数据定义,meta data, Principle Data,otherwise you will be lost very soon.


Hive

Hive这个Hadoop生态的老家伙,好用的不得了。屏蔽了繁琐的HDFS操作,Map-Reduce任务,给我们提供了非常优雅的API。这API简单到所有用Java 的都会:

val con: Connection = DriverManager.getConnection("jdbc:hive2://192.168.1.102/mytest")
val stmt: Statement = con.createStatement()
val res: ResultSet = stmt.executeQuery("show tables")
    while (res.next()) {
      println(res.getString(1))
    }

你还以用Spark的方式去操作Hive,也非常简单:

import java.io.File

import org.apache.spark.sql.{Row, SaveMode, SparkSession}

case class Record(key: Int, value: String)

val spark = SparkSession
  .builder()
  .appName("Spark Hive Example")
  .config("spark.sql.warehouse.dir", new File("spark-warehouse").getAbsolutePath)
  .enableHiveSupport()
  .getOrCreate()

import spark.implicits._
import spark.sql

// You can just do anything as you did in RDBMS
sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sql("SELECT * FROM src").show()

Hive的工作原理:


Hive工作原理

其实,所有的分布式数据库的工作原理也都差不多,等有空好好总结一下Hive, TiDB, ClickHouse。一定记住,不要让Hive充当另一个Mysql,不是说Mysql里面表结构是什么样,Hive里就要什么样。充分利用好Hive 里的数据模型:DB、Table,External Table,Partition,Bucket。由于本身Hive更倾向于数据仓库,找准自己公司对用户信息的要求,用户信息化一定帮你做好分层和用户的分类,如前文讲到的。积累半年,一定会有所不同。我们程序员也许做不到左老板说的难而正确的事儿,但做好该干的事情还是很有必要的。新的一年,对自己要有个交代。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容