课程大纲
Part 0:知识图谱基础
第一章:介绍
1.1 什么是知识图谱
1.2 知识图谱所涉及到的技术
1.3 知识图谱的应用场景
1.4 课程需要解决的业务问题:大数据风控
1.5 整体系统架构
1.6 课程结构:最小可用系统(MVP)到完整系统
Part 1:搭建最小可用的离线风控系统
第二章:Neo4j与APOC组件介绍
2.1 MySQL语句使用回顾
2.2 图数据库介绍:Neo4j
2.3 APOC组件的介绍
2.4 通过APOC把MySQL数据导入到Neo4j
第三章:Cypher语句使用
3.1 Cypher的查询
3.2 Cypher的修改、增加、删除
3.3 Neo4j的索引
3.4 Cypher的复杂查询
3.5 Cypher的路径检索(比如最短路径)
项目1:搭建最小可用系统 之(一)
1.基于给定的少量风控数据(包括3个关系表),把数据通过APOC组件导入到Neo4j
2.通过Cypher语句完成简单的查询
第四章:风控算法介绍
4.1 风控算法的评估
4.2 逻辑回归算法介绍
4.3 GBDT算法介绍
第五章:风控规则的制定与服务开发
5.1 风控规则的制定
5.2 风控规则的存储
5.3 风控模型的搭建
第六章:微服务介绍
6.1 什么是微服务
6.2 企业是如何应用微服务
6.3 Java常用微服务框架
6.4 规则引擎微服务开发
项目2:搭建最小可用系统 之(二)
1.利用Cypher编写不同的风控规则和模型
2.把结果以微服务的方式输出
Part 2:搭建完整的离线风控系统
第七章:非结构化数据(邮箱数据)的处理
7.1 知识图谱中常用的NLP算法介绍
7.2 文本预处理:分词、停用词过滤
7.3 命名实体识别
7.4 实体和关系的抽取
7.5 分类算法介绍
第八章:风控知识图谱设计
8.1 业务问题剖析
8.2 知识图谱的设计原则
8.3 知识图谱设计过程中常见的错误
第九章:实体(公司名)的消歧
9.1 常用的实体消歧技术
9.2 实现公司名字的消歧
第十章:Kafka消息队列介绍
10.1 环境搭建
10.2 生产者与消费者
10.3 消息订阅
10.4 Kafka Topic介绍
第十一章:数据的增量更新
11.1 增量更新的技术框架设计
11.2 环境搭建
11.3 工程开发
项目3:基于千万级数据的风控知识图谱搭建
1.观察并分析给定的千万级数据集
2.邮件数据的预处理,并通过自然语言处理技术自动对邮件内容加上标签,并存储在MySQL库中
3.根据知识图谱设计原则来设计合理的风控知识图谱
4.公司名的消歧
5.把数据批量导入到Neo4j中
6.模拟故障场景,利用Kafka实现数据的增量导入
7.设计有效的风控规则来构建风控模型
8.把模型结果利用微服务返回到业务系统中
Part 3:利用图计算引擎实现大规模图挖掘算法
第十二章:图挖掘算法
12.1 图挖掘算法介绍
12.2 图挖掘算法的应用场景
12.3 常见的社区挖掘算法
12.4 LOUVAIN算法介绍以及实现
12.5 标签传播算法介绍以及实现
12.6 在小数据集上实现图挖掘算法
第十三章:图数据库:Spark GraphX
13.1 Spark GraphX的应用场景介绍
13.2 GraphX架构介绍
13.3 环境搭建
13.4 GraphX的API介绍
13.5 Neo4j数据导入到GraphX中
13.6 在GraphX中实现图挖掘算法
项目4:基于GraphX的挖掘算法实现和模型训练
1.搭建Spark Graph环境,并把Neo4j数据导入进去
2.业务问题的定义
3.在GraphX上实现社区挖掘算法
4.整合社区挖掘算法结果和规则输出的结果
5.把结果以微服务方式返回到业务系统
Part 4:搭建完整的实时+离线风控系统
第十四章:实时知识图谱风控系统
14.1 实时风控系统的框架设计
14.2 Canal的应用场景
14.3 Canal的框架介绍
14.4 Canal的环境搭建
14.5 实时代码的工程开发
14.6 Neo4j Driver的实现
14.7 实时风控系统与业务系统通信
项目5:实时知识图谱风控系统开发
1.Canal client的功能实现
2.Neo4j Driver工程开发
3.Kafka通信系统开发