优劣势分析
链接:http://47.92.89.223:8089/doc.html
使用建模工具API
能够帮助我们做什么?
优势
- 统一整个数仓的字段命名
- 沉淀行业常用字段名称&标准词根
- 结合在线mapping文档快速生成可执行的DDL(建表)语句,帮助我们在创建模型表时提升我们的效率
- 结合在线mapping文档快速生成可执行的DML()语句,帮助我们在使用SQL开发模型时编码规范,同样能够帮助我们在日常模型开发工作中进行效率提升(目前功能还需要完善)
- 结合在线mapping文档快速生成DQC()可执行SQL语句,帮助我们提效(研发中)
- 管理日常设计开发的数据模型,便于后期数据治理(研发中)
劣势
- 分词翻译准确率达不到100%,能够达到75%左右
- 需要沉淀大量的各行业标准词根
- DML自动生成不能覆盖100%场景的SQL和引擎
标准字段相关接口
标准字段生成
输入 标准化字段中文注释,服务端返回标准字段英文字段名称,该接口支持批量生成。
接口位置
标准字段相关接口 ----> 标准字段生成
调用示例
假设你拿到一张表的数据字典,应该先对这张表的字段中文注释进行标准化以至于翻译出来的结果更加的准确,比如,我现在有一张表的数据字典,如下:
第一步先将源表的字段中文注释进行标准化,如上图左侧
批量复制标准化后的字段中文注释
-
找到 "标准字段相关接口 ----> 标准字段生成" 接口进行调试,然后将复制的需要生成的字段中文注释粘贴到 text 对应的参数值 input框中,然后发送请求到服务端,稍等片刻等待服务端返回结果
-
将相应内容中的数据复制到 excel 通过预先写好的公式进行字符串按照 "|" 切割,取第三列值即可
标准字段生成(包含分词)
输入 标准化字段中文注释,服务端返回分词结果以及每个词根对应的英文名称&顺序拼接后的字段英文名称,该接口支持批量生成。
接口位置
标准字段相关接口 ----> 标准字段生成(包含分词)
调用示例
假设我们现在需要对 "是否评审" 这个字段生成标准的英文名称,那么我们只需要调用如下接口即可:
如上图所示,"是否评审" 这个中文注释被分成了两个词,"是否" + "评审" ,这两个词我们将它称为 "标准词根",然后会将这两个词根对应的英文名称进行顺序拼接,如需要查询标准词根请使用 标准词根查询接口 。
自定义分词演示
基于上述案例,如果我们需要自定义分词方式,比如:"是否评审" 这个字段默认分成了 "是否" + "评审",现在我们需要自定义让程序分成一个词 "是否评审" 的话,这时候我们需要结合 "自定义数据元 ----> 用户词典插入" 接口完成,具体操作方式如下:
插入成功数据元之后,我们再调用一次 "标准字段生成(包含分词)" 接口,看"是否评审" 这个数据元是否生效,如下图:
如上图我们发现已经生效了,这时候分成了一个词,但是英文字段名称不一致,之前两个词时结果是 "is_review",而分成一个词时结果是 "whthr_rvw" 是因为 "是否评审" 这个词根的英文名称是按照程序默认规则生成的,不是那么的准确,所以我们需要对这个词根进行评审,评审过后对该词根进行修改,这时候需要调用 "标准词根相关接口 ----> 修改词根" 接口对 "是否评审" 词根进行修改,修改步骤如下:
修改完成之后,我们再调用一次 "标准字段生成(包含分词)" 接口,结果如下:
如上图所示就成功了,这样我们就完成了一次 自定义分词以及 词根评审 流程。
修改标准字段
接口位置
标准字段相关接口 ----> 修改标准字段
调用示例
- 按照要求填写接口入参
- chnsName:标准字段中文注释
- engName:标准字段英文名称(评审过后)
- 发送请求至服务端
- 等待服务端返回结果,200代表更新成功,再次调用 "标准字段生成" 接口就是更新过后的英文名称了。
标准字段批量生成(偶尔使用)
TODO
表名&数据元&词根&翻译生成接口(废弃)
TODO
模型表相关接口
模型DDL
该接口需要结合飞书在线文档,输入文档URL链接和文档sheet页名称,指定表引擎(目前支持gp、pg、hive引擎)
接口位置
模型表相关接口 ----> 模型DDL
调用示例
- 填写飞书在线excel文档的URL链接,以及模型表对应的sheet页名称,并且指定表引擎
- 发送请求到服务端,这里注意有时候会因为飞书接口导致超时的错误,重新发送请求即可
- 等待片刻即可返回DDL语句
注意: 这里的飞书excel都是标准化过的,必须按照模版格式才能正确生成DDL
模型DML(仅支持Hive引擎)
接口位置
模型表相关接口 ----> 模型DML
调用示例
- 填写飞书在线excel文档的URL链接,以及模型表对应的sheet页名称,并且指定表引擎
- 发送请求到服务端,这里注意有时候会因为飞书接口导致超时的错误,重新发送请求即可
- 等待片刻即可返回DML语句,全选复制至数开平台执行即可
标准词根相关接口
标准词根查询(经常使用)
支持批量查询,多个词根之间使用 "空格符号" 进行分割。
接口位置
标准词根相关接口 ----> 查询词根
调用示例
- 在调式参数rootName对应的参数值输入框输入你想要生成的标准字段中文注释,如果需要生成多个标准字段可以使用空格符进行隔开即可,举例:"是否 评审"
- 点击发送请求按钮
- 等待服务端返回结果即可,如遇到报错请跟作者进行反馈
如上图所示,接口返回结果的格式是 词根中文名称,词根翻译参考(多个参考|分隔),词频,词根英文名称
标准词根更新(偶尔使用)
接口位置
标准词根相关接口 ----> 修改词根
调用示例
- 按照要求填写接口入参
- bsinssPlate:词根所属业务板块
- rootChnsNm:词根中文名称
- rootNm:词根英文名称
- translt:词根翻译参考
- 发送请求到服务端
- 等待服务端响应,200表示更新成功
词根分页查询(基本不用)
接口位置
标准词根相关接口 ----> 词根分页查询
调用示例
- 按照要求填写接口入参
- page:第几页
- pageSize:每一页多少条数据
- 发送请求到服务端
- 等待服务端返回结果
词根批量更新&新增(偶尔使用)
数据格式:词根中文名称,评审后的词根英文名称
数据文件格式:CSV
接口位置
标准词根相关接口 ----> 词根批量更新&新增
调用示例
需要使用PostMan或者curl方式调用
PostMan方式
curl方式
命令如下:
curl --location 'http://47.92.89.223:8089/root/batchUpdate' \
--header 'Cookie: JSESSIONID=808BBE4647F549AD95E7B6870D457760' \
--form 'csvFile=@"/Users/aochong/workHard/建模工具/词根批量上传测试.csv"'
自定义数据元相关接口
用户词典插入(偶尔使用)
接口位置
自定义数据元相关接口 ----> 用户词典插入
调用示例
- 按照要求填写接口入参
- 发送请求到服务端
- 等待服务端响应,msg = "OK" 说明插入成功了
用户词典更新(偶尔使用)
接口位置
自定义数据元相关接口 ----> 用户词典更新
调用示例
- 按照要求填写入参
- cstmDataElmnt:自定义数据元
- partOfSpch:词性
- wordFrqncy:词频
- 发送请求到服务端
- 等待服务端返回结果,状态 200 说明更新成功了
用户词典分页查询(基本不使用)
接口位置
自定义数据元相关接口 ----> 用户词典分页查询
调用示例
- 按照要求填写接口入参
- page:第几页
- pageSize:每一页多少条数据
- 发送请求到服务端
- 等待服务端返回结果
单条用户词典查询(偶尔使用)
接口位置
自定义数据元相关接口 ----> 单条用户词典查询
调用示例
- 按照要求填写接口入参
- cstmDataElmnt:自定义数据元
- 发送请求到服务端
- 等待服务端返回结果