CHIP2021 | 医学对话临床发现阴阳性判别任务第一名方案开源

比赛简介

比赛名称：CHIP2021评测一: 医学对话临床发现阴阳性判别任务
测评任务：针对互联网在线问诊记录中的临床发现进行阴阳性的分类判别
测评链接：http://www.cips-chip.org.cn/2021/eval1

本次比赛可以视为针对实体的细颗粒情感分析任务，一共有阴性、阳性、其他、不标注四种标签。

阳性：已有症状疾/病等相关；医生诊断（包含多个诊断结论）；假设未来可能发生的疾病等
阴性：未患有的疾病症状相关
其他：用户没有回答、不知道；回答不明确/模棱两可不好推断
不标注：无实际意义的不标注

任务难点与挑战

对话上下文信息的利用

标准词信息的引入

噪声和难判断样本
数据不平衡

方案总结

一、整体结构

我们借鉴了R-BERT的思路在BERT的基础上，在需要判别阴阳性的临床发现实体两端分别加入[UNUSED1]和[UNUSED2]。针对标准化信息，我们通过构建标准词模版引入该部分的信息，具体构建方法如下：

临床发现词+“|标准化为”+标准名
临床发现词+“|没有标准化”

此外，我们使用输入者嵌入矩阵生成输入者，拼接在bert输出的向量中。

二、数据处理

上下文拼接
- 若文本的输入者为患者，则在文本前拼接“患者：”
- 若文本的输入者为医生，则在文本前拼接“医生：”
- 若当前临床发现词所在的文本是医生输入，则拼接三轮下文患者输入的文本；
- 若是患者输入，则不区分下文输入者信息，直接拼接三轮下文输入文本
- 拼接文本的长度为小于40个字符的一轮上文文本
截断选择
- 以临床发现词为核心进行上下文截断

三、数据清洗

过滤与预测标签不一致的原始标签

任务预训练

四、模型集成

本次任务中，我们一共采用了MC-BERT、Med-BERT、MAC-BERT-Large和任务预训练后的MAC-BERT-Large四种预训练模型。针对每一种预训练模型我们使用10折交叉验证生成10个模型，并使用投票法集成输出结果。

除了正常的投票法外，针对其他和不标注两类标签召回少的问题，采用弱者投票机制，即十组投票结果中，若有2组以上的预测结果为“不标注”或“其他”，则忽略其他高票预测结果。

多模型融合则采用规则集成修正的方式进行融合。

五、其他Trick

六、B榜结果

比赛总结

比赛已经结束，最终侥幸获得了第一名的成绩。很荣幸地受邀在CHIP2021线上会议上进行分享，也看到了其他选手精彩的方案。总体来说，Top方案之间的差距很小，我们更多还是靠一些小的细节trick取胜。本次比赛我们的代码是在自己的ark-nlp上进行开发和实验，后续我们也会继续对ark-nlp进行改进，收录更多的SOTA方式。此外，我们也将积极推动医疗知识图谱和医疗预训练模型的开发，也希望有兴趣的朋友可以加入我们。

ark-nlp地址：https://github.com/xiangking/ark-nlp
方案开源地址：https://github.com/DataArk/CHIP2021-Task1-Top1
MC-BERT torch版权重：医疗BERT | 中文生物医学文本挖掘的概念化表征学习

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342