教程:https://tianchi.aliyun.com/forum/postDetail?postId=145917
datawhale baseline:https://github.com/finlay-liu/tianchi-multi-task-nlp/
1.训练数据
tnews_path = "../input/2020-tianchi-nlp/TNEWS_train1128.csv"
ocnli_path = "../input/2020-tianchi-nlp/OCNLI_train1128.csv"
ocemotion_path = "../input/2020-tianchi-nlp/OCEMOTION_train1128.csv"
TNEWS:来源于今日头条的新闻版块,共包含15个类别的新闻;
OCEMOTION:是包含7个分类的细粒度情感性分析数据集;
OCNLI:是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集;
OCNLI:
包含5万余训练数据,3千验证数据及3千测试数据。除测试数据外,我们将提供数据及标签。测试数据仅提供数据。OCNLI为中文语言理解基准测评(CLUE)的一部分。
数据格式
id | 句子1 | 句子2 | label |
---|---|---|---|
0 | "一月份跟二月份肯定有一个月份有" | "肯定有一个月份有 " | 0 |
label包括[蕴含,0(entailment),中性,1(neutral),不相关2(contradiction)]
TNEWS:
id | 句子1 | label |
---|---|---|
0 | 上课时学生手机响个不停,老师一怒之下把手机摔了,家长拿发票让老师赔,大家怎么看待这种事? | 108 |
OCEMOTION:
id | 句子1 | label |
---|---|---|
0 | 我只是自私了一点,做自己想做的事情! | sadness |
1 | 让感动的不仅仅是雨过天晴,还有泪水流下来的迷人眼神。 | happiness |
环境配置
从 https://huggingface.co/bert-base-chinese/tree/main下载pytorch_model.bin, vocab.txt 和config.json 文件。放在bert_train_model 文件夹下。
运行generate_data.py 划分训练集和验证集
运行train.py 训练预训练模型
docker上传
1.本地安装docker for mac
2.申请阿里云镜像
在submission文件夹下运行命令
docker login registry.cn-hangzhou.aliyuncs.com
docker build -t registry.cn-shanghai.aliyuncs.com/corn_ai/corn_tianchi_submit:1.0 .
docker push registry.cn-shanghai.aliyuncs.com/corn_ai/corn_tianchi_submit:1.0
最后提交docker结果