colab 资源
!nvidia-smi
挂载google drive运行
from google.colab import drive
drive.mount('/content/drive')
更改当前目录
import os
os.chdir("/content/drive/MyDrive/Colab Notebooks/nlp_task")
数据EDA
1.查看句子长度
# 数据EDA
# 1.查看句子长度
print("times",times_train['content'].str.len().describe(percentiles = [.95, .98, .99]),'\n'
"ocemo_content",ocemo_train['content'].str.len().describe(percentiles = [.95, .98, .99]),'\n'
"ocnli_content1",ocnli_train['content1'].str.len().describe(percentiles = [.95, .98, .99]),'\n'
"ocnli_content2",ocnli_train['content2'].str.len().describe(percentiles = [.95, .98, .99]))
# 设置bert序列长度为142的时候可覆盖99%子句的全部
2.样本均衡情况
baseline 提升策略
修改loss 使用 dtp Dynamic Task Prioritization for Multitask Learning
-
修改pretrained_model 换用 chinese-roberta-wwm-ext
与训练模型修改方法:
1.从Hugging Face中下载roberta pretrained 模型库
中文-roberta的base-model为bert
-
修改train.py 中的相关目录: