因果NLP工具箱 - CFIE(一)

文章名称

【SIGIR-2021】【Shenzhen University/Huawei Noah’s Ark Lab】A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data

核心要点

文章旨在解决基于最大似然的信息抽取方法的结果中,实体与标签之间存在可疑关系的问题。作者首先为各种信息抽取任务,构建了统一的因果结构模型,以描述各种变量之间的关系。随后,基于该因果结构模型以及显示的语言结构模型生成反事实样本,进而在预测阶段,更准确的估计直接因果效应。最后提出一种原创的纠偏方法,以此获得更具鲁棒性的预测结果。

方法细节

问题引入

在信息抽取(IE)场景,包括NER,RE,ED,存在类别分布不均的问题[1](其中数据集ACE2005上的类别分布情况,如下图所示)。[2]表明NER模型,在长尾类别上模型的性能显著下降,主要类别上模型的F1可能达到71.6,而在长尾类别上则只有41.7。

long-tailed distribution of label

这种类别分布不均衡的问题导致,模型识别出一些spurious correlations[3]。原有的许多方法都是在类别均衡的数据下提出的。现有方法采用再平衡标签的训练方式[4]或者迁移训练[5],又或者解纠缠的方法[6]。然而,这些方法更多的应用在CV领域,不适合NLP场景。由于NLP场景需要有上下文的表示(例如语法结构和语义信息等)来帮助模型决策,图像里的解纠缠方法不能直接用来对token解纠缠,很难被直接应用于NLP场景。而Causal Inference通过反事实数据可以解决长尾偏差的问题。

具体做法

CFIE的示例如下图所示,其中子图a是ACE2005中类别分布不均的案例(任务是event detection),其中有511条样本里,killed这个词和事件”Life:Die“相关,而只有19条样本和事件“SW:Quit”相关。因此,现有模型会在”The program was killed“句子中,得到”Life:Die“这种不正确的事件(spurious correlations)。

CFIE Demonstration

CFIE的目标是通过SCM (Pearl et al., 2016)来消除这种spurious correlations。SCM可以被形式化为有向无环图DAG(\mathcal{G} = \{ \mathbb{V}, \mathbb{F}, \textbf{U} \} ),其中,\mathbb{ V}, \mathbb{F}, \textbf{U}分别表示观测到的变量(一般表示为节点),变量之间的影响关系(有向边),(外生)噪声。

如果\textbf{U}是给定的,则整个系统是确定性的,观测随机变量的值由如下图所示的公式唯一确定。其中,PA_i是当前节点的所有父节点集合。

Deterministic SCM

Causal Representation Learning For IE

作者总结的,IE任务的因果结果模型(SCM)如下图所示。其中S表示句子的上下文表示(可以采用BiLSTM或者BERT等各种方式获得)。Z_j, j \in [1, m]表示一些语法特征,比如NER标签或者POS标签,m表示特征的数量。X是特定抽取任务中某一个子类别的表示。例如,Relation Extraction中的一种关系的表示,或者NER中的某种实体的表示。Y表示最终分类的logits。

SCM for IE

在作者构建的IE因果图\mathcal{G}_{ie},定义PA_{Y} = \mathcal{E} = \{ S, X, Z_1, ..., Z_m \}。并假设对Y的直接因果效应是一种线性变换,用线性变换矩阵W_{iY} \in R^{c \times d}表示,其中c, d分别表示分类类别的数量以及特征维度。假设,Y的某一个父节点i的向量表示为H_i,那么对Y_x的估计值可以通过对线性变换进行组合求和得到,即Y_x = \sum_{i \in \mathcal{E}}W_{iY}H_i。或者具有门控机制的Y_x = W_gH_X \odot \sigma(\sum_{i \in \mathcal{E}}W_{iY}H_i),其中\odot表示元素相乘,而\sigma是sigmoid函数。

为了防止某一条边起到了全部影响(实际是一种平凡解),可以在整体损失中加入单一特征影响的交叉熵损失\mathcal{L}_{iY}。整体框架图中,子图b展示了利用SCM训练IE模型的过程,期望模型能够在分类时,识别main cause (main effect) 和 spurious correlations (side effect)。

值得注意的是,对于S \rightarrow X的建模需要对不同任务采用不同的建模方案。在RE场景下,作者采用基于GCN的依存树来聚合较长的依赖关系。其他领域的方法可以参见文章。

本节介绍了信息抽取中,因类别长尾分布导致的模型性能下降,容易识别出spurious correlations的问题背景。并介绍了作者解决该问题的思路和归纳到SCM结构。下一节继续介绍模型的训练与预测,以及模型是如何生成反事实的。

心得体会

Direct Effect

个人感觉,文章的主要贡献是给出了IE任务的统一SCM结构,并在SCM的视角下把spurious correlations定义为side effect。这样,利用消除偏差的方法,可以解决长尾分布导致的模型性能下降的问题。作者定义的SCM能够适用于各种场景和模型框架。

文章引用

[1] George Doddington, Alexis Mitchell, Mark Przybocki, Lance Ramshaw, Stephanie Strassel, and Ralph Weischedel. 2004. The automatic content extraction (ACE) program – tasks, data, and evaluation. In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04), Lisbon, Portugal. European Language Resources Association (ELRA).

[2] TZhanming Jie and Wei Lu. 2019. Dependency-guided lstm-crf for named entity recognition. In Proc. of EMNLP.

[3] Megha Srivastava, Tatsunori Hashimoto, and Percy Liang. 2020. Robustness to spurious correlations via human annotations. In Proc. of ICML.

[4] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense ob- ject detection. In Proc. of ICCV.

[5] Ziwei Liu, Zhongqi Miao, Xiaohang Zhan, Jiayun Wang, Boqing Gong, and Stella X Yu. 2019. Large- scale long-tailed recognition in an open world. In Proc. of CVPR.

[6] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and Yannis Kalantidis. 2019. Decoupling representation and classifier for long-tailed recognition. In Proc. of ICLR.

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容