查看原文
其他

达摩院跨语言研究最新进展:多语言知识增强的预训练&基于一致性训练的跨语言NER

邴立东、刘林林等 PaperWeekly 2023-02-21

©PaperWeekly 原创 · 作者 | 邴立东 刘林林  周然  李昕 等
单位 | Alibaba DAMO, NTU

跨语言预训练模型(如 XLM-R)的出现,使很多低资源语种的 NLP 任务处理从不可能变为可能。具体做法是以跨语言预训练模型作为编码器,用目标任务的源语言(通常是英语)训练集训练模型后,直接在低资源目标语种的测试数据上进行预测,即 Zero-shot Learning。


为了进一步增强预训练模型的跨语言能力,并缓解低资源语种预训练语料较少而导致的知识覆盖不足问题,我们提出了多语言知识增强的预训练模型 KMLM。充分的实验表明,KMLM 在若干跨语言任务上(如实体识别,知识抽取,实体关系分类)取得了稳定的效果提升。


跨语言任务的另外一类主流解法是将训练数据从源语言翻译到目标语言,构成目标语言的训练集并训练模型,即 Translate-train。对于细粒度任务(如NER),标签映射是 Translate-train 需要解决的一个难题。


为了缓解标签映射问题并利用目标语言的无标注数据,我们提出了免映射的训练数据翻译方法以及跨语言 NER 的一致性训练方法 ConNER。ConNER 能够利用目标语言无标注数据的丰富知识,并缓解对源语言数据的过拟合,以达到更好的跨语言表现。




KMLM: 兼顾知识记忆与逻辑推理 —— 多语言知识图谱增强的预训练语言模型

本小节工作来自 EMNLP 2022 主会论文:Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples



论文链接:
https://arxiv.org/pdf/2111.10962.pdf
数据代码

https://github.com/ntunlp/kmlm.git


1.1 背景及动机


近年来在大型预训练语言模型上进行微调已经成为自然语言处理任务中最常用的方法之一,该方法在众多任务中都取得了优异的表现。然而预训练模型在知识密集的任务的表现上仍然有进一步提高的空间,所以最近有很多知识增强的语言模型被提出来 [1,2]


然而现有的知识增强的语言模型大部分是单一语言的,限制了它们在更多语言上的应用。同时,很多现有的知识增强方法会使用额外的 entity/relation embedding [3,4],或者知识图谱编码器 [2] 来辅助语言模型学习,这样会增加模型的参数量并限制其在下游任务应用的灵活性。此外,这些预训练的模型更多地强调知识的记忆,而逻辑推理能力没有得到足够的重视。


针对上面指出的几个问题,我们提出新的方法,通过知识图谱中的数据来生成大量的多语种训练数据,并使用它们直接训练语言模型。我们生成的训练数据包括 Code-Switched/Parallel Synthetic Sentences 和 Reasoning-Based Training Data。


然后,我们设计知识相关的训练任务, 包括基于多语言知识语料的训练任务(Multilingual Knowledge Oriented Pretraining),和基于逻辑推理的训练任务(Logical Reasoning Oriented Pretraining),来增强多语种预训练语言模型。


1.2 KMLM: 多语言知识图谱增强的预训练语言模型


知识图谱数据库通常使用三元组(h, r, t)来描述实体之间的关系,其中 h 和 t 分别是头实体和尾实体,r 用来描述二者的关系。如表格 1 所示,知识图谱数据库 Wikidata 中有大量多语种标注的信息,很多实体和关系也提供了大量的常用别名,然而这些信息在以往的预训练语言模型中没有被充分地利用。


▲ 图表1: Wikidata中一个多语言标注的实体的例子,Q1420为该实体的ID。

如图表 2 所示,我们可以通过使用多语种标注和别名来替换三元组里面的实体和关系,并用 [mask] 来连接它们,从而生成大量的知识密集的多语言语言训练数据:Code-Switched/Parallel Synthetic Sentences 。


▲ 图表2: 使用三元组生成的知识密集的多语言训练数据的例子。


除此之外,我们还在知识图谱中抽取大量长度为三和长度为四的环,并用它们生成逻辑推理训练数据 (Reasoning-Based Training Data)。抽取的环如图表 3 所示。我们发现增加环的长度,会生成一些没有逻辑关系的环,所以我们要求长度为四的环中间有至少一条边连接对角的两个节点。这些环也是由知识三元组构成,所以我们也可以通过插入 [mask] 来生成训练数据,如图表 4 所示。


▲ 图表3: 知识图谱中抽取的长度为3和4的环。


▲ 图表4: 使用知识图谱中抽取的环构建的逻辑推理训练数据的例子


生成好训练数据后,我们设计了两个预训练任务:基于多语言知识语料的训练任务,和基于逻辑推理的训练任务。其中基于多语言知识语料的训练任务与常见的 Masked Language Modeling 任务相近,但是区别是我们的训练语料中用 [mask] 来连接实体和关系,这些 [mask] 对应的连接词我们并不知道。所以在训练模型时,我们只用实体和关系对应的 token 预测计算交叉熵损失,如图表 5 所示。


▲ 图表5:在语言混合的训练数据上进行Masked Language Modeling训练的例子。


对于基于逻辑推理的训练任务,我们为长度为 3 和 4 的环分别设计训练任务。如上所述,每个环能够生成对应的一段话,图表 4 给出了两个例子。对于长度为 3 的环,我们随机掩盖掉其中一句话的关系,并训练模型根据句子中的其他关系和实体来预测掩盖掉的词。


对于长度为 4 的环,我们设计了两个子任务:1)对于 80% 的情况,我们随机选择一句话并掩盖掉里面的关系。同时为了增加难度,我们还会随机掩盖掉这段话中的一到两个实体。然后训练模型预测掩盖掉的实体和关系。2)对于 20% 的情况,我们随机掩盖掉一句话,让模型学习能否从其他句子里推断出新的知识。我们保留选中那一句话里面的关系作为提示。


除了上面介绍的两个预训练任务,我们还加入了常见 Masked Language Modeling 任务 [5] 来学习自然语句中词的分布。为了使用这三个任务同时来训练模型,我们将它们对应的损失函数加在一起作为最终的损失函数来使用,如下面公式所示。其中等号右面的三个损失函数分别对应 Masked Language Modeling 任务,基于多语言知识语料的训练任务和基于逻辑推理的训练任务。是一个参数来调整后两项知识相关任务的权重。



1.3 实验分析


我们使用上面提到的训练数据和任务预训练了多个模型实验证明,模型下标 CS, Parallel,Mix 用来区分使用 code-switched, parallel 以及二者结合所训练的模型。跨语言实验中,我们在英文数据训练集上训练模型,然后在其他语言的测试集上测试。我们的模型在多语言命名实体识别,知识抽取,实体关系分类,逻辑推理等任务上都取得了显著的表现提升。


命名实体识别(NER)包括从非结构化文本数据中识别和分类命名实体。避免对实体/关系 embedding 的依赖允许我们的模型直接在大量实体上进行训练,而无需添加额外的参数或增加计算成本。在实体密集型的训练数据上的直接训练也可能有助于更有效地提高实体表示。


我们使用 CoNLL02/03 和 WikiAnn 命名实体识别数据集对模型来测试我们的方法对于实体表示的学习的影响,结果如图表 6 和图表 7 所示。我们的方法相比于基准方法有稳定的表现提升。其中 base 和 large 版本的 mix 模型(使用 code-switched 与 parallel 数据一起训练的模型)均取得了最优的表现,体现出结合这两种数据集的优势。


▲ 图表6: CoNLL02/03跨语言命名实体识别任务

▲ 图表7:WikiAnn跨语言命名实体识别任务


除命名实体识别之外,我们还在一个多语言知识抽取任务和一个跨语言实体关系分类任务上分别测试我们的方法对于事实知识记忆,和实体关系表示学习的影响。如图表 8 和 9 中的结果所示,我们的方法也是体现出了明显的表现提升。通过不同知识相关任务上的测试,可以看出来我们的方法能够帮助知识记忆的效率。


▲ 图表8:X-FACTR多语言知识抽取任务


▲ 图表9:RELX跨语言实体关系分类任务


为了验证我们的方法对逻辑推理任务的有效性,我们提出了多选题形式的跨语言逻辑推理(XLR)任务。这种推理任务的一个例子在图 10 中给出。这些模型先在英语训练集上微调,然后在不同目标语言的测试集上测试。结果如表 11 所示。我们所有的模型都显著优于基准模型。由此可见,我们的这种预训练方法可以帮助语言模型更好地学习常见的逻辑推理模式,以提高其在下游任务的表现。


▲ 图表10: 我们标注的跨语言逻辑推理任务XLR数据的例子


▲ 图表11:XLR跨语言逻辑推理任务


1.4 小结


在本文中,我们提出方法直接使用多语言知识图谱构建多种知识密集的训练数据,并设计了基于多语言知识语料的训练任务(Multilingual Knowledge Oriented Pretraining),和基于逻辑推理的训练任务(Logical Reasoning Oriented Pretraining)来增强预训练语言模型。


我们的方法不依赖额外的 entity/relation embedding 或者知识图谱编码器,有效地避免了引入更多的参数和模块,降低模型复杂度。我们的预训练模型在多个知识密集的下游任务中均取得了显著的表现提升。




ConNER: 基于一致性训练的跨语言命名实体识别


本小节工作来自 EMNLP 2022 主会论文: ConNER: Consistency Training for Cross-lingual Named Entity Recognition



论文链接:
https://arxiv.org/pdf/2211.09394.pdf

数据代码:

https://github.com/RandyZhouRan/ConNER

2.1 背景介绍


命名实体识别(NER)具有广泛的应用场景,例如电商平台搜索、推荐及客服系统依赖于 NER 算法自动识别品牌或商品名。然而,在跨境电商多语言应用场景中,标注数据量不足以在每个语言上开发单独的 NER 算法。因此,跨语言 NER 具有在单一源语言标注数据上训练,便能够应用到广泛的目标语言的优势。


然而,由于语言学上的差异,仅在源语言上训练可能不足以达到令人满意的 NER 表现。针对这些问题,我们开发的跨语言 NER 的一致性训练方法能够有效利用目标语言无标注数据的丰富知识,并缓解对源语言数据的过拟合,以达到更好的跨语言表现。


相关方法的局限


现存的跨语言 NER 方法主要分为:


1)翻译训练集(translate train):通过将源语言训练数据翻译至目标语言并映射NER标签构造目标语言的伪训练数据。


缺陷:翻译后的文本质量较差,语法不自然通顺。生成的训练数据标签依赖于额外的词映射工具,容易引入噪音。并且此方法无法利用丰富的目标语言无标注数据。


2)知识蒸馏(knowledge distillation):利用一个老师模型对无标注数据作软标注,并使用软标签训练一个表现更好的学生模型。


缺陷:由于语言间的差异,使用源语言训练的老师模型输出目标语言的软标签往往含有较多噪音,影响模型表现。


3)一致性训练 (consistency training):通过鼓励模型对扰动前后的样本输出一致的概率分布,增强模型的鲁棒性和泛化性。


缺陷:现有的一致性训练使用高斯噪音
[6] 或者随机词替换 [7] 作为扰动,有可能影响扰动后样本的真实标签。此外,基于翻译的一致性训练 [8] 在 NER 上受到词映射困难的限制,因此采取了基于某类别实体是否出现的较模糊的一致性,限制了模型的表现。


2.2 基于词粒度一致性训练的NER


2.2.1 问题定义


如上文所述,目前针对跨语言NER的相关方法存在一定的局限性。Translate train 容易受到词映射错误的影响,而知识蒸馏也可能会放大无标注数据上软标签中的噪音。相较之下,一致性训练更不容易受软标签噪音影响,但现存的方法无法同时保证扰动的多样性和扰动前后的标签一致性,或者由于翻译带来的词映射困难而采取粗略的句子粒度的一致性。


因此,我们的一致性训练方法旨在使用翻译作为一种多样化且满足一致性假设的扰动,并避免词映射引入的噪音,来有效地利用目标语言的无标注数据。同时,我们也希望减少模型对源语言标注数据的过拟合,以更好地迁移到目标语言。


2.2.2 ConNER模型


在跨语言场景下,训练集包含有标注的源语言数据,以及无标注的目标语言数据。针对这两类数据,我们的方法(ConNER)相应的提出两种一致性训练方法:1)基于翻译的一致性训练;2)基于 dropout 的一致性训练。


具体的,我们将基于翻译的一致性训练应用在无标注的目标语言数据上,以充分利用无标注数据中的目标语言知识。同时,我们将基于 dropout 的一致性训练应用在有标注的源语言数据上,以缓解模型对源语言过拟合,增强跨语言迁移能力。


1)基于翻译的一致性训练


当我们将包含某个实体的句子翻译到另一个语言时,翻译后句子中的该实体仍然与原句中的实体属于同一类别。从这个动机出发,我们提出基于翻译的一致性训练。


首先,由于我们将基于翻译的一致性训练应用在目标语言无标注数据上,句子中的实体并没有被标注出来。尽管我们的方法可以应用在任意词段,但当目标词组有可能是实体时效果更好。因此,我们用源语言训练数据训练一个基线模型,并将此模型标注为任意实体的词段选为目标词组。我们只使用基线模型决定目标词组的边界,以减轻错误的实体类别的影响。


然而,基于翻译的一致性训练主要面临两个挑战:(1)翻译前后的词映射不明确,而使用词映射工具容易引入额外的噪音 (2)翻译前后实体包含的单词数量可能有变化(例如 Westdeutschland 翻译至 West German),导致无法在单词级别两两计算一致性损失。我们分别通过免映射的翻译方法和单词级别到词组级别的概率转化解决这些问题。


免映射的翻译方法


为了在翻译后得到更准确的词映射关系,我们利用[9]提出的免映射翻译方法将无标注数据翻译至源语言,如图12所示。具体的,我们首先将目标词组替换成占位符(SPAN44),接着将替换后的句子输入翻译引擎得到翻译后的句子。翻译后句子中仍保留了该占位符,并且占位符指示了目标词组在翻译后句子中应当处在的位置。接着,我们将目标词组也进行翻译,并用翻译后的目标词组替换翻译后句子中的占位符,即可得到原句完整的翻译,且翻译前后的目标词组互相对应。


▲ 图表12:免映射的翻译方法

单词级别到词组级别的概率转化


由于目标词组在翻译后可能有词数增减,我们无法通过一对一的词映射计算一致性损失。因此,我们将目标词组中的单词级别概率连乘,转化为词组级别概率。


图 13 提供了一个计算过程的示例:在使用 BIOES 规则的前提下,“West German” 是一个地点实体(LOC)的词组级别概率是 “West” 作为”B-LOC”的单词级别概率与 “German” 作为 “E-LOC” 的单词级别概率之乘积。“West German”作为其他实体类别以及非实体(O)的词组级别概率计算同理。


值得注意的是,我们引入了一个额外的词组级类别 “illegal”,以包含所有不符合 BIOES 规则的标签序列。


▲ 图表13: 单词级别到词组级别的概率转化


最后,我们计算翻译前后对应目标词组间词组级别概率的双向KL divergence,作为目标损失函数:



2)基于dropout的一致性训练


经相关工作 [10,11] 启发,我们将 dropout 作为一种表示层面的扰动,提出基于 dropout 的一致性训练。具体的,我们将同一源语言训练数据两次输入模型。经过不同的随机 dropout 过程,两次的输出概率分布会有不同。我们鼓励模型对两次 dropout 输出一致的概率分布,以减少模型对源语言数据的过拟合。我们仍采用双向 KL divergence 来计算目标损失函数:



3)训练目标


我们将标注数据的交叉熵损失与基于翻译和基于 dropout 的一致性损失作加权和,得到总体的训练目标函数。其中 a,b 为权重系数。



2.3 主要结果


我们在 CoNLL NER 数据集上的实验结果如下。如表 14 所示,相比于只使用源语言训练数据(vanilla baseline),我们的 ConNER 在三个语言迁移对上均有显著的提升,平均 F1 提升 2.61。相比于 translate train,ConNER 使用免映射的翻译方法有效避免了标签映射的问题,并且充分利用了目标语言无标注数据的丰富知识,以达到更好的效果。


另外,与知识蒸馏不同,我们的一致性训练不易受到软标签噪音的影响,也通过在平行语料上训练更好的融合不同语言的表示。同时,我们也和两个一致性训练的基线方法比较。结果表明,我们以翻译和 dropout 作为扰动,在保证一致性假设成立的前提下,提供更丰富的扰动,表现也更好。


▲ 图表14: CoNLL数据集的实验结果

为了验证 ConNER 在更广泛目标语言上的鲁棒性,我们选取三个与源语言英语差异较大的语言作为目标语言,分别是:中文(Zh),阿拉伯语(Ar),印地语(Hi)。


如表 15 所示,由于更大的语言差异,只使用英语训练的模型(vanilla baseline)在这些语言上的表现较差。尽管模型对目标语言无标注数据的预测质量较低,我们的一致性训练方法相比于知识蒸馏对此类噪音较不敏感,从而能更有效地利用目标语言的无标注数据,并带来显著的提升。


▲ 图表15: 在差异更大的语言上的实验结果


我们也将 ConNER 应用到低资源场景下。我们随机采样 5%,10% 和 25% 的源语言训练集作为我们的低资源训练集, 并在目标语言上评估 ConNER 的表现。如表 16 所示,在三个不同的低资源水平上,ConNER 均能有效利用目标语言无标注数据并减轻对源语言低量数据的过拟合有显著的表现提升。并且,当我们只使用 25% 的训练数据时,ConNER 就能达到与全量源语言训练数据相当的表现。


▲ 图表16: 低资源NER的实验结果


2.4 消融实验


我们的方法 ConNER 主要由两部分组成:1)在目标语言无标注数据上的基于翻译的一致性训练和 2)在源语言标注数据上基于 dropout 的一致性训练。我们进行消融实验,分别验证他们带来的提升。


如表 17 所示,基于翻译(trans-unlabel)和基于 dropout(dropout-label)的一致性训练均带来一定的提升,但基于翻译的一致性训练带来的提升更显著。这也佐证了跨语言设置下利用目标语言无标注数据的重要性。


我们也尝试将基于翻译的一致性训练应用在源语言标注数据上(trans-label),但表现反而有所下降。这可能是在有标注的情况下,模型已能准确预测翻译后句子中的实体,所以基于翻译的一致性训练便显得冗余了。


类似的,当我们将基于 dropout 的一致性训练应用在目标语言无标注数据时,在目标语言(如德语 )上的表现反常的低。我们将其归结于模型多语言能力的 catastrophic forgetting。由于目标语言数据无标注,简单地强制模型减小对两次输入目标语言句子预测的差异可能使源语言和目标语言在表示空间分离,导致模型丧失其跨语言迁移的能力。


▲ 图表17: 消融实验


2.5 小结


针对跨语言 NER 任务,我们提出一种新颖的一致性训练方法,增强模型对数据扰动的鲁棒性。面对基于翻译的一致性训练的挑战,我们使用免映射的翻译方法解决了词映射的问题,并将单词级别概率转化为词组级别概率以解决了词数变化的问题。


通过在翻译后的平行数据上训练,我们更好的融合不同语言的表示空间,以实现更好的跨语言迁移能力。我们也通过基于 dropout 的一致性训练,缓解模型对源语言数据的过拟合,以在目标语言上获得更好的表现。我们的方法在多个语言迁移对上展现了显著的表现提升。



参考文献

[1] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. 2019. ERNIE: Enhanced language representation with informative entities. In Proceedings of ACL, pages 1441–1451.

[2] Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, and Ping Wang. 2020a. K-BERT: Enabling language representation with knowledge graph. In Proceedings of AAAI.

[3] Ryokan Ri, Ikuya Yamada, and Yoshimasa Tsuruoka. 2022. mLUKE: The power of entity representations in multilingual pretrained language models. In Proceedings of ACL, pages 7316–7330.

[4] Xiaoze Jiang, Yaobo Liang, Weizhu Chen, and Nan Duan. 2022. Xlm-k: Improving cross-lingual language model pre-training with multilingual knowledge. In AAAI 2022.

[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of NAACL, pages 4171-4186.

[6] Bo Zheng, Li Dong, Shaohan Huang, Wenhui Wang, Zewen Chi, Saksham Singhal, Wanxiang Che, Ting Liu, Xia Song, and Furu Wei. 2021. Consistency regularization for cross-lingual fine-tuning. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 3403–3417.

[7] David Lowell, Brian E Howard, Zachary C Lipton, and Byron C Wallace. 2020. Unsupervised data augmentation with naive augmentation and without unlabeled data. arXiv preprint arXiv:2010.11966.

[8] Rui Wang and Ricardo Henao. 2021. Unsupervised paraphrasing consistency training for low resource named entity recognition. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 5303–5308.

[9] Linlin Liu, Bosheng Ding, Lidong Bing, Shafiq Joty, Luo Si, and Chunyan Miao. 2021. MulDA: A multilingual data augmentation framework for lowresource cross-lingual NER. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5834–5846.

[10] Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu, et al. 2021. R-drop: regularized dropout for neural networks. Advances in Neural Information Processing Systems, 34.

[11] Tianyu Gao, Xingcheng Yao, and Danqi Chen. 2021. SimCSE: Simple contrastive learning of sentence embeddings. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6894–6910.


关于作者:

本文由阿里巴巴达摩院自然语言智能实验室邴立东、李昕,联培博士生刘林林、周然等共同整理。由PaperWeekly编辑做了校对和格式调整。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存