手机自己制作表白网站app网络营销推广方案范文
On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment
多语言模型中的负干扰:研究结果和元学习解决办法
概述:
训练语料库大小(训练数据大小和 负干扰 无关)。
语言亲缘关系/语系 和 负干扰 有关。添加相似的语言并不能减轻负面干扰。然而,它们确实提高了零样本跨语言性能。一 种可能的解释是,即使相似的语言也可以争夺 特定于语言的能力,但它们仍然可能有利于共享知识的泛化。
梯度冲突 和 负干扰有关。具体来说,两种不同语言之间的梯度确实不如同一语言内的梯度相似。这表明相距较远的语言对会导致更严重的梯度冲突。多头注意力层中的参数比前馈层中的参数具有更高的相似性,这表明注意力机制可能更具语言通用性。
0、摘要
现代多语言模型 训练多语言拼接文本,以期 从每种语言中获得好处(积极转移),其中对于低资源语言的收益 最为显著。然而,最近的研究表明,这种方法可能会对高资源语言的性能产生负面影响,这种