当前位置：财声传媒网 -> 科技

巴斯克地区大学：一种强大的用于完全无监督跨语言映射词嵌入的自学习方法

发布时间：2019年02月12日 17:58 来源：网络整理关键词：大学阅读量：10455

导读：你和“懂AI”之间，只差了一篇论文很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完...

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第109篇论文

ACL 2018 Long Papers

一种强大的用于完全无监督跨语言映射词嵌入的自学习方法

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

巴斯克地区大学

University of the Basque

本文是来自巴斯克地区大学发表于ACL 2018会议的文章，针对无监督跨语言映射词嵌入任务中初始化阶段中的不足，提出一种无监督的初始化方法，并结合一套强大的自学习算法来逐渐优化映射，在众多的知名测试场景中进行实验，并超越了先前的监督系统，证明了该方法的有效性。

1 引言

跨语言嵌入映射已经被证明是双语词嵌入的有效方法。基本的想法是独立的使用不同语言训练嵌入单语语料库，然后通过线性变换将他们映射到共享空间。绝大多数的嵌入式映射方法依赖于小型种子字典，但是在最近对抗性的训练在完全无监督的环境中产生了较好的结果，然而先前的研究往往只能在关联较为密切的语言中获得较好结果，当进入更加现实的情景时却产生不出具有意义的结果。而后又有研究表明，迭代自学习方法能够从非常小的种子字典引导高质量的映射，但是当初始解决方法不够好时，自学习方法会陷入较差的局部结果，导致训练失败。

本文提出一种新的无监督方法来构建一个不需要种子字典的初始化解决方案。根据观察结果，给出词汇表中所有单词的相似度矩阵，每个单词都有不同的相似性分布值。两个不同语言的等价词应该拥有相似性的分布，本文基于这个事实来诱导初始的单词集配对。通过结合以上的初始化方法和强大的自学习方法，可以从弱初始解决方案开始并不断迭代改进映射。最终，通过两者的结合，本文提供一套完全无监督的在实际场景中有效的跨语言映射方法，在所有的测试案例中都收敛到一个好的解决方案，并在双语字典词典提取中设置了一种新的先进技术，超越了之前的监督方法。

2 模型

本文提出了一种新的无监督方法来构建一个不需要种子字典的初始解决方案。基于观察，给定词汇表中所有单词的相似矩阵，每个单词都具有不同的相似值分布。在不同语言中的同一对词语应该具有相似的分布，可以以此作为依据来引导初始化单词配对，如下图所示。

文章将以上提到的初始化方法和一种健壮的自学习方法结合，能够从弱的初始解开始，逐步迭代改进映射。

· 参数表示

Z和X分别表示两种语言中独立训练好的词嵌入矩阵。行代表一个词的词向量，列代表词向量的第几维。这里中Xj和Zj之间、Xi和Zi之间并没有任何的对应关系。这时就需要一个转换矩阵Wx、Wz来使XWx和ZWz在同一个向量空间。同时有叙述矩阵D，Dij = 1时代表目标语言中的第j个单词是源语言中第i个单词的翻译。

· 问题描述

针对以上的构想，需要完成：将X中的i行和Z中的i行、X中的j行和Z中的j行，进行对应。如何对D进行初始化并且要设置怎样的更新策略、采用怎样的目标函数，如何通过目标函数求出Wx和Wz 。

· 实施流程

A. 预处理

首先对每个单词的词向量做归一化，再对词向量的每一列去均值，最后再进行一次归一化处理。

B. 初始化

首先进行假设，目标语言和源语言词向量虽然是独立的，但是其分布的形态却十分相似。假设源语言和目标语言的字典大小一致，维度却不一致。通过Mx = XXT、Mz =ZZT求相似矩阵，Mx[i,j]代表了target 语言中第i个和第j个单词的相似度，分别将Mx和Mz的每一列顺序变成Sorted（Mx）和Sorted（Mz），这样就解决了列之间的关系，对于sorted（Mx）的每i行，都可以再sorted（Mz）中寻找到第j行跟其相似度最高的项，表明其是相同语意的可能性比较大，为相互的翻译，D的初始化问题就被解决了。

C. 自学习：

1. 目标函数