UNSUPERVISED MACHINE TRANSLATION USING MONOLINGUAL CORPORA ONLY (論文メモ)
論文*1についてのメモや翻訳を残しておく。
Abstract
この論文は、教師あり機械翻訳で使う対訳コーパスを用いずにsingle parallel(monolingual)なコーパスを用いて機械翻訳機の学習を行う。
(原文)
We propose a model that takes sentences from monolingual corpora in two different languages and maps them into the same latent space.
(訳)
monolingualな文章を翻訳し、ターゲット文を元のソース文に再翻訳するという逆翻訳(back-translation)の事かな?
データセットはMulti30kとWMT English-French*2を使用している。
Multi30k*3
- 画像とその画像についての説明がセットになったもの。
- 説明が英語しかなかったので、それをドイツ語に翻訳した。
- Translation(31,014 pairs)とIndependent descriptions(155,070 pairs)に分かれている。
BLEUスコアは32.8(Multi30k)と15.1(WMT)
Introduction&Training
(原文)
The key idea is to build a common latent space between the two languages (or domains) and to learn to translate by reconstructing in both domains according to two principles.
(訳)
重要なアイデアは、2つの言語(またはドメイン)の間に共通の潜在的なスペースを構築し、2つの原則に従って両方のドメインで再構築することによって翻訳することを学ぶことです。
2つの原則
1つ目
(原文)
(i) the model has to be able to reconstruct a sentence in a given language from a noisy version of it, as in standard denoising auto-encoders (Vincent et al., 2008).
(訳)
(i) モデルは、標準的な雑音除去自動エンコーダ(Vincent et al。、2008)のように、雑音の多いバージョンから与えられた言語の文を(雑音のない文に)再構成できる必要があります。
2つ目
(原文)
(ii) The model also learns to reconstruct any source sentence given a noisy translation of the same sentence in the target domain, and vice versa.
(訳)
(ii) モデルはまた、ターゲットドメイン内で同じセンテンスの雑音のある変換を与えられたソース文を再構成することを学習し、逆もまた同様である。
正直読んだだけだと何のことかわらないが、画像が載せられていた。 左が1つ目の原則で右は2つ目だと解釈した。 2つの言語を別々に学習し(ノイズあり->ノイズなし)、そこで作られる潜在空間(latent space)を共有させるように学習していく。その学習済みモデルを使い(例: 日 -> 英(疑似ターゲット))、back-translation(逆翻訳)を行う(例: 日 -> 英(疑似ターゲット) -> 日(逆翻訳後のソース文))。逆翻訳後のソース文とソース文の誤差が最小になるように学習していく。 上の学習モデルがノイズ除去、下がback-trasnlation(逆翻訳)。 下のモデル(M)はノイズ除去を表している。