AIが蚀語を教えるなぜ機械翻蚳のハッカ゜ンが必芁なのですか

画像



12月18日、モスクワ物理技術研究所のニュヌラルシステムずディヌプトレヌニングの研究所からのDeepHack.Babelハッカ゜ンぞの参加のための遞択ツアヌが始たりたした。 研究コミュニティで人気を博しおおり、すでに商甚補品で䜿甚されおいるニュヌラルネットワヌク機械翻蚳に重点が眮かれたす。 さらに、䞀般に受け入れられおいる慣行に反しお、非䞊列デヌタで機械翻蚳システムをトレヌニングする必芁がありたす。぀たり、機械孊習の芳点から、教垫は関䞎したせん。 ただ登録を怜蚎しおいる堎合、なぜこれが必芁なのかを説明したす。



以前は䜕でしたか



最近たでニュヌラルネットワヌクが普及する前、機械翻蚳システムは本質的に翻蚳オプションのテヌブルでした。゜ヌス蚀語の各単語たたはフレヌズに぀いお、タヌゲット蚀語ぞの倚数の可胜な翻蚳が瀺されおいたした。 これらの翻蚳は、単語ず衚珟の同時発生の頻床を分析するこずにより、倚数の䞊行テキスト互いに正確に翻蚳された2぀の蚀語のテキストず区別されたした。 行を翻蚳するには、個々の単語やフレヌズの翻蚳を組み合わせお文章にし、もっずもらしいオプションを遞択する必芁がありたした。



画像



「er geht ja nicht nach hause」「圌は家に垰らない」ずいう文の個々の単語やフレヌズを英語に翻蚳するオプション。 オプションの品質は、たずえば、確率p e | f およびp f | e などの属性の倀の加重合蚈によっお決たりたす。ここで、 eおよびfは゜ヌスおよびタヌゲットのフレヌズです。 適切な翻蚳に加えお、フレヌズの順序も遞択する必芁がありたす。 フィリップケヌンプレれンテヌションからのむラスト。



ここで、機械翻蚳システムの2番目のコンポヌネント、぀たり蚀語の確率モデルが登堎したした。 叀兞的なバヌゞョン-n - gramの蚀語モデル -倉換テヌブルのように、単語の共同出珟に基づいおいたすが、今回は特定の接頭蟞 n個の前の単語の埌の単語に出䌚う確率に぀いおです。 生成された文の各単語の尀床が高いほど぀たり、単語の遞択により蚀語モデルを「驚かせる」ほど、自然に聞こえ、これが正しい翻蚳である可胜性が高くなりたす。 このような手法は、䞀芋制限はあるものの、非垞に高品質の翻蚳を実珟するこずを可胜にしたした。特に、蚀語の確率的モデルは単䞀蚀語䞊列ではないコヌパスでのみ孊習されるため、非垞に倧量のデヌタでトレヌニングできたす。そしお、圌女はあなたがどのように話すこずができるかに぀いおよく知らされたすが、どのようにされないでしょう。



ニュヌラルネットワヌクの出珟で䜕が倉わったのか



ニュヌラルネットワヌクは機械翻蚳ぞのアプロヌチを倉えたした。 珟圚、翻蚳は、文党䜓をベクトル衚珟この文の䞀般的な意味を蚀語に䟝存しない圢匏で含むに「゚ンコヌド」しおから、この衚珟をタヌゲット蚀語の単語に「デコヌド」するこずによっお行われたす。 これらの倉換は、倚くの堎合、オブゞェクトのシヌケンスこの堎合は単語のシヌケンスを凊理するために特別に蚭蚈されたリカレントニュヌラルネットワヌクを䜿甚しお実行されたす。



画像



3局モデルの゚ンコヌダヌ/デコヌダヌのスキヌム。 ゚ンコヌダヌ赀色の郚分は文の衚珟を生成したす。各ステップで、新しい入力単語ず先に読んだ単語の衚珟を組み合わせたす。 青色の郚分は、提案党䜓のプレれンテヌションです。 デコヌダヌ緑色の郚分は、元の文ず以前に生成された単語の衚珟に基づいお、出力蚀語で単語を発行したす。 ACL-2016のニュヌラルネットワヌク機械翻蚳チュヌトリアルから抜粋した図。



各ステップで、このようなニュヌラルネットワヌクは、新しい入力単語より正確には、そのベクトル衚珟ず以前の単語に関する情報を組み合わせたす。 ニュヌラルネットワヌクのパラメヌタヌは、各ステップで「忘れる」量ず「蚘憶する」量を決定するため、文党䜓の衚瀺には、そこから最も重芁な情報が含たれたす。 ゚ンコヌダヌ-デコヌダヌアヌキテクチャヌは既に叀兞的なものになっおいたす。たずえば、[1]で説明を読むこずができたす。



実際、このシステムの暙準バヌゞョンは期埅どおりに機胜しないため、優れた翻蚳品質を埗るには远加のトリックが必芁です。 たずえば、通垞のセルを含むリカレントネットワヌクは、募配の爆発たたは枛衰の圱響を受けたす぀たり、募配はれロたたは非垞に倧きな倀に収束し、倉化しなくなり、ネットワヌクの孊習が䞍可胜になりたす-異なる構造のニュヌロン-LSTM [2]およびGRU [このために提案されたした3]、各ステップで、どの情報を「忘れる」か、どの情報を枡すかを決定したす。 長い文を読むずき、システムはそれらがどこから始たったかを忘れたす-この堎合、[4]で行われたように、文を最初ず最埌から読む双方向ネットワヌクを䜿甚するのに圹立ちたす。 さらに、統蚈システムずの類掚により、元の文の個々の単語ずその翻蚳ずの察応を明確に描くこずが有甚であるこずが刀明したした-このために、他の問題ですでに䜿甚されおいた泚意メカニズムが適甚されたした機械翻蚳ぞの泚意の適甚は、たずえば、 [5]、泚意の簡朔で簡単な説明がこの投皿にありたす 。 これは、デコヌド翻蚳の生成時に、システムがこのステップで元の文のどの単語を翻蚳すべきかに぀いおの情報を受け取るずいう事実にありたす。



画像






゚ンコヌダヌデコヌダヌアヌキテクチャヌのアテンションメカニズム。 デコヌダヌの珟圚の状態Bは、゚ンコヌダヌの各状態Aず乗算されたす-このようにしお、入力ワヌドのどれが珟時点でデコヌダヌに最も関連するかを刀別したす乗算の代わりに、別の操䜜を䜿甚しお類䌌性を刀別できたす。 次に、この乗算の結果は、softmax関数によっお確率分垃に倉換されたす。これは、デコヌダの各入力語の重みを返したす。 重み付き゚ンコヌダヌ状態の組み合わせがデコヌダヌに䟛絊されたす。 クリス・オラヌの投皿から取られたむラスト。



これらすべおの远加手法を䜿甚しお、ニュヌラルネットワヌクでの機械翻蚳は統蚈システムを確実に無効にしたす。たずえば、 機械翻蚳システムの最埌の競争で、ニュヌラルネットワヌクモデルはほずんどすべおの蚀語ペアで最初になりたした。 ただし、過去の統蚈モデルには、ニュヌラルネットワヌクにただ転送できない機胜がありたす-これは、倧量の非䞊列デヌタ぀たり、他の蚀語ぞの翻蚳がないデヌタを䜿甚する機胜です。



非䞊列デヌタを䜿甚する理由



ニュヌラルネットワヌクシステムがそれらがなくおも非垞に優れおいる堎合、なぜ非䞊列デヌタを䜿甚するのでしょうか 実際には、高品質には非垞に倧量のデヌタが必芁であり、垞に利甚できるずは限りたせん。 ニュヌラルネットワヌクはトレヌニングデヌタの量を芁求しおいるこずが知られおいたす。 非垞に小さなデヌタセットでは、埓来の方法サポヌトベクタヌマシンなどがニュヌラルネットワヌクをバむパスするこずを簡単に確認できたす。 機械翻蚳には、最も人気のある蚀語ペア英語Europeanペヌロッパの䞻芁蚀語、英語䞭囜語、英語ロシア語の十分なデヌタがあり、そのような蚀語ペアのニュヌラルネットワヌクアヌキテクチャは非垞に良い結果を瀺しおいたす。 しかし、䞊列デヌタの提䟛が数癟䞇未満の堎合、ニュヌラルネットワヌクは圹に立ちたせん。 䞊列デヌタが豊富なそのような蚀語のペアはほずんどありたせんが、非垞に倚くの蚀語、およびニュヌス、ブログ、゜ヌシャルネットワヌク、政府機関の䜜品など、倚数の蚀語で単䞀蚀語のテキストを利甚できたす-新しいコンテンツは絶えず生成されおいたす。 これらのテキストはすべお、統蚈システムの改善に圹立ったのず同様に、ニュヌラルネットワヌク機械翻蚳の品質を改善するために䜿甚できたすが、残念ながら、そのような技術はただ開発されおいたせん。



より正確には、単䞀蚀語テキストでニュヌラルネットワヌク翻蚳システムをトレヌニングするいく぀かの䟋がありたす。[6]では、゚ンコヌダヌデコヌダヌアヌキテクチャず確率的蚀語モデルの組み合わせが説明され、[7]では、単䞀蚀語コヌパスの欠萜した翻蚳がモデル自䜓によっお生成されたす。 これらの方法はすべお翻蚳の品質を向䞊させたすが、ニュヌラルネットワヌク機械翻蚳システムでの単䞀蚀語コヌパスの䜿甚はただ䞀般的な慣行になっおいたせんトレヌニングで非䞊列テキストを䜿甚する方法はただ明確ではありたせん。さたざたな蚀語のペア、さたざたなアヌキテクチャなどに察応したす。これらは、ハッカ゜ンDeepHack.Babelで解決しようずする問題です。



非䞊列デヌタずDeepHack.Babel



制埡された実隓の実斜を詊みたす。参加者には非垞に小さな䞊列デヌタセットが䞎えられ、ニュヌラルネットワヌク機械翻蚳機を蚓緎し、単蚀語デヌタを䜿甚しお品質を改善するこずが提案されたす。 すべおの参加者は同じ立堎にありたす同じデヌタ、モデルのサむズずトレヌニング時間に関する同じ制限-この方法により、参加者によっお実装された方法のどれがより効果的であるかがわかり、非共通蚀語ペアの翻蚳の品質を改善する方法を理解するこずに近づきたす。 さたざたな耇雑さのさたざたな皋床の蚀語のいく぀かのペアで実隓を行い、さたざたな゜リュヌションがどのように倚甚されるかをテストしたす。



さらに、統蚈的な翻蚳では䞍可胜ず思われた、さらに野心的なタスク、぀たり䞊列デヌタなしの翻蚳に近づきたす。 倚くの関連する問題はただ解決されおいたせんが、平行テキストで翻蚳を教えるための技術はすでに知られおおり、うたく機胜しおいたす。 同等のコヌパス共通のテヌマず同様のコンテンツを持぀テキストのペアも機械翻蚳で積極的に䜿甚されたす[8]-これにより、りィキペディアなどのリ゜ヌスを䜿甚できたす異なる蚀語の察応する蚘事は単語ごずに䞀臎したせんが、同じオブゞェクトに぀いお説明したす 。 しかし、テキストが互いに察応しおいるかどうかに぀いおたったく情報がない堎合はどうでしょうか たずえば、特定の幎の2぀のニュヌス本文を異なる蚀語で分析する堎合、同じむベントが議論されたこずを確認できたす぀たり、別の本文の1぀の本文のほずんどの単語に察しお翻蚳がありたすが、文間たたは少なくずもテキスト間の察応を確立したす远加情報がなければ、できたせん。



そのようなデヌタを䜿甚するこずは可胜ですか これは空想科孊小説のように思えたすが、可胜な科孊文献にはすでにいく぀かの䟋がありたす。たずえば、最近の出版物[9]では、オヌト゚ンコヌダヌのノむズ陀去に基づいたシステムが説明されおいたす。 Hackathonの参加者は、これらの方法を再珟し、䞊行テキストでトレヌニングされたシステムをバむパスするこずができたす。



画像



䞊列デヌタのない機械翻蚳システムの動䜜原理。 自動゚ンコヌダヌ巊モデルは、歪んだバヌゞョンから文を埩元する方法を孊習しおいたす。 xは文、Cxは歪んだバヌゞョン、x̂は再構成です。 翻蚳者右モデルは文を別の蚀語に翻蚳するこずを孊習したす。 その入力では、前の反埩からのモデルのバヌゞョンによっお生成された、歪んだ倉換が生成されたす。 モデルの最初のバヌゞョンは、蟞曞蟞曞であり、これも䞊列デヌタを䜿甚せずにトレヌニングされたす。 2぀のモデルの組み合わせにより、䞊列デヌタでトレヌニングされたシステムに匹敵する翻蚳品質が実珟したす。 この図は蚘事[9]から匕甚したものです。



参加方法



ハッカ゜ン予遞の申し蟌みは、1月8日たで受け付けられたす。 予遞ラりンドのタスクは、英語からドむツ語ぞの機械翻蚳システムを教えるこずです。 デヌタず方法にただ制限はありたせん。参加者は、任意のケヌスず事前トレヌニングされたモデルを䜿甚し、奜みに応じおシステムアヌキテクチャを遞択できたす。 ただし、ITトピックに関する䞀連の提案でシステムがテストされるこずに泚意しおください。これには、関連する゜ヌスからのデヌタの䜿甚が含たれたす。 たた、アヌキテクチャに制限はありたせんが、ハッカ゜ンの䞻なタスクによりうたく察凊するために、参加者は適栌なタスクを完了するず、ニュヌラルネットワヌク倉換モデルに粟通するものず想定されたす。



システムが最高の翻蚳品質BLEUメトリック[10]で枬定されるを瀺す50人がハッカ゜ンに参加できたす。 遞択に合栌しなかった人は怒っおはいけたせん-圌らはリスナヌずしおハッカ゜ンに参加できたす毎日、機械翻蚳、機械孊習、ワヌドプロセッシングの専門家による講矩が開かれたす。



曞誌
  1. ニュヌラルネットワヌクを甚いたシヌケンス孊習 。 I. Sutskever、O。Vinyals、QVLe。
  2. LSTMサヌチスペヌスオデッセむ K.グレフ、RKSrivastava、J.Koutník、BR Steunebrink、J.Schmidhuber。
  3. 統蚈的機械翻蚳のためのRNN゚ンコヌダヌ-デコヌダヌを䜿甚したフレヌズ衚珟の孊習 。 K.Cho、Bv Merrienboer、C.Gulcehre、D.Bahdanau、F.Bougares、H.Schwenk、Y.Bengio。
  4. 䜍眮合わせず翻蚳の共同孊習による神経機械翻蚳 。 D.バヌダナり、K。チョ、Y。ベンゞオ。
  5. 泚意に基づくニュヌラル機械翻蚳ぞの効果的なアプロヌチ 。 M.-T.ルオン、H。ファム、CDマニング。
  6. 神経機械翻蚳における単䞀蚀語コヌパスの䜿甚に぀いお 。 C.グルケレ、O。フィラット、K。シュヌ、K。チョヌ、L。バロヌ、H.-C。リン、F。ブヌガヌレス、H。シュりェンク、Y。ベンゞオ。
  7. 単蚀語デヌタによる神経機械翻蚳モデルの改善 。 R.れンリッチ、B。ハドり、A。バヌチ。
  8. Earth Moverの距離正則化を䜿甚した非䞊列デヌタからのバむリンガルレキシカの誘導 M.Zhang、Y。Liu、H。Luan、Y。Liu、M。Sun.
  9. モノリンガルコヌパスのみを䜿甚した教垫なし機械翻蚳 。 G.ランプル、L。デノむダヌ、M。ランザヌト。
  10. BLEU機械翻蚳の自動評䟡のための方法 。 K.パピネヌニ、S。ルヌコス、T。ワヌド、W.-J。朱。



All Articles