たれな蚀語の翻蚳を独自に䜜成する方法をYandexがマシンに教えた方法

ロシアだけでも100を超える蚀語があり、その倚くは数䞇人から数十䞇人が母囜語です。 さらに、それらのいく぀かは、䜿甚が制限されおいるか、絶滅の危機にonしおいたす。 機械翻蚳はこれらの蚀語を維持するのに圹立ちたすが、そのためには、こうしたシステムすべおの䞻な問題、぀たり孊習の䟋の䞍足を解決する必芁がありたす。



Yandexは2011幎から機械翻蚳技術に取り組んでおり、今日は新しいアプロヌチに぀いおお話したす。おかげで、以前は困難だった蚀語の翻蚳者を䜜成できるようになりたした。







ルヌルず統蚈



機械翻蚳、぀たり、ある人間の蚀語から別の蚀語ぞの自動翻蚳は、前䞖玀の䞭頃に始たりたした。 基準点は、1954幎1月7日に実斜されたゞョヌゞタりンの実隓であるず考えられおおり、ロシア語の60以䞊のフレヌズがコンピュヌタヌによっお英語に翻蚳されたした。 実際、これはたったく実隓ではなく、よく蚈画されたデモンストレヌションです。蟞曞には250゚ントリしか含たれおおらず、6぀のルヌルのみで機胜したした。 それにもかかわらず、結果は倧衆に感銘を䞎え、機械翻蚳の発展に拍車をかけたした。



そのようなシステムは、翻蚳の品質を決定する蟞曞ずルヌルに基づいおいたした。 プロの蚀語孊者は、長幎にわたっお、より詳现で包括的な手動ルヌル実際には、正芏衚珟を考案するために取り組んできたした。 この䜜業は非垞に時間がかかるため、最も人気のある蚀語のペアにのみ真剣な泚意が払われたしたが、それらのフレヌムワヌク内でさえ、マシンは䞍十分に察凊したした。 生きた蚀語は非垞に耇雑なシステムであり、芏則に埓わず、絶えず進化しおおり、ほが毎日新しい単語や構文で豊かになっおいたす。 2぀の蚀語の通信芏則を蚘述するこずはさらに困難です。 同じ単語は、文脈に応じお完党に異なる翻蚳を持぀こずができたす。 たた、フレヌズ党䜓に独自の安定した翻蚳を含めるこずができたす。 たずえば、「 モルドヌルに入るのは簡単ではありたせん 。」



マシンが垞に倉化する条件に適応し、コンテキストを考慮する唯䞀の方法は、倚数の関連テキストから孊習し、パタヌンずルヌルを個別に識別するこずです。 これは、機械翻蚳ぞの統蚈的アプロヌチです。 これらのアむデアは20䞖玀半ばから知られおいたすが、あたり配垃されおいたせん。ルヌルベヌスの機械翻蚳は、倧きな蚈算胜力ずトレヌニングベヌスがない堎合にうたく機胜したした。



コンピュヌタヌの総圓たりは科孊ではない



統蚈的アプロヌチの開発の新しい波は、前䞖玀の80〜90幎代に始たりたした。 IBM Researchは、倚数のカナダ議䌚文曞にアクセスし、それらを䜿甚しおスペルチェックシステムで䜜業したした。 そしお、このために、圌らはノむズの倚いチャネルモデルずしお知られるかなり興味深いアプロヌチを䜿甚したした。 その意味は、テキストAはテキストBず芋なされたすが、゚ラヌがあるこずです。 そしお、マシンのタスクはそれらを排陀するこずです。 このモデルは、すでに入力された数千のドキュメントでトレヌニングされたした。 ノむズの倚いチャンネルに぀いおは、 Habréの他の投皿で詳しく読むこずができたす。ここで重芁なのは、このアプロヌチがスペルに適しおいるこずが蚌明されたためです。 カナダには2぀の公甚語英語ずフランス語があるため、翻蚳者の助けを借りお、オペレヌタヌの半分を解雇しお、手動で入力するテキストの量を枛らしたいず考えたした 。 しかし、時間が経぀に぀れお問題が発生したため、リヌダヌが䌑暇をずる瞬間を埅぀必芁があり、その機䌚は期限に぀いお創造的であり、研究を行うように芋えたした。



圌らの仕事の結果は公衚されたが、圌らは皆に感銘を䞎えなかった。 コンピュヌタ蚀語に関する䌚議の䞻催者COLINGは、圧倒的なレビュヌを曞きたした







結果は圓時の最高のルヌルベヌスのシステムの結果よりも悪かったが、手䜜業の削枛を䌎うアプロヌチ自䜓、䞖界䞭の研究者が興味を持っおいた。 そしお、圌らに盎面した䞻な問題は、機械孊習のための十分な数の翻蚳䟋の欠劂でした。 芋぀かった資料はすべお䜿甚されたした。囜際的な囜連文曞、文曞、参考曞、聖曞、コヌランのデヌタベヌス䞖界のほがすべおの蚀語に翻蚳されおいたす。 しかし、質の高い仕事のためには、もっず必芁でした。



怜玢する



むンタヌネットには毎日䜕十䞇もの新しいペヌゞが衚瀺され、その倚くは他の蚀語に翻蚳されおいたす。 このリ゜ヌスはマシンのトレヌニングに䜿甚できたすが、入手するのは困難です。 この経隓には、むンタヌネットのむンデックスを䜜成し、数十億のWebペヌゞでデヌタを収集する組織がありたす。 たずえば、怜玢゚ンゞン。



Yandexは、むンタヌネットのデヌタから孊習する独自の機械翻蚳システムを5幎間開発しおいたす。 その結果は、Translator、Search、Browser、Mail、 Zen 、および他の倚くのサヌビスで䜿甚されたす。 圌女は次のように蚓緎されおいたす。 最初に、システムは文曞アドレスでパラレルテキストを怜玢したす。ほずんどの堎合、このようなアドレスは、英語バヌゞョンの堎合は「en」、ロシア語バヌゞョンの堎合は「ru」などのパラメヌタヌのみが異なりたす。 孊習したテキストごずに、システムは固有の機胜のリストを䜜成したす。 特定の順序でテキストに含たれる単語、数字、特殊文字はほずんど䜿甚できたせん。 システムが属性を備えた十分な数のテキストを入力するず、それらの助けを借りお䞊列テキストの怜玢が開始されたす。新しいテキストず既に孊習したテキストの蚘号を比范したす。



翻蚳者が最新の品質基準を満たすためには、システムは䞡方の蚀語で数癟䞇のフレヌズを孊習する必芁がありたす。 怜玢テクノロゞヌはそれらを芋぀けるこずができたすが、翻蚳の最も人気のある分野のみです。 他のすべおの人にずっおは、りィキペディアたたは聖曞のみで孊習する昔ながらの方法を詊すこずができたすが、翻蚳の品質は数十幎前に戻りたす。 クラりド゜ヌシング Yandex.TolokaたたはAmazon Mechanical Turkを接続し、さたざたな囜の倚数の人々の努力を通じお、翻蚳の䟋を収集できたす。 しかし、それは長く、高䟡であり、必ずしも効果的ではありたせん。 可胜な限りクラりド゜ヌシングを䜿甚しようずしおいたすが、代替゜リュヌションを芋぀けるこずができたした。



モデルのコレクションずしおの蚀語



長い間、統蚈的な翻蚳は語圙モデルのみに基づいおいたした。 異なる単語ず他の蚀語特性ずの芪族関係を考慮しないモデル。 簡単に蚀えば、「母」ず「母」ずいう蚀葉は、モデルの芳点からはたったく異なる2぀の蚀葉であり、翻蚳の品質は適切な䟋の存圚によっおのみ決定されたした。



数幎前、業界では、玔粋な語圙モデルに圢態倉曲ず単語圢成および構文文の構築のモデルを远加するこずにより、統蚈的機械翻蚳の品質を向䞊できるずいう理解が珟れたした。 これは、蚀語孊者の手䜜業による芏則に向かっお埌退しおいるように芋えるかもしれたせんが、そうではありたせん。 手動ルヌルに基づくシステムずは異なり、圢態および構文モデルは、すべお同じ統蚈に基づいお自動的に生成できたす。 「お母さん」ずいう蚀葉の簡単な䟋 さたざたな圢匏でこの単語を含む数千のテキストをニュヌラルネットワヌクにフィヌドするず、ネットワヌクは単語圢成の原理を「理解」し、コンテキストに応じお正しい圢匏を予枬するこずを孊習したす。



単玔な蚀語モデルから包括的なモデルぞの移行は党䜓的な品質に良い圱響を䞎えたしたが、それでも小さな蚀語では芋぀けにくい数癟䞇の䟋が必芁です。 しかし、ここで倚くの蚀語が盞互接続されおいるこずを思い出したした。 そしお、この事実を䜿甚するこずができたす。



家族の絆



私たちは、独立したシステムずしおの各蚀語の䌝統的な認識から離れ、それらの間の芪族関係を考慮するこずから始めたした。 実際には、これはこれを意味したす。 翻蚳を䜜成する必芁がある蚀語があり、そのための十分なデヌタがない堎合は、他のより倧きな関連蚀語を䜿甚できたす。 個々のモデル圢態、構文、語圙を䜿甚しお、「小さな」蚀語のモデルの空癜を埋めるこずができたす。

蚀語間で単語やルヌルを盲目的にコピヌするこずに぀いお話しおいるように思えるかもしれたせんが、このテクノロゞヌは少し賢く機胜したす。 私は、非垞に狭い円で非垞に人気のある蚀語の実際の䟋ですぐにそれを怜蚎するこずを提案したす。



パピアメント



パピアメントはアルバ 、キュラ゜ヌ、ボネヌルの母囜語で、玄30䞇人が話しおいたす。 アルバで生たれた同僚の䞀人を含む。 圌は私たちをパピアメントをサポヌトする最初の人に招埅したした。 りィキペディアでのみこれらの島に぀いお知っおいたしたが、そのような提案を逃すこずはできたせんでした。 そしお、ここに理由がありたす。







人々がネむティブでない蚀語を話す必芁がある堎合、ピゞンず呌ばれる新しい蚀語が衚瀺されたす。 ほずんどの堎合、ピゞンはペヌロッパ人が占領した島で発生したした。 怍民地䞻矩者は他の地域から劎働力を持ち蟌み、お互いの蚀語を知らなかったこれらの人々はどういうわけかコミュニケヌションをずらなければなりたせんでした。 圌らの唯䞀の共通蚀語は怍民地䞻矩者の蚀語であり、通垞は非垞に単玔化された圢匏で習埗されたす。 そのため、倚くのピゞンが英語、フランス語、スペむン語、その他の蚀語に基づいお登堎したした。 その埌、人々はこの蚀語を子䟛たちに䌝えたした。そしお、圌らのために、それはすでにネむティブになりたした。 誰かのネむティブになったピゞンは、クレオヌル語ず呌ばれたす。



Papiamentoは、XVI䞖玀に登堎したクレオヌル語です。 その語圙のほずんどはスペむン語たたはポルトガル語に由来したすが、英語、オランダ語、むタリア語、および珟地語からの単語がありたす。 たた、以前にCreoleでテクノロゞヌをテストしたこずがないため、このチャンスを぀かみたした。



新しい蚀語のモデリングは、垞にコアの構築から始たりたす。 蚀語がどれほど「小さく」おも、垞に他の蚀語ず区別する独自の機胜を備えおいたす。 そうでなければ、単に独立した蚀語に垰するこずができたせん。 これらは、独自の䞀意の単語、たたは関連する蚀語で繰り返されないある皮の単語圢成芏則である堎合がありたす。 これらの機胜はコアを構成し、いずれの堎合もモデル化する必芁がありたす。 このためには、少数の翻蚳䟋で十分です。 パピアメントの堎合、私たちは自由に聖曞を英語、スペむン語、オランダ語、ポルトガル語、そしお実際にはパピアメントに翻蚳したした。 さらに、ペヌロッパ蚀語の1぀に翻蚳されたネットワヌクからの少数のドキュメント。



papiamentoの䜜業の初期段階は、倧きな蚀語の翻蚳者を䜜成するこずず倉わりたせんでした。 䜿甚可胜なすべおの材料をマシンにロヌドし、プロセスを開始したす。 異なる蚀語で曞かれた䞊列テキストで実行され、芋぀かった各単語の翻蚳確率の分垃を構築したす。 ずころで、このプロセスでのニュヌラルネットワヌクの䜿甚に぀いお話すこずは今では流行しおおり、その方法も知っおいたすが、倚くの堎合、よりシンプルなツヌルで十分です。 たずえば、゚ルフ蚀語埌で説明したすの堎合、最初にニュヌラルネットワヌクを䜿甚しおモデルを䜜成したしたが、最終的にはニュヌラルネットワヌクなしで開始したした。 単玔な統蚈ツヌルで結果が悪化するこずはなく、必芁な劎力も少ないためです。 しかし、気が散りたした。



システムは、パラレルテキストを芋お、その語圙を補充し、翻蚳を蚘憶したす。 数癟䞇の䟋がある倧芏暡な蚀語の堎合、これ以䞊行う必芁はありたせん-システムはすべおの可胜な単語、その圢匏を芋぀けお翻蚳を蚘憶するだけでなく、コンテキストに応じおアプリケヌションのさたざたなケヌスを考慮したす。 小さな蚀語では、より困難です。 コアをモデル化したしたが、䟋ではすべおの単語を完党にカバヌするには䞍十分であり、単語の圢成を説明しおいたす。 したがっお、私たちのアプロヌチの基瀎ずなるテクノロゞヌは、既存の䟋でもう少し深く機胜し、他の蚀語の知識を䜿甚したす。



たずえば、スペむン語の圢態に埓っお、耇数圢は-s / -esずいう語尟を䜿甚しお圢成されたす。 スペむン語の翻蚳で耇数ず䌚う機械は、パピアメント翻蚳の同じ単語が耇数圢で曞かれおいる可胜性が最も高いず結論付けおいたす。 この機胜により、自動翻蚳者は、末尟に-nanが付いたpapiamentoの単語が耇数圢を瀺すずいう芏則を考案したした。翻蚳が芋぀からない堎合は、末尟を砎棄しお単数圢の翻蚳を芋぀けおください。 同様に、他の倚くの倉曲ルヌルに぀いおも同様です。







それは圢態孊でより明確になりたしたが、単語の最初の圢でさえ機械に知られおいない堎合はどうでしょうか パピアメントずいう蚀葉のほずんどは、ペヌロッパの蚀葉に由来しおいるこずを芚えおいたす。 自動翻蚳者がpapiamentoで未知の単語「largu」に遭遇し、英語ぞの翻蚳を探したいずしたしょう。 マシンは、この単語がスペむン語ずポルトガル語の䞡方の単語「largo」に非垞に䌌おいるこずに気付きたす。 これらの単語の意味が䞀臎しないだけですそれぞれ「長い」ず「広い」。 ナビゲヌトする蚀語は䜕ですか 機械翻蚳システムはこの問題を次のように解決したす。 圌女は䞡方のバヌゞョンの翻蚳を䜜成し、研究した数癟䞇の英語文曞を利甚しお、どちらのオプションが自然なテキストに䌌おいるかを結論付けたす。 たずえば、「ロングテヌルク゚リ」は「ワむドテヌルク゚リ」よりも真実である可胜性が高くなりたす。 そのため、この特定のケヌスでは、「largu」ずいう蚀葉はポルトガル語ではなくスペむン語から来たこずを芚えおいたす。 したがっお、ほずんどの未知の単語に぀いおは、機械は既補の䟋や手動の介入なしで自動的に孊習したす。







その結果、より倧きな蚀語からの借入のおかげで、叀兞的な統蚈的機械翻蚳では凊理できないほどの量の䟋で、パピアメントから/ぞの翻蚳を構築するこずができたした。



ゎルノマリスキヌ



別の䟋。 私たちは定期的にロシアの人々の蚀語のサポヌトを远加し、ある時点でマリ語に到達したした。そこでは、執筆の最初19䞖玀から、牧草地東郚ず山西郚の2぀の文孊バヌゞョンが区別されたした。 それらは字句的に異なりたす。 それにもかかわらず、蚀語は非垞に類䌌しおおり、盞互に理解されおいたす。 マリ語で最初に印刷されたテキスト-1821幎の「犏音曞」は山マリでした。 ただし、はるかに倚くの牧草地マリがあるため、デフォルトのマリ語は通垞牧草地ず芋なされたす。 同じ理由で、牧草地マリにははるかに倚くのテキストがあり、叀兞的なアプロヌチには問題がありたせんでした。 しかし、鉱業のために、私たちはテクノロゞヌを借甚しお適甚したした。 基瀎ずしお、私たちは既補の牧草地バヌゞョンを取り、既存の蟞曞を䜿甚しお語圙を調敎したした。 さらに、ロシア語が重宝し、長幎にわたっおマリに倧きな圱響を䞎えおきたした。



むディッシュ語



むディッシュ語は、X-XIV䞖玀に高ドむツ語の方蚀に基づいお生たれたした-珟代ドむツ語の基瀎を圢成したのず同じ方蚀です。 したがっお、むディッシュ語ずドむツ語の倚くの単語は同じか非垞に䌌おいたす。 これにより、ドむツ語のデヌタに埓っお収集された語圙ず圢態の補助モデルを䜿甚できたした。 同時に、むディッシュ語の蚘述はヘブラむ語のアルファベットに基づいおいるため、ヘブラむ語はそれをモデル化するために䜿甚されたした。 掚定によるず、ヘブラむ語ずドむツ語からの借甚で補完されたむディッシュ語から/ぞの翻蚳は、叀兞的なアプロヌチず比范しおより高品質です。



゚ルフ



私たちのチヌムは䜜家のTolkienの䜜品が倧奜きなので、Sindarin䞭぀囜の゚ルフの蚀語の1぀の翻蚳は時間の問題でした。 ご存知のように、この蚀語はたれであり、ネむティブスピヌカヌに䌚うのはそれほど簡単ではありたせん。 したがっお、私は䜜家の仕事の蚀語孊的研究に頌らなければなりたせんでした。 Sindarinを構成する著者はりェヌルズ語に基づいおおり、その䞭には初期子音の特城的な亀替がありたす。 たずえば、「ルヌン」は「certh」になり、その前に明確な蚘事がある堎合、「i gerth」になりたす。 アむルランド語、スコットランド語、りェヌルズ語から倚くの蚀葉が借りられたした。 幞いなこずに、著者はか぀お、詳现な蟞曞だけでなく、既存の蚀語からSindarinに単語を音蚳するための芏則も線集したした。 このすべおが、翻蚳者を䜜成するのに十分であるこずが刀明したした。



新しいアプロヌチを䜿甚した蚀語の䟋を続けるこずができたす。 珟圚では、バシキヌル、りズベク、マラヌティヌ、ネパヌルでもこの​​技術をうたく適甚しおいたす。 これらの蚀語の倚くは正匏に「小さい」ず呌ぶこずさえできたせんが、私たちのアプロヌチの特異性はたさにこれにありたす-芪族関係が明確に远跡されるあらゆる堎所で䜿甚できたす。 小さな蚀語の堎合、原則ずしお、圌は翻蚳者を䜜成し、他の人のために-品質の氎準を䞊げるこずができたす。 そしお、これはたさに私たちが近い将来に行う予定です。



All Articles