Yandex.Translationはオフラむンです。 コンピュヌタヌがどのようにうたく翻蚳するこずを孊んだか

本日、iOS甚の曎新された Yandex.Translation アプリケヌションがApp Storeでリリヌスされたした。 今では党文翻蚳をオフラむンで行うこずができたす。 機械翻蚳は、郚屋や床党䜓を占めるメむンフレヌムから、ポケットに収たるモバむルデバむスに移行したした。 今日、以前は膚倧なリ゜ヌスを必芁ずしおいた党文統蚈機械翻蚳が、ネットワヌク接続なしでもモバむルデバむスのすべおのナヌザヌが利甚できるようになりたした。 人々は長い間「バビロニアの魚」を倢芋おきたした。これは普段持ち歩けるコンパクトな翻蚳者です。 そしお、この倢は埐々に実珟し始めおいるようです。 私たちは機䌚をずらえお、機械翻蚳の歎史ぞの小旅行を準備し、この興味深い分野が蚀語孊、数孊、コンピュヌタヌ科孊の接点でどのように発展したかに぀いお話し合うこずにしたした。







「機械はこれをすべお実行したす」、「電子脳はロシア語から英語に翻蚳したす」、「ロボット・ビリングア」などの新聞の芋出しは、1954幎1月8日の歓喜蚘者の読者に芋られたした。 そしお前日、1月7日にIBM 701科孊コンピュヌタヌが有名なゞョヌゞタりンの実隓に参加し、玄60のロシア語のフレヌズを英語に翻蚳したした。 Seven Hundred and Firstは、250語の蟞曞ず6぀の構文芏則を䜿甚したした。 そしお、もちろん、テストが実斜された非垞に慎重に遞択された提案のセット。 熱心なゞャヌナリストは、科孊者を匕甚しお、数幎埌には機械翻蚳が叀兞的な「マニュアル」をほが完党に眮き換えるず述べたほど説埗力がありたした。



ゞョヌゞタりンの実隓は、機械翻蚳の開発における最初のステップの1぀および自然蚀語を扱うためのコンピュヌタヌの最初のアプリケヌションの1぀でした。 その堎合、将来盎面する問題の倚くはそれほど明癜ではありたせんでした。 しかし、皮肉なこずに、䞻な問題は、最初からたったく同じであるずいうこずでした。最も難しいタスクは、コンピュヌタヌがあいたいな単語を扱うこずでした。 倚かれ少なかれ自然な文章では、システムはほずんど完党にタスクに察凊しなくなりたした。 このようなシステムの耇雑なマルチコンポヌネント構造も問題を匕き起こしたした。たずえば、構文解析が垞に正しく機胜せず、耇合語のギタヌピックピックが「ギタヌピック」ずしお翻蚳される可胜性がありたす。 あいたいな単語の翻蚳も䞍十分であり、その意味は文脈に䟝存しおいたした。 たずえば、「リトルゞョンは自分のおもちゃ箱を探しおいたした。 最埌に圌はそれを芋぀けたした。 箱はペンの䞭にあり、倚くの困難を匕き起こしたしたそしお、それを匕き起こし続けおいたす-「おもちゃ箱」ずしお翻蚳されたフレヌズ「おもちゃ箱」ず「おもちゃ箱」ではなく、「ペンで」 「ペンの䞭」、ベビヌペンの䞭ではありたせん。 困難は非垞に倧きく、その結果、過去12幎間にわたっおほずんど進歩はありたせんでした。 1966幎、砎壊的なALPACレポヌト自動蚀語凊理諮問委員䌚は、今埌10幎間の機械翻蚳の分野での研究を終了したした。



その間、ゞョヌゞタりンの実隓埌の気分はただ非垞にバラ色であり、機械翻蚳は玠晎らしい未来を予枬しおいたした。アメリカ人は戊略的な目的で新しい技術を䜿甚するこずを真剣に考え始めたした。 それは゜連で完党に理解されおいたす。 1955幎の初め、゜連科孊アカデミヌは2぀の研究グルヌプを䜜成したした-V.A. 。Panov。 䞡グルヌプはゞョヌゞタりン実隓の詳现な研究から始たり、1956幎にパノフは既にBESMコンピュヌタヌで行われた最初の機械翻蚳実隓の結果を抂説したパンフレットを発行したした。 同じ1956幎に研究所で同様の研究に関する出版物が続きたした。 Steklovは、Olga KulaginaずIgor Melchukによっお執筆されたした。これは、9月号の「Questions of Linguistics」に掲茉されたした。 この出版物にはさたざたな玹介蚘事が添付されおいたしたが、ここで興味深いこずが発芋されたした1933幎に、゚スペラント䞻矩者でTSBの共著者の1人であるピョヌトルペトロノィッチトロダンスキヌが、機械翻蚳プロゞェクトずこの問題に぀いお議論するためのリク゚ストで゜連科孊アカデミヌに申請したこずが刀明したしたアカデミヌの蚀語孊者ず。 科孊者はこのアむデアに懐疑的でした。プロゞェクトに関する議論は11幎続き、その埌、トロダンスキヌずのコミュニケヌションは突然倱われ、圌自身がモスクワを去ったず蚀われおいたす。



この歎史的な発芋は、研究者を驚かせたした。 調査が始たりたした。 Troyanskyの著䜜暩蚌明曞は、テキストを耇数の蚀語に同時にすばやく翻蚳できる「機械化された蟞曞」で芋぀けるこずができたした。 リアプノフが本発明に関する報告曞を読んだ別の党䜓䌚議の埌、科孊アカデミヌはトロダンスキヌの貢献を研究するための特別委員䌚を蚭立したした。 数幎が経ち、1959幎にようやく、「P.P。Troyanskyの翻蚳機械1933幎にP.P. Troyanskyによっお提案された、ある蚀語から他の蚀語ぞの翻蚳のための機械に関する資料のコレクション」がI. Kによっお発行されたした。ベルスキヌずD.ナ・パノフ。 たもなく、著䜜暩蚌明曞が発行され、そこからデバむスの非垞に独創的な技術的解決策が明らかになりたした。







このプロゞェクトでは、トロダンスキヌのマシンは傟斜面を備えたテヌブルであり、その前にカメラが取り付けられ、タむプラむタヌず組み合わされおいたした。 タむプラむタヌのキヌボヌドは通垞のキヌで構成されおいたため、圢態孊的および文法的な情報を゚ンコヌドできたした。 タむプラむタヌのリボンずカメラのフィルムを互いに接続し、同期しお䟛絊する必芁がありたした。 テヌブルの衚面には、いわゆる「甚語集フィヌルド」、぀たり蚀葉が印刷された自由に動くプレヌトが眮かれおいるはずでした。 各単語には、3、4、たたはそれ以䞊の蚀語での翻蚳が䌎いたした。 すべおの単語は、キヌボヌドの文字のように、最も頻繁に䜿甚される単語が䞭心に近づくように、最初の圢匏で指定し、黒板に配眮する必芁がありたした。 機械のオペレヌタは、甚語の文法情報ず圢態情報に関連するタむプラむタヌを入力しながら、甚語集のフィヌルドをシフトし、単語ずその翻蚳の写真を撮るこずになっおいた。 その結果、2本のテヌプが䜜成されたした。1本は䞀床に耇数の蚀語の単語を収録し、2本目は文法説明を収録したものです。 ゜ヌステキスト党䜓がこのように入力されるず、資料はネむティブスピヌカヌに枡されたした。監査人は2本のテヌプを比范し、それぞれの蚀語でテキストを䜜成したした。 さらに、資料は䞡方の蚀語を知っおいる線集者に匕き枡されるこずになっおいた。 圌らの仕事は、テキストを文孊圢匏にするこずでした。







本発明の䞻なアむデアは、翻蚳プロセスを3぀の䞻芁な段階に分割するこずですずころで、珟代の甚語の最初ず最埌は「事前線集」ず「事埌線集」ず呌ばれたす。 興味深いこずに、最も時間のかかるプロセスこの情報からの゜ヌステキストのコヌディングず他の蚀語でのテキストの合成には、オペレヌタヌの母囜語の知識のみが必芁です。



したがっお、翻蚳は最初に自然蚀語ずその論理圢匏の間で実行され、次に2぀の蚀語の論理圢匏の間で実行され、その埌、タヌゲット蚀語の論理圢匏のテキストが怜蚌され、自然圢匏に瞮小されたした。 科孊の歎史家ずしおのトロダンスキヌは、䞇囜語の䜜成ずむンタヌリングアによる翻蚳に぀いお、ラむプニッツずデカルトの理論を間違いなく知っおいたした。 圌が提案した技術は、これらの理論の圱響を远跡したす。 さらに、トロダンスキヌぱスペラント䞻矩者であり、゚スペラントの文法に基づいお文法情報をコヌディングするためのシステムを構築したした埌に政治的理由で攟棄を䜙儀なくされたした。



特に興味深いのは、すでに40代で、トロダンスキヌは「最新の通信技術に基づいた匷力な翻蚳デバむス」を䜜成する芋通しを怜蚎しおいたした。 しかし、圌の生涯の間に、発明者のアむデアは孊術界から倧きな懐疑心を抱き、その埌忘れられたした。 このトロむの朚銬は1950幎に亡くなりたしたが、゜ビ゚ト連邊で機械翻蚳の䜜業を開始するたではあたり生きおいたせんでした。 英語の機械翻蚳研究者ゞョン・ハチンズは、トロダンスキヌの貢献が忘れられなければ、圌の翻蚳機械の原理がBESMでの最初の実隓の基瀎を圢成し、これが発明者をりォヌレン・りィヌバヌずずもに機械翻蚳の「父」に入れるず信じおいたす。 しかし、残念ながら、歎史には仮定的な雰囲気はありたせん。



80幎代に40幎早送りしたす。 ALPACの埌、最も必死の愛奜家以倖は誰も機械翻蚳を真剣に望んでいたせんでした。 しかし、よくあるこずですが、ビゞネスは進歩の原動力ずなっおいたす。 1960幎代埌半には、䞖界のグロヌバル化ぞの道筋はすでに明らかでした。 囜際䌁業は、いく぀かの囜で同時に緊密な貿易関係を維持する必芁に迫られおいたす。 1980幎代には、ドキュメントやニュヌスを迅速に翻蚳するための技術に察するビゞネス需芁が増加し、機械翻蚳が「発芋」されたした。 将来の欧州連合である欧州経枈共同䜓はそれほど遅れおいたせんでした-1976幎、歎史䞊最初の商甚機械翻蚳者であるSYSTRANがこの組織で積極的に䜿甚されたした。 将来、このシステムは、自尊心のある囜際的な䌁業、れネラルモヌタヌズ、ドルニ゚、ア゚ロスパシアルのほが必須の買収ずなりたした。 日本も傍芳しおいたせんでした。欧米ずの仕事量は増え続けおおり、日本の倧䌁業はこの分野での開発を䜙儀なくされたした。 確かに、ほずんどの堎合、それらはSistranのようによく知られおいる「䞀般的な」傷害を持぀曖昧な単語、同音異矩語、および慣甚衚珟で正しく動䜜できないずいうルヌルベヌスのシステムのバリ゚ヌションです。 蟞曞の䜜成には専門の蚀語孊者の倧芏暡なスタッフの䜜業ず柔軟性が必芁であったため、このようなシステムも非垞に高䟡でした-新しい蚀語は蚀うたでもなく、必芁な䞻題分野ぞの適応は非垞に費甚のかかる䜜業でした 研究者は、芏則、意味論的、構文的、圢態孊的分析を䜿甚したシステムに焊点を圓おるこずを䟝然ずしお奜んでいたした。



機械翻蚳の真に新しい時代は、1990幎代に始たりたした。 研究者は、自然蚀語を正匏に説明するこずは非垞に難しく、正匏な説明を生きたテキストに適甚するこずはさらに難しいこずを認識したした。 難しすぎお、リ゜ヌスを倧量に消費するタスクでした。 他の方法を探す必芁がありたした。



い぀ものように、問題がほずんど解決できないように思われる堎合は、芖点を倉曎するず䟿利です。 IBMは珟堎に再び登堎し、その研究チヌムの1぀がCandideず呌ばれる統蚈的機械翻蚳システムを開発したした。 専門家は、情報理論の芳点から機械翻蚳の問題に取り組みたした。 重芁なアむデアは、いわゆる゚ラヌのあるチャネルノむズの倚いチャネルの抂念でした。 ゚ラヌのあるチャネルモデルは、蚀語Aのテキストを他の蚀語Bの暗号化されたテキストず芋なしたす。そしお、翻蚳者のタスクはこのテキストを解読するこずです。



面癜いむラストに頌りたしょう。 フランス語を勉匷しおいお、それを緎習するためにフランスに来たむギリス人を想像しおください。 列車はパリに到着し、私たちのヒヌロヌは北駅の荷物宀を芋぀ける必芁がありたす。 怜玢に倱敗した埌、圌はようやくランダムな通行人になり、事前に英語でフレヌズを考えた埌、巊荷物オフィスの堎所を知っおいるかどうかをフランス語で尋ねたす。 想像された英語のフレヌズは、いわば「歪んで」おり、フランス語のフレヌズに倉わりたす。 残念ながら、通行人はむギリス人であり、フランス語の知識が乏しい。 圌はフレヌズの意味を埩元し、フランス語での知識ず、察談者が意味する可胜性が最も高いず思われるもののおおよその考えの助けを借りお埩元しようずしたす-぀たり、より簡単に蚀えば、圌はどの英語フレヌズを意図したかを掚枬しようずしたす。



IBMの埓業員は、フランス語ず英語のみを䜿甚しおいたした。調査チヌムの手には、カナダ政府からの膚倧な数の䞊行文曞がありたした。 研究者は、2぀の蚀語で特定の長さの単語のすべおの組み合わせの確率を収集し、別の蚀語の組み合わせに察応するこれらの組み合わせのそれぞれの確率を収集したした。



さらに、 eの最も可胜性の高い翻蚳、たずえば英語ぞの翻蚳、たずえばフランス語のフレヌズfは、次のように定矩できたす。







ここで、 Eはモデル内のすべおの英語フレヌズです。 英囜人が同胞の考えを掚枬しようずするず、アルゎリズムは、英語で最も頻繁なフレヌズを芋぀けようずしたす。これは、フランス語のフレヌズが発音されたずきに考えられるこずず少なくずも関係がありたす。



この単玔なアプロヌチが最も効果的であるこずが刀明したした。 IBMは蚀語芏則を適甚したせんでした。実際、グルヌプ内のフランス語を知っおいる人はほずんどいたせんでした。 それにも関わらず、Candideは機胜し、さらには非垞にうたく機胜したした この研究の結果ずシステムの党䜓的な成功は、機械翻蚳の分野における真のブレヌクスルヌでした。 そしお最も重芁なこずは、Candideの経隓が、翻蚳ルヌルを䜜成するために䞀流の蚀語孊者の高䟡なスタッフを必芁ずしないこずを蚌明したこずです。 むンタヌネットの開発により、翻蚳ず蚀語の倧芏暡なモデルを䜜成するために必芁な膚倧な量のデヌタにアクセスできるようになりたした。 研究者は、翻蚳アルゎリズムの開発、䞊列テキストのケヌスの収集、異なる蚀語での文ず単語の敎列に努力を集䞭したした。



その間、統蚈的機械翻蚳は産業開発段階にあり、埐々にむンタヌネットナヌザヌに到達し、ルヌルベヌスのシステムがオンラむン翻蚳垂堎を支配したした。 ルヌルベヌスの翻蚳は、むンタヌネットよりもずっず前に登堎し、デスクトップコンピュヌタヌ甚のプログラムず、少し埌にポヌタブルパヌムサむズおよびハンドヘルドデバむスで倧衆ぞず発展し始めたこずに泚意する必芁がありたす。 オンラむンナヌザヌ向けのバヌゞョンは90幎代半ばにのみ登堎し、最も広く䜿甚されおいたのは䜿い慣れたSistranでした。 1996幎、むンタヌネットナヌザヌが利甚できるようになりたした-このシステムにより、小さなテキストをオンラむンで翻蚳するこずができたした。 この開発の埌たもなく、SistranはAltaVista怜玢゚ンゞンの䜿甚を開始し、BabelFishサヌビスを開始したした。これは、2012幎たでYahooの䞀郚ずしお成功したした。 1998幎にWebアプリケヌションずしお登堎し、すぐにRunetで人気を博したPROMT-onlineは独自の技術を䜿甚したしたが、ルヌルベヌスの機械翻蚳パラダむムでも機胜したした。



統蚈オンラむン翻蚳の先駆者Googleは、2007幎に初めお翻蚳サヌビスの最初のバヌゞョンを開始したしたが、すぐに䞖界的な人気を獲埗したした。 珟圚、このサヌビスは70を超える蚀語の翻蚳だけでなく、゚ラヌ修正、スコアリングなどの䟿利なツヌルも提䟛しおいたす。その埌、それほど人気が​​なく、非垞に匷力で積極的に開発されおいるMicrosoftのオンラむン翻蚳者が続きたす。 50以䞊の蚀語。 2011幎にYandex.Translationが登堎したした。Yandex.Translationは珟圚40以䞊の蚀語をサポヌトし、入力を簡玠化し、翻蚳の品質を向䞊させるさたざたなツヌルを提䟛しおいたす。



Yandex.Translationの歎史は、2009幎倏にYandexが統蚈的機械翻蚳の分野で研究を開始したずきに始たりたした。 それはすべお、統蚈的翻蚳のオヌプンシステムでの実隓から始たり、䞊行ドキュメントの怜玢技術の開発、テストシステムの䜜成、翻蚳の品質の評䟡から始たりたした。 2010幎に、圌らは翻蚳モデルを構築するための非垞に効率的な翻蚳アルゎリズムずプログラムの䜜業を開始したした。 2011幎3月16日、Yandex.Translationサヌビスのパブリックベヌタ版が、英語ずロシア語およびりクラむナ語ずロシア語の2぀の蚀語ペアで開始されたした。 2012幎12月に、iPhone甚のモバむルアプリケヌションが登堎し、6か月埌にAndroid甚のバヌゞョン、6か月埌にWindows Phone甚のバヌゞョンが登堎したした。



ここで、物語の出発点、぀たりオフラむン翻蚳の出珟に戻りたす。 統蚈的機械翻蚳はもずもず、無制限のRAMリ゜ヌスを備えた匷力なサヌバヌプラットフォヌムで動䜜するように開発されたこずを思い出しおください。 しかし、それほど前ではありたせんが、匷力なサヌバヌアプリケヌションを凊理しおスマヌトフォン甚のコンパクトなアプリケヌションにするずいう反察方向ぞの動きが始たりたした。 2幎前、Windows Phone甚のBing Translatorアプリケヌションはむンタヌネットに接続せずに動䜜するこずを孊び、2013幎にGoogleはAndroidプラットフォヌムでフルテキストのオフラむン翻蚳を開始したした。 Yandexもこの方向で働き、珟圚はiOS甚のYandex.Translateモバむルアプリで、最初にオフラむン蟞曞を䜿甚できるようになり、今では党文翻蚳が可胜になりたした。 以前はメむンフレヌムシステムを備えたフロア、そしお数十ギガバむトのRAMを備えた匷力なサヌバヌが必芁でしたが、今日はポケットや財垃に収たり、リモヌトサヌバヌにアクセスするこずなく自埋的に動䜜したす。 このような翻蚳者は、むンタヌネットがただない堎所でも機胜したす-雲の䞊、雲の䞋、さらには宇宙で2䞇のリヌグで。



芁玄するず、過去数十幎間の機械翻蚳の分野では、倧きな進歩があったず蚀えたす。そしお、銀河のあらゆる蚀語からナヌザヌに芋えない瞬間ぞの翻蚳はただ非垞に遠いですが、過去数十幎にわたっおこの分野で倧きな飛躍が行われたずいう事実は疑いを生じさせたせんが、私は新しい䞖代の機械翻蚳システムが着実に努力したす。



All Articles