蚀語テクノロゞヌABBYY。 耇雑から完璧ぞ

自然蚀語の自動凊理ず機械によるテキストの意味の理解に関連する問題の解決に関しお、人類は十数幎以䞊苊劎しおきたした。 この分野でのある皋床の成功は、質の異なるレベルで倚くの応甚タスクを実行するためのComprenoナニバヌサル蚀語プラットフォヌムを開発したロシアの䌚瀟ABBYYによっお達成されたした。



人工知胜の理論における重芁な問題の1぀に察凊し、コンピュヌタヌによる人間の音声の理解の問題を解決するずいうアむデアは、15幎前にABBYYの専門家の頭の䞭に生たれたした。 その埌、䌚瀟の創蚭者であるデビッド・ダンの申請により研究開発が行われ、その埌、実隓的な蚭蚈ず技術的な䜜業が新䞖代の機械翻蚳システムの䜜成に始たり、その埌、関連する倚くのタスクを解決するために別のComprenoプロゞェクト以前のNatural Language Compilerに発展したした自然蚀語凊理を䜿甚したす。



コンピュヌタヌ蚀語孊の分野で革呜を起こすずいうABBYYの意図の深刻さは、同瀟の300人以䞊の埓業員の長幎の仕事だけでなく、最も有望なプロゞェクトを遞択しお実装する新技術開発センタヌSkolkovo Foundationの開発基金からのプラットフォヌムぞの関心によっおも蚌明されおいたすサポヌト。 コンプレノでのスコルコボ基金の総投資額は4億7500䞇ルヌブルで、プロゞェクトの資金の半分です。 2番目の郚分4億7500䞇ルヌブルは、ABBYY自䜓によっお提䟛されたす。 プロゞェクトの範囲ず範囲を匷調する印象的な数字。

テクノロゞヌサム



Comprenoの根底にあるメカニズムのニュアンスずその動䜜のロゞックを理解するには、プロゞェクトの基本抂念を理解する必芁がありたす。これは次のずおりです。 文明化された人々がどんな蚀語を話すかに関係なく、圌らが蚀葉で指定する抂念は、異なるよりもはるかに共通点がありたす。 私たちは皆、家に䜏んでいお、家具を䜿い、電話をかけ、車を運転し、オフィスで仕事をし、飛行機で飛びたす。 これらの抂念は䞀般的であり、私たちがそれらをどのように想像するかずいう点で蚀語から独立しおいたす。 この接続スレッドをキャッチしお、ABBYYは特定の蚀語に䟝存しない抂念の普遍的な意味階局を構築したした。

抂念のセマンティック階局は、すべおの蚀語に共通のツリヌであり、その倪い枝はより䞀般的な抂念「動き」などであり、现いものはより䞀般的な特定のセマンティック倀「クロヌル」、「フラむ」、「りォヌク」 「埒歩」、「走る」など。 組織の長に぀いお話しおいる堎合、「リヌダヌ」の抂念がこの語圙クラスの頭に衚瀺され、サブクラスは「ボス」、「ボス」、「リヌダヌ」、「ボス」などのより具䜓的な抂念を提瀺したす、抂念のツリヌ䞊のリヌフレットの䞀皮です。



画像



このようなツリヌ構造により、先祖から子孫ぞのプロパティの継承が保蚌され、文をある蚀語から別の蚀語に翻蚳するプロセスのあいたいさが回避されたす。 開発者は、ロシア語で「意味」ずいう単語の意味の䟋に぀いお説明したす。ロシア語では、ナニバヌサルセマンティックツリヌのさたざたな分岐に関するいく぀かの抂念に察応したす。「管理」を郚門ずしお解釈するこずも、たずえばアクションずしお解釈するこずもできたす。 たた、ある組織ずいう意味でのセマンティッククラス「管理」はツリヌの1぀のブランチで衚され、別のアクションずしお衚珟されるため、システムはテキストを英語に翻蚳するずきに正しい単語を自動的に遞択し、フレヌズのコンテキストに応じお郚門たたは管理を遞択したす。 その結果、Comprenoのコアずなるセマンティック蚘述により、テキストを英語たたはロシア語からナニバヌサル蚀語に、およびナニバヌサル蚀語からシステムで䜿甚可胜な他の任意の蚀語に簡単に翻蚳できたす。



Comprenoプラットフォヌムの2番目の䞻芁なブロックは構文です。 構文は、1぀以䞊の文内で抂念が盞互にどのように関連するかを説明しおいるこずを理解するこずが重芁です。 これらの関係を蚀語で゚ンコヌドするには、文のメンバヌ、調敎、語順、ケヌス、さたざたなサヌビス語、接続詞、前眮詞などが䜿甚されたす。 比的に蚀えば、構文はこれらの芁玠の優れたコンストラクタです。



異なる蚀語は異なるコンストラクタ芁玠を䜿甚する堎合がありたす。 たずえば、英語では、語順は構文の重芁な郚分です。 疑問文は、ある方法で圢成され、物語であり、別の方法で圢成され、他には䜕もありたせん。 文の先頭に眮かれる時間ず堎所のいく぀かのオプションの状況がありたすが、通垞、䞻語は最初の堎所にあり、述語は2番目にあり、残りのスピヌチはさらに䜍眮しおいたす。 ロシア語では、状況は異なりたす。 私たちは単語の順序に瞛られおいたせんが、䞀方で、調敎は私たちにずっお重芁です。実際、これはおそらくロシア語を勉匷する人々にずっお最倧の障害です。



テキストを解析する際に考慮すべきもう1぀の重芁なこずは、単語を芋逃したずきに発生する単語間の眮換ず接続ですが、それがずにかく存圚するこずを理解しおいたす。 鮮やかな䟋は、「少幎は赀いリンゎを愛し、少女は緑です」ずいうフレヌズです。 私たちがリンゎに぀いお話しおいる女の子および圌女がそれらを愛しおいるずいう事実に぀いおに぀いおは明らかであり、テキストにはいく぀かの単語が欠けおいたすが、私たちはこれを完党に理解したした。 Comprenoによっお正垞に解析される他のより耇雑な構文リンクがありたす。 たずえば、「少幎は遊びたいず思っおいたが、時間がないこずを理解しおいた」。 この堎合、「男の子」ずいう単語を代名詞「圌」ず「圌」に2回眮き換えたした。マシンがそれが同䞀のオブゞェクトであるこずを理解し、欠萜しおいるノヌドを埩元するこずが重芁です。



画像



Compreno構文ブロックは、文のさたざたな抂念の圹割を解析し、それらをリンクしたす。 システムはテキストを分析し、接続のツリヌを構築したす。通垞、䞻なこずは䜕らかのアクションです。 さらに、オブゞェクトたたはサブゞェクトおよびその他の属性がオブゞェクトたたはサブゞェクトに付加され、具䜓的な文に固有の意味を䌝えたす。 構文解析を可胜な限り正確にするために、Comprenoは䞊蚘の抂念の普遍的な階局に基づいたセマンティック分析を䜿甚したす。 これらすべおが、機械によるテキスト凊理の新しい自由床を提䟛し、元の文の意味を「理解」し、この意味を別の蚀語で合成できるようにしたす。



最埌に、ABBYY蚀語プラットフォヌムの3番目の重芁なコンポヌネントは統蚈です。これにより、システムはフレヌズを正しく組み合わせお、同矩語をより完党に理解できたす同じ単語が異なるものを意味する堎合兞型的な䟋「城」ず「城」。 曖昧な解釈のある文章を正しく分析するための統蚈情報も同様に重芁です。 たずえば、「これらの皮類の鉄鋌は私たちのワヌクショップにある」ずいうフレヌズの有胜な分析は、抂念間の関係の頻床に関するデヌタに頌るこずによっおのみ行うこずができ、それにより、発話の文脈、蚀い換えれば議論の䞻題を理解したす。 それが冶金に関するものであれば、物語は鋌鉄に関するものであり、人々の行動に関するものであれば、あたり良くないタむプを支持する遞択をするのは論理的です。

Compreno統蚈モデルは、システムによっおほが毎日凊理されるさたざたな䞻題ずゞャンルの印象的なテキストのセットに基づいおいたす。 さらに、テキストデヌタはずにかくではなく、人によっお䜜成されたり、ある蚀語から別の蚀語に翻蚳されたりしたす。 このアプロヌチにより、意思決定のプロセスにおける゚ラヌの可胜性ずセマンティック構成の合成における歪みの可胜性が䜎枛されたす。



䜕で終わったの その結果、ABBYYスペシャリストは、知識、想像力、アむデア、経隓を結合するこずに成功し、「3぀の柱」-抂念、構文、統蚈の意味的階局-䞖界の構造に関する蚀語に䟝存しないデヌタのモデルずこのデヌタにアクセスするためのモデルに基づいお構築されたした その結果、コンピュヌタヌがテキストの意味をできるだけ理解できるようになり、幅広い蚀語の問題を解決できるようになりたした。 どれ



マむンドゲヌム



ABBYY Comprenoプラットフォヌムの実際的な重芁性に぀いお話すず、開発者は䞻に2぀の重芁な問題の解決に焊点を圓おおいたす。倚くの蚀語ペアのテキストの自動翻蚳ずむンテリゞェントな情報怜玢です。

テキストデヌタの翻蚳に関連する最初のタスクは、デゞタルテクノロゞヌの時代においお非垞に重芁であり、囜間の正匏な囜境や障壁を消去したす。 倚蚀語情報の量が絶えず増加しおいるため、翻蚳の受信速床だけでなく、出力で受信したテキストの品質も、珟代のプロゞェクトの実装に䞖界䞭のさたざたな郚分からの参加者を増やす必芁がありたす。 埌者の提䟛により、既存の機械翻蚳システムは、䞀芋するず思われるほど滑らかではありたせん。 この理由は、倚くの既存の機械翻蚳者の基瀎である科孊的アプロヌチにおける倚数の基本的な制限です。 これらの制限は、䟋倖を正しく凊理できないこず、蚀語構造の客芳的な耇雑さ、セマンティクスを無芖するこず、文の実際の関係を修正できないこず、およびその他の問題に関連しおいたす。 Comprenoテクノロゞヌは、䞖界の倚くの科孊者の基本的な蚀語研究の工孊的実斜圢態であり、玄50幎の経隓を蓄積しおいたす。 このおかげで、Comprenoはこれらの困難を克服し、元の蚀語ず同じ意味で、たたは可胜な限り類䌌したテキストを合成するこずができたす。 システムの機胜を評䟡するために、Googleの蚘事「Babel fish」の䞀郚を翻蚳する䟋が、統蚈翻蚳者ずABBYYプラットフォヌムを䜿甚しお翻蚳の未来を告げおいたす。 圌らが蚀うように、コメントは䞍芁です。



゜ヌス

手動でシステムにこれらの蚀語を提䟛しようずした堎合、それは絶望的な䜜業になりたす。 これを行う唯䞀の方法は、機械蚈算の力を利甚するこずです。 自動的に自分自身を蚓緎し、垞に孊習しおいる統蚈モデルを構築したす。



ABBYY Compreno

システムにこれらの蚀語を手動で䞎えようずした堎合、これは絶望的な䜜業になりたす。 これを行う唯䞀の方法は、機械蚈算の力を䜿甚するこずです。 垞に自動的に孊習および孊習する統蚈モデルを䜜成したす。



統蚈翻蚳者

これらの蚀語を手動でシステムに提䟛しようずした堎合、それは絶望的な䜜業になりたす。 これを行う唯䞀の方法は、コンピュヌティングマシンの機胜を䜿甚するこずです。 自動的に自分自身を教育し、垞に孊習する統蚈モデルを構築したす。



2番目のタスク-知的怜玢-の重芁性は、人類によっお生成された膚倧な量の情報の結果であり、指数関数的に成長し、必芁なデヌタの分析ず怜玢に他のアプロヌチを必芁ずしたす。 珟圚、怜玢は䞻に口頭情報を䜿甚しお機胜したす。ドキュメントを怜玢するずき、最初にその䞭に含たれるべき単語を考え、次にキヌフレヌズを入力し、怜玢基準を満たすデヌタを取埗しおから、興味のある情報を手動で遞択したす。 このような䜿い慣れた怜玢には、倚くの倧きな欠点がありたす。 たず、発芋する必芁のある情報を正確に蚘述するク゚リを䜜成するこずは、垞に可胜なこずではありたせん。 第二に、適栌な単語を考え出すず、遞択範囲を絞り蟌み、怜玢を制限したす。 最埌に、キヌワヌドのすべおの組み合わせを゜ヌトするこずは、䞍可胜ではないにしおも、非垞に面倒な堎合がありたす。 ABBYY Comprenoテクノロゞヌは、これらすべおの欠点をうたく凊理し、共通蚀語で䜜成された怜玢ク゚リからマシンによっお抜出された抂念ず関係を䜿甚しお意味のある怜玢を可胜にしたす。

プラットフォヌムの「博孊」ずそこに集䞭した膚倧な知識により、Comprenoを䜿甚しお他の倚くの応甚タスクを実行できたす。 䌁業はそれに基づいお、倚蚀語怜玢ずデヌタの分類、事実の抜出ずオブゞェクト間のリンクの確立、監芖、情報の䞍正䜿甚に察する保護システム、文曞の自動抜象化ず泚釈、音声認識およびその他の倚くのタスクのための定性的に新しい゜リュヌションを䜜成できたす。

Comprenoのアプリケヌションの等しく有望で興味深い分野は、テキストの芖芚化に関連する問題を解決するこずです。 顕著な䟋は、テキストスクリプトに基づいたアニメヌションビデオや映画の䜜成です。 Bazelevs Innovation瀟はこの方向で働き、たたSkolkovoプロゞェクトに積極的に参加し、テキストのむンタラクティブな3次元芖芚化のための゜フトりェアパッケヌゞの䜜成で既に䞀定の結果を達成しおいたす。 ABBYYでは、テキストの高品質な蚀語分析を必芁ずする非垞に倚くの応甚問題を解決できるような普遍的なプラットフォヌムが珟圚䞖界に存圚しないず圌らが蚀うこずは誇りではありたせん。



巚倧な蚈画



今日、䞊蚘のように、300人以䞊の専門家がプロゞェクトに参加し、若いスタッフ、モスクワ物理孊技術研究所のABBYY郚門の孊生、およびモスクワ州立倧孊、ロシア囜立人道倧孊、モスクワ州教育倧孊、サンクトペテルブルク州立倧孊などの䞻芁な倧孊の卒業生が積極的に関䞎しおいたす。 䜜品のルヌツを芋るず、ロシア語ず䞖界蚀語孊の真剣な研究にありたす。 この科孊的な手荷物は、ABBYYスペシャリストによっお䜿甚されたす。 䌚瀟の蚈画には、蚀語孊ず蚀語孊の分野で䞖界をリヌドする専門家を集めおプロゞェクトに参加し、プロゞェクトに囜際的な地䜍を䞎えるこずが含たれたす。



珟圚、ABBYYはComprenoに基づく゜フトりェア゜リュヌションを展開するパむロットプロゞェクトを実装しおいたす。 これたでのずころ、プロゞェクトのむニシ゚ヌタヌは開発䞭の補品に関する詳现を開瀺しおいたせんが、最終的に誰もが実装ず広範な実装゜フトりェアメヌカヌず消費者、぀たりあなたず私の恩恵を受けるこずを保蚌したす。



野心的なABBYY Comprenoプロゞェクトが将来どの皋床倉わるかに぀いお話すのは時期尚早です。 しかし、近い将来、コンピュヌタヌ蚀語孊は蚀語モデリングの分野で倧きな進歩を遂げ、その基盀が珟圚確立されおいる完党に新しい技術基盀に切り替わるず蚀っおも差し支えありたせん。



All Articles