Dialogはロシアのコンピューター言語学の標準を設定します

ご存じのように、ABBYYは言語処理に何らかの形で関連するプログラムを作成します。ABBYYLingvoは単語をある言語から別の言語に翻訳し、ABBYY FineReaderはテキストを印刷から電子に変換し、ABBYY Compreno( ここで説明します )は別の言語に翻訳します言語全体のテキスト。 このタイプのプログラムは、本格的な科学研究の結果に基づいているため、「ハイテク」と呼ばれます。 そして私たちの場合-人工知能、パターン認識、コンピューター言語学の分野の結果について。 この投稿では、コンピューター言語について説明します。



私たちはこの科学の発展に非常に興味を持っているため、社内での研究に限定されませんが、このテーマに関する科学会議「ダイアログ」を一年中開催しています。 コンピュータ言語学はかなり特定の知識分野であるため、言語学者は「対話」について多くのことを知っており、他の誰もが少し知っています。 カットの下で、それについてさらに説明します。



Dialogueは、ロシアで最大のコンピューター言語学に関する会議です。 対話-ここでは、理論言語学のさまざまな分野の専門家と言語技術の開発者が出会い、経験を交換します。たとえば、テキストからの知識の抽出、音声の認識と合成、機械翻訳などです。 この会議は約35年間(短い休憩で)開催されており、過去10年間ABBYYが主な主催者でした。 たまたま対話の主なアイデアが、私たちの会社が常に守ってきた自然言語処理の分野でのそれらの位置と一致しました:コンピューター言語学の未来は、現代の工学と数学的方法と本格的な言語学の組み合わせにあります。



現在、コンピューター言語に関する多くの外国会議は、純粋な統計的手法に強い「偏り」があり、「Dialogue」は、自然言語の本格的なモデルと「重複」する場合、統計トレーニングがさらに効果的であるという考えを進めようとしています。 そして、ここでエンジニアは言語学者の参加なしにはできません。 Dialogueのもう1つの際立った特徴は、ロシア語に対する特別な注意です。 他の国で開催された会議では、明らかな理由で、彼らは実際にロシア語を勉強せず、対話では、最初に現代のコンピュータ言語学の方法がロシア語に適用されます。



他に「ダイアログ」が必要なのはなぜですか? ロシアのコンピューター言語学は、質的にも量的にも、依然として西欧諸国に大きく遅れをとっています。 この分野の専門家や企業は、たとえばドイツに比べてはるかに少ないです。 平均して、私たちは、理論的にも方法論的にも、世界の主流からいくぶん離婚している。 Dialogueは、このギャップを克服するだけでなく、ロシアのコンピューター言語学が非常に競争力のある個々の分野に注意を引くことを目的としています。 会議では、最も関連性の高い興味深い問題について説明します。 これを行うために、世界的に有名な研究者を招待し、彼らは彼らのプロジェクトについて話し、最も関連性のある仕事の経験を共有します。



今年は、コーパス言語学に焦点が当てられました。 ケースは、言語分析に使用されるテキストの大きな配列です。 現代の理論およびコンピューター言語学のほとんどすべての結果は、ケースを使用して得られたと言えます。 機械翻訳システムおよびその他の自動分析システムはそれらについてトレーニングされ、現代の辞書は事例の例に基づいており、言語理論は事例データで確認されています。



ケースはどのように機能しますか? 例を挙げます。 当社は、ロシア語の地域差に特化したプロジェクトのイニシエーターの1つです。 「ロシアの都市の言語」です。 プロジェクト参加者は、ロシアと近隣諸国の異なる都市で同じオブジェクトとコンセプトの名前の違いに関する情報を収集します。 ほとんどの読者は縁石と縁石について聞いたことがありますが、マイルストーン、トレムペル、マルトフォーという言葉はどういう意味ですか? ロシアの特定の地域でのみ使用される数千の単語は、現代ロシア語の軍団の助けを借りて、それらがどのように使用されているかを正確に見つけて検証することができました。 もちろん、言語地理学に関するデータを含む軍団が使用されました(たとえば、地元のメディアのテキストで構成された軍団や、参加者が居住地を報告するブログなど)。



そのため、今日ではほとんどすべての言語研究がコーパスデータを使用して行われています。 しかし、すべての研究から、コーパスに必要な特性とコーパスの操作方法が明確に定式化されているため、得られた結果が信頼できるものになります。 大まかに言って、さまざまなタスクや軍団については、その詳細を考慮して作成(選択)する必要があります。 たとえば、現代の口語スピーチの認識システムに取り組んでいる場合、ロシア語の国立軍団はフィクションの作品に基づいているため、あなたのために機能しません。 ニュースフローを自動的に翻訳するシステムを作成する場合は、正しく選択されたメディアテキストを含む軍団が必要です。 対話で議論された別の問題は、インターネット全体を建物として使用できるかどうかです。 ご存知のように、そこにはほぼすべてのタイプのテキストがあります。 ただし、適切なテキストを自動選択する手段を開発する必要があります。



すでに述べたように、ロシアのコンピューター言語学から学ぶべきことがたくさんあります。 この目的のために、研究者はダイアログに招待され、最新の世界の成果について話します。 たとえば、昨年、Yorick Wilks(Yorick Wilks)やJoakim Nivre(Joakim Nivre)などのコンピューター言語の著名人。 今年のカンファレンスのゲストは、Eduard HovyとDiana McCarthyでした。



「対話」のもう1つの重要なトピックは、自動テキスト分析システムの品質の比較です。 ヨーロッパでは、そのようなシステムの品質を評価する方法に同意することが長い間慣習的であり、いわゆる会議の合意された基準を満たす科学的研究のみが会議に参加できます。 「評価」。 ロシアでは長い間開発者自身の品質評価に頼ることが慣習であり、常に客観的とは言えないため、結果の検証の文化の実装をまだ達成していません。

この点での対話の重要なタスクの1つは、自動テキスト分析システムとこれらのシステムの作業の品質を評価する基準との間の競争を行うための技術の開発です。 たとえば、Dialogue 2010では、ロシア語の自動形態素解析システム(単語の文法解析が可能なシステム)のコンテストが開催されました。 主要な研究機関と民間企業が開発した12のシステムを、文脈に応じて品詞や単語の他の文法的意味を決定する際のあいまいさの解決など、いくつかのパラメーターについて比較しました。 たとえば、そのようなシステムは、分析されたテキストで名詞または動詞として「ガラス」という単語がどの文法的な意味で使用されているかを判別できる必要があります。



今年、解析結果を比較する方法について議論しました。 さまざまな自動分析システムが、さまざまな方法で複雑な構文の問題を解決します。 文法に基づいて文を完全に分析するものもあります(学校では1行が主語、2行が述語などを覚えていますか?)、他は文の断片の部分分析であり、他の人は最も頻繁に遭遇する連鎖の強調に基づく統計モデルを使用します言葉。



同意するのは容易ではありませんでしたが、構文テストはこの秋に実施されます。 ちなみに、言語学者やプログラマーといったコンピューター言語学に関係する専門家や大学生とともに、その結​​果の分析に関与することが決定されました。 このプロジェクトに参加したい場合は、個人で書いてください。



対話について他に何を言いますか? ABBYYに加えて、MSU im。 M.V. ロモノソフ言語学研究所、ロシア国立人道大学、ロシア科学アカデミーの情報問題研究所、ロシア科学アカデミーの情報伝達問題研究所、Yandex、人工知能協会。 ロシアの基礎研究財団は会議の実施を支援しています。



Dialogueで一般的に認められている高レベルのレポートは、会議で最も興味深い論文を選択し、弱くて二次的なものを排除するのに役立つ厳格な専門家レビューア(約60人のロシア人および外国人専門家)の大規模なグループを提供するのに役立ちます。



このような堅実な企業は、国内のコンピューター言語学が新しいレベルに到達するのに役立つと確信しています。 Dialogue-2011のすべてのレポートは、 会議のウェブサイトに掲載されました



スヴェタ・ルジン



対話の組織委員会の支援を受けて



All Articles