金曜日の形式:「言語」開発-ITと言語学を組み合わせた研究

本日の記事では、ITMO大学の外国の研究開発の例を使用して、自然言語処理に直接関連するいくつかの技術プロジェクト、テキストの配列に基づく辞書とデータベースの操作、ユーザーがソーシャルネットワークに書き込む内容の研究についてお話します。



エメラルドシェルの写真



セマンティック技術



自然言語を扱う多くの分野では、セマンティック技術の使用が関係しています。 この場合、作業は主にオントロジーを使用して実行されます。オントロジーは、セマンティック接続のオブジェクト間の関係を定義し、マシンとの対話をより「人間的」にできるようにします。



インターネットとマシンの相互作用の開発における方向としての「セマンティックWeb」はよく知られたアイデアであり、長い間開発されてきました。 それでも、セマンティックデータを適用するための新しい方向性はまだかなりあります。 セマンティックテクノロジープロジェクトもITMO大学で取り組んでいます。



たとえば、ITMO大学VISmartのテクノパークの居住会社は、開発者のニーズを含む適用ニーズにセマンティックテクノロジーを使用できるOntodiaプロジェクトを開発しています。 ユーザーはセマンティックデータをOntodiaにアップロードでき、出力ではグラフ形式で視覚化を受け取ります。



このような視覚化の使用例として、開発者は、名前が付けられたNorthwest Medical Research Centerで非構造化医療データからの情報の検索と比較を提供します V.A. アルマゾバ。



セマンティックテクノロジーに基づいて実装されたプロジェクトのもう1つの例は、オンラインコースの一部として教育プロセスをパーソナライズできるOpen EdXシステムの拡張です。 国際研究所のITMO大学の従業員「Intelligent Information Processing Methods and Semantic Technologies」とYandexの同僚は、すべてのMOOCコンポーネント(コンテンツ、使用シナリオ、プロセス参加者など)を説明する耳科学を作成しました。 edXプラットフォームで公開されています。



NLPアルゴリズムの観点から、次のメカニズムを使用します。コースコンテンツ(ビデオ講義の場合は字幕)からテキストコンテンツを取得し、それらからキーワードを選択するアルゴリズムを使用します-いわゆる「サブジェクトエリアコンセプト」。



これらの概念は、準備されたオントロジーでマークします。 したがって、各コースのコンテンツのセマンティック単位を取得し、その助けを借りて、さまざまなトピックや主題分野のさまざまなコースを互いにリンクすることができます。



-Dmitry Volchek、大学院生、ITMO大学情報科学応用数学科


これにより、MOOCの学生と作成者は、特定の概念がさまざまなコースでどのように、どのような能力で使用されているか、さまざまな主題分野のフレームワーク内でそれが何を意味するかを追跡し、最終的に、関心のある概念の膨大なアイデアを得ることができます。



ワードプロセッシングアルゴリズムとビッグデータ



自然言語のもう1つの作業分野は、テキストデータの大きな配列の特定の特性をカウントおよび評価するためのアルゴリズムの使用です。 このタスクはビッグデータを扱う些細な例のように思えますが、ここにもいくつかの微妙な違いがあります。



ITMO大学の情報学科および応用数学学科の長であり、国際研究所のIntelligent Information Processing Methods and Semantic Technologiesの長であるDmitry Muromtsevによる 、そのようなプロジェクトの作業は、多くの場合、同様のシナリオに基づいています:開発者は、多数のテキストを分析し、その言語的特性-構文、特定の単語やフレーズの使用に関連するニュアンスなど。



そのようなサービスのアイデアとアルゴリズムはほぼ同じです。 彼らは標準になったワードプロセッシングアプローチのセットを使用しています。 独自性は、これらのアルゴリズムを特定の言語ごとに非常に正確に調整する必要があるという事実にあります。 特に、私たちの研究室では、こうした作業にも取り組んでいます。



結局のところ、私たちが人生で話すとき、私たちは出生からほとんど学んでいる規則を使用します-学校で、毎日のコミュニケーションなどで。 同じことを機械で行う必要があります。実際にゼロから、非常に高品質でこれらのルールを教える



-ドミトリー・ムロムツェフ


このような作業により、予期しない結果が生じる場合があります。 たとえば、科学者がシェークスピアの遺産のより詳細な分析を実施できるようになったのは、それほど前のことではありません。 彼の戯曲のうち44曲のうち17曲が「共作」と書かれていることが判明しました(1986年の研究では8曲の「コラボレーション」のみが明らかになりました)。 16世紀の英国の詩人にとって、さまざまな作家による作品の借用と最終化の慣行は決して普通ではありません。



さらに、作家はアイデアを交換するだけでなく、互いのスタイルを模倣しようとしたため、最近まで作品またはその一部の正確な著者を特定することが困難な場合がありました。



いわゆる分析 主な機能を持たず、「独立した」単語間の関係を反映するサービス単語。 アナリストは、その使用パターンを特定することができました。これにより、特定の著者を一意に示し、「独自の言語肖像画」を作成できます。 たとえば、シェークスピアの際立った特徴の1つは、「and with」の構成でした(「葬儀での歓喜と結婚での悲劇」など)。



科学者によると、どの詩人が有名な演劇の創作に関与したかを正確に定義することで、シェークスピアの排他性の神話をある程度覆すことができます。 たとえば、シェークスピアは判明したように、ヘンリー6世の三部作の「ヘビーウェイト」第1部を自身で書きました(以前は共著者の可能性があると考えられていました)が、トーマスミドルトンは演劇「すべてが良い、それで終わります」に手を出しました。



ビッグデータベースの言語プロジェクトのもう1つの珍しい例は、「 デジャーゴナイザー 」です。 イスラエルの科学者のプロジェクトにより、科学テキストの多くの特性(50万件の科学論文のコーパスの分析に基づく)を評価し、幅広い聴衆にどのように理解されるかを決定することができます。 このサービスは、特定の語彙の単語数とまれな単語をカウントし、取得したデータに基づいてテキストの可用性を決定します(このプロジェクトについてはこちらで説明しまし )。



テキスト感情分析



多数の研究(ITMO大学で行われた研究を含む)には、自然言語分析のいくつかの技術が同時に含まれています。 例は、意見マイニングプロジェクト(テキスト感情分析)です。 調性の分析には、主題領域のオントロジーの作成、自然言語の分析のための統計ツールの使用、機械学習アルゴリズムの使用、およびテキストのより正確な評価のための専門家の関与が含まれます。



ITMO大学では、インターネット上で世論を分析する問題の解決策の一部として、同様のプロジェクトが実施されました。 意見を分析するために、NKT科学研究所の高度なコンピューティングテクノロジーの実験室スタッフは、ソーシャルネットワーク(VKontakte、Twitter、Instagram、Live Journal)からのデータを使用し、そこからさらなる処理の基盤が形成されます。 さらに、各出版物は、特定の特性(いいね!、再投稿、コメント、共有の数)のセットに従ってマークされ、データ自体は、情報の分布を追跡できるリンクのグラフで結合されます。





このプロジェクトは、インターネット上の社会的プロセスを研究するために使用され、発展を続けています。 たとえば、ソーシャルネットワークと自然言語処理からのデータの分析に基づいて、NKTの科学研究所で既にいくつかの研究が実施されています。



そのうちの1つは、非公式コミュニティのネットワークアクティビティを監視することです。これにより、情報発信の機能と、情報に影響を与える問題指向コミュニティの出現現象をさらに調査できます。 別のプロジェクトは、特定の地域の「 感情マップ 」の構築です。ジオタグ付きの出版物とそのコンテンツの評価に基づいて、アナリストは人々がどこかでどのように感じるかを知ることができます。



毎年、自然言語処理に関連するプロジェクトがますます増えており、プロジェクト自体も野心的です。 たとえば、英国の科学者は、「コンピューターの計算能力は、現代の開発者にとって最も複雑で時間のかかるタスクの一部であるため、言語問題の解決にますます注目しています」 と言います。



All Articles