NLPノート(パート4)

(はじめ: 1、2、3 )今回は、統計アルゴリズムと一般的なコンピューター言語学の「回避策」のトピックについて少し気を散らして推測したい(または、冷やしたい)。

会話の最初の部分では、単語から文章、文章から一貫したテキストまで、テキスト分析の「古典的な方法」について話しました。 しかし、おかしな時代には、「一挙に」問題を解決する誘惑があり、必要に応じてシステムのバグや「王道」を見つけました。



ちなみに、科学と研究の王道については「一般的に」。 長い引用を読者に許してください:

デジデリウス。 エラスムスのクラスはどうですか?

エラスムス。 ミューズは私をあまり支持していないようです。 しかし、私があなたから何かを得ることができれば、物事は良くなるでしょう。

デジデリウス。 あなたが失敗に出会うことはありません-それだけがあなたの利益になるなら。 だから言って。

エラスムス。 あなたが知らないであろう秘密の芸術が一つもないことは間違いありません。

デジデリウス。 もしそうなら!

エラスムス。 彼らは暗記のある種の技術があり、ほとんど手間をかけずにすべての無料の科学を学ぶことができると言います。

デジデリウス。 何が聞こえますか そして、あなたは本を自分で見ましたか?

エラスムス。 見ました。 しかし、まさに彼が見たもの:教師は見つかりませんでした。

デジデリウス。 そして本では何?

エラスムス。 さまざまな動物の画像-ドラゴン、ライオン、ヒョウ、さまざまなサークル、そしてそれらの言葉-ギリシャ語、ラテン語、ユダヤ人、さらには野languagesな言語から。

デジデリウス。 そして、タイトルは科学が何日理解できるかを示しましたか?

エラスムス。 はい、14歳です。

デジデリウス。 寛大な約束、あなたは何も言わないでしょう。 しかし、この暗記術が科学者になる少なくとも1人の人を知っていますか?

エラスムス。 いいえ、単一ではありません。

デジデリウス。 そして、錬金術が金持ちになった幸運な人を最初に見ない限り、誰もそのような人を見たことがなく、見ないでしょう。

エラスムス。 そして、私はそれが本当であることを望みます!

デジデリウス。 おそらく、非常に多くの労力を費やして知識を購入するのは面倒だからです。

エラスムス。 もちろん。

...


ストーリーに興味がある場合は結末を読んでください 。 これはロッテルダムのエラスムス、「挑戦のない会話」(1524)です。 21世紀は庭にあり、21日間のシリーズの本は翻訳されていません。



そのため、その構造をまったく理解せずにテキストを分析する試みが行われます。 さらに、構文解析レベル(フレーズの構築の法則について何も知らずに文ツリーを作成する)と、機械翻訳などのさらなる作業レベルの両方で。 原則としてこれはどのように可能ですか? 答えは魔法の統計にあります。



輝きと貧困の統計

統計は素晴らしいものであり、コンピューター言語学を含む多くの用途があります。 しかし、万能薬ではありません。 人類の歴史に関するテキストはすでに数え切れないほどの数を蓄積しているので、既存の(おそらく正しい)テキストに基づいて新しいテキストの構造を研究する合理的な誘惑があります。 前のパートで 、構文解析ツリーのフレーズがどのように構築されているかについては正確に言及しいません。 はい、それはチョムスキーの文法の問題でしたが、フレーズ構造解析の概念が成長したアイデアとしてのみでした。 Chomskyの文法が実際にそのようなツリーを構築するために実際に使用されることを、私はどこにも特に書きませんでした。 これは必ずしもそうではありません。



蓄積されたデータに基づいてフレーズの正確性についての1つの理由は何ですか? たとえば、そのように。 「ケーキを食べました」というフレーズがあります。 既存のドキュメントにどれくらいの頻度で表示されるか見てみましょう。 「ほうきを食べた」というフレーズは? ほとんどの場合、まれです。 「ケーキを食べました」というフレーズはおそらくまったく発生しません。 したがって、最初のフレーズは正しい、2番目のフレーズは議論の余地がなく、3番目のフレーズは間違っているという結論になります。 「相関フレーズ」を検索できます。 一部の単語が頻繁に一緒に見つかる場合、それらはおそらく互いに依存しています。 したがって、ツリー全体を構築できます。 このようなシステムでは、フレーズが何が悪いのかを正確に説明することはありません。 彼らはそうは言わないと言っているだけです。 外国語を学んでいる人にとって、これはそれほど助けにならないことを理解しています。



さらに先へ進むことができます。 文書を別の言語に翻訳したいとします。 誰もあなたのフレーズを翻訳したことがない可能性は何ですか? 少なくともフレーズの一部については、おそらく完成した翻訳を見つけることができます。 このようなプロジェクトの「知識ベース」は、バイリンガルテキストのコーパスです。 たとえば、カナダ議会の議事録は、英語とフランス語の2つの言語で行われているので気に入っています。 さらに、テキストは正式であり、翻訳は厳格であり、自由がありません。 それで、テキストの一部を取り、対応するテキストの一部を見つけます-そして出来上がりです! (もちろん、私は物事の実際の状態を大幅に簡素化しますが、基本的な考え方はこれです)。 したがって、理解できない翻訳のジョークが取得されます。 中国製で、「ベラルーシ共和国製」になりました 。 まあ、私はこの種のことを冗談のようなものですが、実際にはそれがまさに起こることです。



原則として統計アルゴリズムを攻撃するとは思わないでください。 素晴らしいアイデアが山ほどあります。 たとえば、私はツリーバンクを分析するというアイデアが好きですが、それについてはまた別の機会に。



代数の調和を信じる

そして今、私は「信じる-信じない」で少し遊びたい。 私が信じていること、信じていないこと。



完成したテキストの分析で多くのことができると信じています。 機械言語学に「王道」が存在するとは思わない。 約30年前、チェスをするためのプログラムを作成することは、人工知能を作成することとほぼ同等であるように思われました。 現在の結果は、コンピューターが任意のグランドマスターを倒すことができるとき、複雑な感情で受け入れられました。 一方で、はい、成功、そして他方では、アルゴリズムが実際には進歩しておらず、コンピューターだけが劇的に引き上げられていることは明らかであり、数百万の組み合わせを計算し、既製のゲームの膨大なライブラリを保存することが可能になりました。



言語学でも同様の方法で突破口を開くことができますが、このアプローチには理論上の上限があると確信しています。 好きなことを言ってください。少なくとも「オブジェクトの肖像」を作成する必要があります。 さて、兄弟か姉妹かわからない場合、どうして「兄弟」をロシア語に翻訳できるでしょうか? 広大な拠点を埋め、コンピューターにByronを翻訳させることができます(よく知られた翻訳による)が、本質的には同じサールの中国の部屋になります。 入力部分がわかっている限り、翻訳し、左にステップし、右にステップします-到着しました。 そして、機械翻訳が唯一の目標ではありません。 目標は、たとえば、用語が何であれ、テキストを理解することです。 テキストで説明されている世界についての知識ベースの補充と言ってください。 (ただし、これはすでに言語の語用論に関する会話であり 、明らかに今日の話題ではありません)。



つまり、ある意味では、同じGoogle翻訳のアプローチは矛盾した気持ちになります。 一方では、迅速かつ便利なサービスに感謝します。 一方で、彼らは「重心」を統計にシフトさせたように思えます。 数年のうちに最大値に達すると思うので、他の方法を探す必要があります。 これは、自由な語順と豊富な形態を備えた言語で特に顕著です。翻訳オプションがたくさんあるため、翻訳者は夢中になります。明確な統計情報を取得するのは難しく、さまざまな入力フレーズも素晴らしいです。



非常に多くのプログラムが既にPascalで書かれていますが、結局、統計的なPascalコンパイラを書くことは誰にも起こりません。 ただし、Googleでは非常に著名なコンピューター言語学者を雇用しているため、使用しているアルゴリズムがそれほど明確ではありません。



だから、それはどういうわけか有毒で感情的なことが判明しました:)しかし、それは何でもありません、以下の部分では、より生産的な会話に戻ります。 ここでは、明らかに、すべてが言われているわけではありません。 さて、大丈夫、もしあれば続編を書きます。



All Articles