ディヌプラヌニング、NLP、および衚珟

Habrahabrの読者に、クヌルなChristopher Olah による投皿「Deep Learning、NLP、and Representations」の翻蚳を提䟛したす。 そこからむラスト。



近幎、ディヌプニュヌラルネットワヌクを䜿甚する方法は、パタヌン認識で䞻導的な地䜍を占めおいたす。 圌らのおかげで、コンピュヌタヌビゞョン手法の品質の氎準が倧幅に向䞊したした。 音声認識は同じ方向に向かっおいたす。



結果は結果ですが、 なぜ圌らはずおもクヌルな問題を解決するのですか







この投皿では、自然蚀語凊理NLPでディヌプニュヌラルネットワヌクを䜿甚した印象的な結果の䞀郚を取り䞊げおいたす。 したがっお、なぜディヌプニュヌラルネットワヌクが機胜するのかずいう質問に察する答えの1぀を明快に述べたいず思いたす。



単局の隠れニュヌラルネットワヌク



隠れ局を備えたニュヌラルネットワヌクは普遍的です。十分な数の隠れノヌドがあるず、あらゆる関数の近䌌を構築できたす。 これに぀いおは、頻繁に匕甚されおいるさらに䞍正確に理解され適甚されおいる定理がありたす。



これは、隠しレむダヌを単に「ルックアップテヌブル」ずしお䜿甚できるためです。



簡単にするために、パヌセプトロンを怜蚎しおください。 これは非垞に単玔なニュヌロンであり、その倀がしきい倀を超えるず起動し、そうでない堎合は起動したせん。 パヌセプトロンには、バむナリ入力ずバむナリ出力぀たり、0たたは1がありたす。 入力倀オプションの数は制限されおいたす。 それらはそれぞれ、特定の入力に察しおのみ機胜する非衚瀺局のニュヌロンに関連付けるこずができたす。



個々の入力ごずに「条件」を解析するには、 隠れニュヌロン n個のデヌタ。 実際、通垞はそれほど悪くはありたせん。 いく぀かの入力倀が適切な「条件」が存圚する堎合があり、亀差点で正しい入力に到達する「重耇する」「条件」が存圚する堎合がありたす。



次に、このニュヌロンず出力ニュヌロン間の接続を䜿甚しお、この特定のケヌスの最終倀を蚭定できたす。



普遍性はパヌセプトロンだけではありたせん。 ニュヌロンおよびその他の掻性化関数にシグモむド现胞を含むネットワヌクも普遍的です。十分な数の隠れニュヌロンを䜿甚しお、任意の連続関数の正確な近䌌を構築できたす。 入力を盞互に取埗しお分離するこずはできないため、これを実蚌するこずははるかに困難です。











したがっお、1぀の隠れ局を持぀ニュヌラルネットワヌクは実際には普遍的であるこずがわかりたす。 ただし、これは印象的でも驚くべきこずでもありたせん。 モデルがルックアップテヌブルずしお機胜できるずいう事実は、ニュヌラルネットワヌクを支持する最も匷力な議論ではありたせん。 これは、モデルが基本的にタスクに察凊できるこずを意味したす。 普遍性ずは、ネットワヌクが任意のサンプルに適応できるこずのみを意味したすが、これは、新しいデヌタを操䜜するための゜リュヌションを適切に補間できるこずを意味したせん。



いいえ、汎甚性は、ニュヌラルネットワヌクがこれほどうたく機胜する理由をただ説明しおいたせん。 正解はもう少し深くありたす。 理解するために、たずいく぀かの具䜓的な結果を怜蚎したす。



単語のベクトル衚珟単語の埋め蟌み



たず、ディヌプラヌニングの特に興味深いサブ゚リアから始めたす-単語のベクトル衚珟単語の埋め蟌みです。 私の意芋では、ベクトル衚珟は珟圚、ディヌプラヌニングの研究にずっお最もクヌルなトピックの1぀ですが、それらはBengioなどによっお最初に提案されたした。 10幎以䞊前。



ベクトル衚珟は、ニュヌラルネットワヌクがただ流行しおいない2006幎のディヌプラヌニングの埩掻の数幎前に、ベンゞオら 2001幎ずベンゞオら2003幎の䜜品で最初に提案されたした。 分散衚珟自䜓の考え方はさらに叀いものですたずえば、 ヒントン1986を参照。



さらに、これは、ディヌプラヌニングが非垞に効果的である理由を盎感的に理解するための最良の方法であるタスクの1぀だず思いたす。



単語のベクトル衚珟。 -特定の自然蚀語の単語を倧芏暡なベクトルたずえば、200から500の次元にマッピングするパラメヌタヌ化された関数。 たずえば、次のようになりたす。









通垞、この関数は、マトリックスで定矩されたルックアップテヌブルによっお定矩されたす 各単語が行に察応する 



Wは 、各単語のランダムベクトルで初期化されたす。 圌女は問題を解決するために意味のある倀を䞎えるように蚓緎されたす。



たずえば、ネットワヌクをドラッグしお、5グラムが「正しい」かどうかを刀断できたす5ワヌドのシヌケンス、たずえば「マットに座った猫」。 5グラムはWikipediaから簡単に入手できたす。その埌、単語のそれぞれをランダムな単語たずえば、「cat sat song the mat」に眮き換えるず、その半分が「台無し」になりたす。 。









5グラムが「正しい」かどうかを刀断するためのモゞュラヌネットワヌク Bottou2011 。



トレヌニングするモデルは、各5グラムの単語をWに枡し、それらのベクトル衚珟を出力で受け取り、それらを別のモゞュヌルRに送りたす。モゞュヌルRは、5グラムが「正しい」かどうかを予枬しようずしたす。 次のようになりたす。









これらの倀を正確に予枬するには、ネットワヌクでWずRを適切に遞択する必芁がありたす。



ただし、このタスクは退屈です。 おそらく、芋぀かった解決策は、テキストたたはそのような䜕かの文法゚ラヌを芋぀けるのに圹立ちたす。 しかし、ここで本圓に䟡倀があるのは、結果のWです。



実際、課題の党䜓のポむントはWを教えるこずにありたす。他の問題の解決策を怜蚎するこずができたす。たずえば、最も䞀般的なのは、文の次の単語を予枬するこずです。しかし、これは今の目暙ではありたせん。単語のベクトル衚珟であり、アプロヌチ間の違いを匷調するこずで気が散るこずはありたせん。



ベクトル衚珟の空間がどのように配眮されおいるかを「感じる」ために、高次元デヌタを芖芚化するトリッキヌな方法-tSNEを䜿甚しおそれらを衚珟できたす。









tSNEを䜿甚した単語のベクトル衚珟の芖芚化。 巊偎は「数字の領域」、右偎は「職業の領域」です Turian et al。2010から 。



このような「単語マップ」は非垞に意味があるようです。 「䌌おいる」単語は近いです。どのアむデアが他のアむデアに近いかを芋るず、近いものは「類䌌しおいる」こずがわかりたす。









特定の単語の衚珟に近いベクトル衚珟は誰ですか  コロバヌトら2011 。



ネットワヌクが、互いに近いベクトルを持぀類䌌した意味を持぀単語を関連付けるのは圓然のこずのようです。 単語を同矩語に眮き換えた堎合「うたく歌う」 「ほずんど歌わない」、それから文の「正確さ」は倉わらない。 入力文は倧きく異なるように思われたすが、 Wは同矩語「いく぀か」ず「いく぀か」の衚珟を互いに「シフト」するため、Rに぀いおはほずんど倉化したせん。



これは匷力なツヌルです。 可胜な5グラムの数は膚倧ですが、トレヌニングサンプルのサむズは比范的小さいです。 類䌌した単語の衚珟の収束により、1぀の文を取埗し、「類䌌した」クラスのクラス党䜓をどのように凊理するかが可胜になりたす。 ケヌスは同矩語の眮き換えに限定されたせん。たずえば、同じクラスの単語を眮き換えるこずができたす「青い壁」 「壁は赀です」。 さらに、いく぀かの単語を同時に眮き換えるこずは理にかなっおいたす「青い壁」 「倩井は赀い」。 このような「類䌌フレヌズ」の数は、単語の数から指数関数的に増加しおいたす。



ニュヌラル確率的蚀語モデルBengio、et al。2003の基本的な研究ですでに、ベクタヌ衚珟がなぜそんなに匷力なツヌルであるのかに぀いおの実質的な説明が䞎えられおいたす。



明らかに、 Wのこのプロパティは非垞に䟿利です。 しかし、圌女はどのように教えられたすか Wが䜕床も「壁の青」の文に遭遇し、「壁の赀」の文を芋る前にそれが正しいず認識する可胜性が非垞に高い。 「赀」を「青」に近づけるず、ネットワヌクのパフォヌマンスが向䞊したす。



各単語の䜿甚䟋に察凊する必芁がありたすが、類掚により、単語の新しい組み合わせに䞀般化するこずができたす。 私たちは皆、私たちが意味を理解しおいるすべおの単語に出くわしたしたが、文の意味はそれたで聞いたこずなく理解できたす。 ニュヌラルネットワヌクでも同じこずができたす。





ミコロフら 2013a



ベクトル衚珟には、もう1぀のはるかに泚目すべき特性がありたす。単語間の類掚の関係は、衚珟間の差分ベクトルの倀によっお決定されるようです。 たずえば、明らかに、「男性ず女性」の単語の差分ベクトルは䞀定です。









たぶん誰も驚かないでしょう 最終的に、属の代名詞の存圚は、単語を眮換するこずで文の文法的な正確さを「殺す」こずを瀺唆しおいたす。 「圌女は叔母です」ず曞きたすが、「圌は叔父です」。 同様に、「圌は王です」ず「圌女は女王です。」 「圌女はおじさんです」ずいうテキストを芋るず、これはおそらく文法的な誀りです。 半分のケヌスで単語がランダムに眮き換えられた堎合、これは私たちのケヌスでなければなりたせん。



「もちろん」過去の経隓を振り返っお蚀う。 「ベクタヌ衚珟は性別を衚すこずができたす。 確かに、床には別の次元がありたす。 たた、耇数圢/単数圢に぀いおも。 はい、そのような関係は簡単に認識されたす」



しかし、はるかに耇雑な関係も同様に「゚ンコヌド」されるこずがわかりたす。 ふるいに奇跡を起こすだけですたあ、ほずんど









関係ペア Mikolov et al。2013bから 



これらのWプロパティがすべお副䜜甚であるこずは重芁です。 同様の単語の衚珟が互いに近いはずであるずいう芁件を課したせんでした。 ベクトルの違いを利甚しお、類掚を調敎しようずはしたせんでした。 提案が「正しい」かどうかを確認する方法を孊習しようずしたしたが、プロパティは最適化問題を解決するプロセスのどこかから来たした。



ニュヌラルネットワヌクの倧きな匷みは、デヌタの「最適な」衚珟を構築するこずを自動的に孊習するこずです。 同様に、デヌタ衚瀺は、倚くの機械孊習の問題を解決するために䞍可欠な郚分です。 単語のベクトル衚珟は、孊習衚珟の最も驚くべき䟋の1぀です。



共有衚珟



もちろん、ベクトル衚珟のプロパティは奜奇心are盛ですが、それらの助けを借りお䜕か圹に立぀こずができたすか 特定の5グラムが「正しい」かどうかを確認するなど、銬鹿げた小さなこずに加えお。









WずFは 、タスクAに適合するこずにより蚓緎されたす。 その埌、 GはWを䜿甚しお問題Bを解決するこずを孊習できたす。



単玔なタスクにうたく察凊するために単語のベクトル衚珟を蚓緎したしたが、すでに芳察したそれらの玠晎らしい特性を知っおいれば、それらはより䞀般的な問題に圹立぀ず仮定できたす。 実際、これらのようなベクトル衚珟は非垞に重芁です。

「単語のベクトル衚珟の䜿甚は、最近、䌁業の䞻芁な「秘密」になりたした。名前付き゚ンティティの識別名前付き゚ンティティ認識、品詞タグ付け、構文解析、セマンティックロヌルのラベル付けを定矩したす。」


 Luong et al。2013 。



䞀般的な戊略は、タスクAの良いアむデアを蚓緎し、それを䜿甚しお問題Bを解決するこずです。これは、深局孊習の魔法の垜子の䞻芁なトリックの1぀です。 さたざたなケヌスで、異なる方法で呌ばれたす事前トレヌニング、転移孊習、およびマルチタスク孊習。 このアプロヌチの長所の1぀は、いく぀かのタむプのデヌタでプレれンテヌションをトレヌニングできるこずです。



このトリックは別の方法でクランクできたす。 1぀のデヌタタむプのビュヌを調敎し、それらを䜿甚しおさたざたなタむプの問題を解決する代わりに、単䞀のビュヌにさたざたなタむプのデヌタを衚瀺できたす。



このようなトリックを䜿甚するすばらしい䟋の1぀は、 Socherによっお提案された2぀の蚀語の単語のベクトル衚珟です。 2013a 。 2぀の蚀語の単語を1぀のスペヌスに「埋め蟌む」こずを孊ぶこずができたす。 この䜜品では、英語の蚀葉ずプトンファ䞭囜語の「マンダリン方蚀」が「埋め蟌たれおいたす」。











2぀のベクトル衚珟を蚓緎したす そしお 䞊蚘ず同じように。 ただし、英語ず䞭囜語の䞀郚の単語には類䌌した意味があるこずがわかっおいたす。 したがっお、もう1぀の基準を最適化したす。わかっおいる翻蚳の衚珟は、互いに少し離れおいる必芁がありたす。



もちろん、最埌に、私たちに知られおいる「類䌌した」単語が䞊んで積み重なっおいるのを芳察したす。 最適化されおいるので、圓然です。 さらに興味深いのはこれです。私たちが知らなかった翻蚳も近くにありたす。



おそらく、これは、単語のベクトル衚珟に関する過去の経隓に照らしお、誰も驚かないでしょう。 それらは互いに類䌌した単語を「匕き付ける」ため、英語ず䞭囜語の単語がほが同じこずを意味するこずがわかっおいる堎合、同矩語の衚珟は近くにあるはずです。 たた、性別の違い性別のような関係にある単語のペアは、定数ベクトルによっお異なるこずもわかっおいたす。 十分な数の翻蚳を「たずめ」れば、2぀の蚀語で同じになるように違いを調敎できるようです。 その結果、䞡方の蚀語の単語の「男性バヌゞョン」が盞互に翻蚳されおいる堎合、「女性バヌゞョン」も正しく翻蚳されおいるこずが自動的に埗られたす。



盎感は、蚀語は同様の「構造」を持たなければならず、遞択したポむントで匷制的にリンクするこずにより、残りのアむデアを適切な堎所で匕き出すこずを瀺しおいたす。









t-SNEを䜿甚したバむリンガルベクトル衚珟の可芖化。 䞭囜語は緑色で匷調衚瀺され、英語は黄色でマヌクされたす Socher et al。2013a 。



2぀の蚀語を扱う堎合、2぀の類䌌したデヌタ型の共通衚珟を教えたす。 しかし、単䞀のスペヌスず非垞に異なるタむプのデヌタに「適合する」こずができたす。



最近、ディヌプラヌニングの助けを借りお、圌らは画像ず単語を単䞀の衚珟空間に「適合」させるモデルを構築し始めたした。

前の䜜業では、ラベルず画像の共同配垃がモデル化されたしたが、ここではすべおが少し異なりたす。



䞻なアむデアは、単語衚珟の空間からベクトルを発行しお画像を分類するこずです。 犬のいる写真は、「犬」ずいう蚀葉の衚珟に関するベクトルで衚瀺されたす。銬は「銬」に぀いお、車は「車」に぀いおです。 などなど。











最も興味深いのは、新しい画像クラスでモデルをテストするずきです。 では、モデルを具䜓的に認識するように教えられおいないモデルの猫アザラシの画像を分類する、぀たり「猫」ベクトルに近いベクトルで衚瀺するこずを提案するずどうなりたすか









゜ッチャヌ等。 2013b



ネットワヌクは新しいクラスの画像にうたく察応しおいるこずがわかりたした。 猫の画像は、空間のランダムなポむントには衚瀺されたせん。 それどころか、それらは「犬」ベクトルの近くに収たり、「猫」ベクトルにかなり近い。 同様に、トラック画像は、関連する「車」ベクトルからそれほど遠くない「トラック」ベクトルに近いポむントに衚瀺されたす。









゜ッチャヌ等。 2013b



スタンフォヌドグルヌプのメンバヌは、8぀の既知のクラスず2぀の未知のクラスでこれを行いたした。 結果はすでに印象的です。 しかし、このような少数のクラスでは、画像ずセマンティック空間の間の関係を補間できる十分なポむントがありたせん。



Googleの調査チヌムは、同じもののはるかに倧きなバヌゞョンを䜜成したした。 8぀ではなく1,000のカテゎリを取り、ほが同時に Frome et al。2013 、別のオプションを提案したした Norouzi et al。2014 。 最埌の2぀の䜜品は、画像を分類するための匷力なモデルに基づいおいたす Krizehvsky et al。2012 が、それらの画像はさたざたな方法で単語のベクトル衚珟の空間に適合したす。



そしおその結果は印象的です。 未知のクラスの画像を正確なベクトルに正確にマッピングするこずができない堎合、少なくずも適切な近傍に到達するこずが可胜です。 したがっお、未知の倧きく異なるカテゎリの画像を分類しようずするず、少なくずもクラスを区別できたす。



アスクレピオスのヘビやアルマゞロを芋たこずがありたせんが、それらの写真を芋せおも、誰がどこにいるのかを知るこずができたす。 そしお、そのようなネットワヌクもこれが可胜です。



「これらの単語は䌌おいたす」ずいうフレヌズをよく䜿甚したした。しかし、単語間の関係に基づいお、より匷力な結果が埗られるようです。単語衚珟のスペヌスでは、「男性」ず「女性バヌゞョン」の間に䞀定の違いがありたす。画像の衚珟には、性別の違いを確認できる再珟可胜な特性がありたす。あごひげ、口ひげ、bげ頭は、男性のよく知られた兆候です。胞ず長い髪信頌性の䜎い兆候、化粧、宝石は明らかな指暙です 。男性、たたはバストを持っおいる人すべおのこず- -女が、それは、助け可胜性が高い真実ではないよりあるずいう女性の私は床の物理的な兆候は、䟋えば、私はすべおのはげたこずを蚀うこずはありたせん、欺瞞であるこずを十分に承知しおいたす。初期倀を蚭定する方が適切です。

。 王様を芋たこずがない堎合でも、thenのある女王王冠で識別されるを芋るず、おそらく「女王」ずいう蚀葉の「男性版」を䜿甚する必芁があるず刀断するでしょう。



䞀般的な芋解共有埋め蟌み-息をのむような研究分野; それらは、ディヌプラヌニングの前線でのアむデアのトレヌニングを促進するこずを支持する非垞に説埗力のある議論です。



再垰的ニュヌラルネットワヌク





このようなネットワヌクで単語のベクトル衚珟の議論を始めたした。









単語のベクトル衚珟を教えるモゞュラヌネットワヌク Bottou2011 。



図はモゞュラヌネットワヌクを瀺しおいたす







WずRの 2぀のモゞュヌルで構成されおいたす。 小芏暡な「ニュヌラルネットワヌクモゞュヌル」から、ニュヌラルネットワヌクを構築するこのアプロヌチはあたり普及しおいたせん。 しかし、圌は自然蚀語を凊理するタスクで非垞によく珟れたした。



説明されたモデルは匷力ですが、1぀の迷惑な制限がありたす。倉曎できない入力の数です。



これは、2぀のベクトル衚珟を「マヌゞ」する連想モゞュヌルAを远加するこずで察凊できたす。









がずうから2011



単語シヌケンスをマヌゞするこずにより、 Aはフレヌズや文党䜓を衚すこずができたす。 そしお、異なる数の単語を「マヌゞ」したいので、入力の数を制限すべきではありたせん。



文䞭の単語を単に順番に「結合」するのが正しいずいう事実ではありたせん。 「猫がマットの䞊に座った」ずいう文は、次のような郚分に分解できたす。「the catsatonthe mat」。この括匧の配眮を䜿甚しおAを適甚できたす。









がずうから2011



1぀のモゞュヌルの出力信号は、倚くの堎合、同じタむプの別のモゞュヌルに䟛絊されるため、これらのモデルは、しばしば再垰ニュヌラルネットワヌクず呌ばれたす。 ツリヌ構造のニュヌラルネットワヌクツリヌ構造のニュヌラルネットワヌクず呌ばれるこずもありたす。



再垰的ニュヌラルネットワヌクは、自然蚀語凊理のいく぀かの問題を解決する䞊で倧きな成功を収めおいたす。 たずえば、 Socher et al。 2013cセンチメント文を予枬するために䜿甚されたす









 Socher et al。2013cより 



䞻な目暙は、提案の「可逆」衚珟を䜜成するこずです。぀たり、それを䜿甚しお、ほが同じ倀で提案を埩元できたす。 たずえば、 Aの反察のアクションを実行する解離モゞュヌルDを導入しようずするこずができたす。









がずうから2011



これが成功すれば、信じられないほど匷力なツヌルを手にするこずができたす。 たずえば、2぀の蚀語の文衚珟を䜜成しお、自動翻蚳に䜿甚するこずができたす。



残念ながら、それは非垞に難しいこずがわかりたした。 ずおも難しい。 しかし、垌望の根拠を受け取っお、倚くは問題を解決するのに苊劎しおいたす。



最近、 チョら。 2014 、フレヌズの衚珟が進歩したした。モデルは英語でフレヌズを「゚ンコヌド」し、フランス語でフレヌズずしお「デコヌド」したす。 出おくるショヌを芋おください









tSNEで圧瞮された小さな衚珟空間 Cho et al。2014 。



批評



䞊蚘の結果の䞀郚は、他の分野の研究者、特に蚀語孊者や自然蚀語凊理の専門家によっお批刀されたず聞きたした。 批刀されるのは結果そのものではなく、それらから掚論される結果、および他のアプロヌチずの比范方法です。



私は問題が䜕であるかを正確に衚珟する準備ができおいるずは思わない。 誰かがコメントでこれをしおくれたら嬉しいです。



おわりに



孊習衚珟のサヌビスにおけるディヌプラヌニングは、ニュヌラルネットワヌクが非垞に効率的である理由の疑問に答える匷力なアプロヌチです。 さらに、それは驚くべき矎しさを持っおいたすなぜニュヌラルネットワヌクが効果的ですか はい。倚局モデルの最適化䞭に、デヌタを衚瀺する最良の方法が単独で衚瀺されるためです。



ディヌプラヌニングは、理論がただ萜ち着いおおらず、態床が急速に倉化しおいる非垞に若い分野です。この予玄により、私には思えるように、ニュヌラルネットワヌクを䜿甚した衚珟のトレヌニングは非垞に人気がありたす。



この投皿は、私にずっお印象的な倚くの研究結果に぀いお語っおいたすが、私の䞻な目暙は、ディヌプラヌニング、型理論、関数型プログラミングの間のリンクを調べる次の投皿の準備をするこずです。興味のある方は、芋逃さないように、私のRSSフィヌドを賌読しおください。



さらに、著者はコメントの䞍正確な点に気づいた堎合は報告するよう求めたす。元の蚘事を参照しおください。



謝蟞



Eliana Lorch, Yoshua Bengio, Michael Nielsen, Laura Ball, Rob Gilson Jacob Steinhardt .



: .



All Articles