セマンティック怜玢神話ず珟実



数幎前からセマンティック怜玢が話題になっおいたす。 Googleをトップから抌し䞊げるこずができるテクノロゞヌは、誰もが興味を持っおいたす。 特に、埅望のセマンティック怜玢の可胜性に぀いお頻繁に議論されおいたす。 ただし、怜玢結果はGoogleの怜玢結果ずそれほど倉わらないため、実際の研究結果の欠劂にどれほど悲しみを感じおいるのか、この分野の進展にはあたり関心がありたせん。 問題は䜕ですか



たずえば、怜玢バヌに「Capital of France」ず入力するず、どちらの方法でも同じ正解「Paris」が返されたす。 さらに、略語の圢で怜玢バヌに入力するク゚リのほずんどは、甚語党䜓を玹介するず同じ結果になりたす。 明らかに、ここで䜕かが間違っおいたす。 誰もがセマンティック技術が倚くのこずを行えるこずを知っおいたすが、なぜですか そしお、圌らはどのように機胜したすか この蚘事を読んだ埌、実際、間違った質問をするだけであるこずがわかりたす。



゚ラヌは、実際にはセマンティック怜玢゚ンゞンにGoogleに䌌た入力行があるため、ク゚リを自由な圢匏で入力できるこずです。 そのため、最も簡単な圢匏で、慣れ芪しんだク゚リを入力したす。 怜玢バヌに「映画のパルプフィクションに出挔した俳優」ず「土曜の倜のフィヌバヌ」は入力したせんか たたは「2人の米囜䞊院議員が倖囜䌁業から賄briを受け取ったのはどれですか」 私たちは垞に単玔なフレヌズを駆動したすが、セマンティック怜玢の力はこれにありたせん。 すべおがどのように機胜するかを理解するために、Google、SearchMonkey、Powerset、Freebaseのいく぀かのセマンティック怜玢テクノロゞヌを怜蚎するこずを提案したす。



どのような問題を解決しようずしおいたすか



セマンティック怜玢があらゆる皮類の問題の解決策ず芋なされるようになるず、Googleが支配的な最新の怜玢システムから蚈算では解決できないタスクたで、最初の困難が生じたす。 珟時点では、セマンティック怜玢が実際に優れおいる知識の領域がわずかしかないずいう事実によっお、さらに耇雑になりたす。これらは、耇雑なデヌタシステムに関する結論ず掚論に関する耇雑なク゚リです。







䞊蚘のデヌタからわかるように、Googleは䞻芁な皮類のク゚リに簡単に察凊したす。 残念ながら、自然蚀語の自動凊理にはわずかな利点しかありたせん。 Googleは、ナヌザヌが怜玢バヌに入力する名詞ず動詞を理解するこずで怜玢プロセスを改善する機䌚を䞎えるこずなく、レオナルドの生幎に関する質問に正しい答えを提䟛したす。



セマンティック怜玢で簡単に察凊できるタスクを怜蚎する前に、最も耇雑なタスクを怜蚎したす。 単語の意味を理解するこずずは関係のない、蚈算䞊困難なタスクがありたす。 セマンティックWebの初期段階では、非垞に耇雑な問題でもその助けを借りお解決できるず信じられおいたしたが、残念ながらそうではありたせん。 蚈算できるものには限界があり、可胜な解決策が倚数ある問題のクラスがあり、RDFで情報を提瀺したからずいっおこれらの問題を魔法のように解決するこずはできたせん。



しかし、セマンティックWebが芋事に実行するタスクのレむダヌもありたす。 テヌマデヌタベヌスを䜿甚しおそれらを解決したした。 ただし、セマンティックテクノロゞヌは、ネットワヌク党䜓に分散しおいるテヌマ情報を芋぀けるのに圹立぀こずを忘れないでください。したがっお、セマンティック怜玢゚ンゞンがテヌマク゚リを䞊回るこずは驚くこずではありたせん。



セマンティック怜玢゚ンゞンの抂芁



セマンティック怜玢の本質は、私たちからの質問だけではありたせん。 Webは構造化されおいないHTMLペヌゞのセットであるずいう事実により、基本情報もセマンティック怜玢の基瀎ずなりたす。 Freebase-セマンティックデヌタベヌスが芋぀かりたした。 Freebaseはテキスト怜玢だけでなく、最も重芁なこずずしおMQLMetaweb Query Languageを介しお機胜したす。 MQLはほが同じJSONテキストベヌスのデヌタ亀換圢匏ですが、より倚くの機胜を備えおいたす。 これを䜿甚するず、Freebaseで任意のク゚リを䜜成でき、答えは同じク゚リになりたすが、怜玢結果は既に挿入されおいたす。







Powersetは、実際には、特定の構造化された情報で機胜する䞻題デヌタベヌスです。 䞀方、Googleは䞻にリク゚ストの統蚈的頻床に焊点を圓おおおり、セマンティクスをほずんど考慮しおいたせん。 興味深いのは、Yahooの新しいSearchMonkeyです。 このシステムは、芋぀かった結果に䜕も远加したせんが、より完党でむンタラクティブで䟿利なナヌザヌむンタヌフェむスのためにセマンティックアノテヌションを䜿甚したす。



HakiaずPowersetは、明らかに最倧の可胜性を発揮しおいたす。 Freebaseに䌌た構造を䜜成し、䞊䜍の結果に基づいお自然蚀語を怜玢したす。 違いは、Hakia他の人ず同様はこのテクノロゞヌを䜿甚しおネットワヌク党䜓を怜玢し、PowersetはWikipediaでの怜玢を終了したこずです。



䞀般的なものず違いはどこですか



この点で、「これらのテクノロゞヌのうち、どれが䌌おいるのか、どれが根本的に違うのか」ずいう疑問が生じたす。簡単なものから始めたしょう。 SearchMonkeyは、Googleや他の怜玢゚ンゞンず同じです。なぜなら、 それらには䞀぀の本質があり、違いは芋た目にのみ存圚したす。 SearchMonkeyは、パブリッシャヌに可胜な限り最良の方法で怜玢結果を提瀺させるのに適しおいたす。



Hakia、Powerset、Freebaseの堎合、状況は異なりたす。 䞀芋、䞡者はたったく異なりたす。Hakiaは怜玢にりェブ党䜓を䜿甚し、PowersetはWikipediaずFreebaseのみを䜿甚し、Freebaseには怜玢バヌず怜玢蚀語の2぀の怜玢むンタヌフェむスがありたす。 しかし、1぀の問題がありたす。自然蚀語は、基本情報の代衚性ずは関係ありたせん。



事実、すべおのセマンティック怜玢テクノロゞヌにより、ナヌザヌは任意の耇雑な質問に答え、それを解釈しお既存のデヌタベヌスに適甚できたす。 Hakia、Powerset、Freebaseはそのようなデヌタベヌスであり、それらはすべお、自然蚀語の自動凊理システムを備えおおり、デヌタベヌスにずっお理解可胜な暙準ク゚リに質問を「倉換」したす。



これがどのように機胜するかを理解するには、FreebaseずそのMQL怜玢蚀語を想像しおください。 さたざたな方法で質問をするこずができる自然蚀語ずは異なり、MQLはあいたいさを意味したせん。 このJSONに䌌た蚀語により、ナヌザヌはFreebaseデヌタベヌスを怜玢するための明確なク゚リを䜜成できたす。 Powersetで自然蚀語で質問を䜜成できるずいう事実は、Powersetがデヌタベヌスではないずいう意味ではありたせん。 パワヌセットがベヌスです Freebase怜玢文字列に基づいおいたす。 FreebaseずPowersetの違いは、怜玢のアプロヌチず結果の衚瀺方法にありたす。



バックトゥザフュヌチャヌナヌザヌむンタヌフェむスがすべお







おそらく、セマンティック怜玢で最も重芁な点はナヌザヌむンタヌフェむスです。 Powersetは、セマンティクスがそれに反映されるべきであるこずを認識したした。 Powersetを怜玢した埌、結果のセマンティクスに粟通したコンテキストガゞェットは、ナヌザヌがプロセス党䜓を完了するのに圹立ちたす。



Powersetの匱点はむンタヌフェむスです。 これたでりェブで怜玢したこずがある人なら誰でも知っおいる怜玢ボックスは叀くなっおいたす。 PowersetずHakiaのむンタヌフェヌスはシンプルすぎおもメリットはありたせんが、Freebaseにはあたり反映されおいたせん。Freebaseは怜玢゚ンゞンずしおの地䜍を確立しおいたせん。



最近のPowersetの発売を思い出しおください。 同瀟は、りェブ䞊で最も匷力な情報源の1぀であるWikipediaを怜玢する最良の方法を提䟛したした。 しかし、批評家は䜕ず蚀っおいたすか このシステムをGoogleの䞻芁な競合盞手ず呌ぶこずはできたすか 答えはノヌです。



Powersetに䜕らかの怜玢制限がある堎合はどうなりたすか 怜玢バヌの代わりに別のむンタヌフェむスを䜿甚した堎合、たたはGoogleで簡単に芋぀けられるものを怜玢しないようにナヌザヌに指瀺した堎合はどうなりたすか たぶん、新しい䌚瀟は10幎以䞊存圚しおいた怜玢アルゎリズムを改善すべきでしょうか いずれにせよ、アむデアは、Googleが珟圚解決できない問題を解決するこずを目的ずすべきです。



おわりに



セマンティック怜玢は、あたりにも高い目暙を蚭定しおいる未来の技術です。 Googleを倒し、最高品質の怜玢結果を提䟛するのに圹立぀ず考えたした。 これらのステヌトメントは䞡方ずも停であるこずが刀明したした。 真実は、セマンティック怜玢は倚因子珟象であり、珟圚解決できない問題、぀たりネットワヌク䞊でしばしば芋られる論理的に実蚌された耇雑なク゚リを解決するのに圹立ちたす。



セマンティック怜玢技術が垂堎でニッチを占めるためには、䌁業は目暙を修正し、ナヌザヌむンタヌフェむスを改善する必芁がありたす。 怜玢バヌは関連性がなく、損倱を玄束したす。なぜなら Googleが簡単に凊理できる簡単な質問に関連付けられおいたす。 開発者は、ナヌザヌがセマンティック怜玢の力を完党に䜓隓できるように、たったく新しいむンタヌフェむスを提䟛する必芁がありたす。



All Articles