News360パヌ゜ナラむれヌションシステム情報クラスタヌのランキング

掚奚システムが倚くのコンテンツで機胜する堎合、䞻なタスクはこのコンテンツのフィルタリングではなく、ランキングです。 ニュヌスに぀いお話すず、毎日䜕十䞇もの蚘事が発行されたすが、䜕千もの蚘事がニュヌスを読むすべおの人の興味に圱響を䞎える可胜性がありたす。 ただし、ほずんどのナヌザヌは1日あたり5〜10件を超える蚘事を読みたせんNews360による。 最初に衚瀺する蚘事はどれですか



News360は、3幎目のこの質問に察する答えをすでに探しおいたす。 私たちはすでに倚くの異なる答えを芋぀けたしたが、今幎はこの抂念を攟棄するこずにしたした。これは過去のすべおの幎の䞻芁な抂念でした。



簡単な蚀葉での蚘事で、News360がむベントに関する蚘事のクラスタリングずむベントのランキングを行うシステムの実装ず開発に数幎間取り組んだ理由に぀いおお話しし、その埌、このアプロヌチを捚おお別のアプロヌチを実装するこずにしたした。 たた、News360がどのように機胜するか、内郚にあるもの、およびそれに぀いおの参照先に぀いおも少し説明したす。



News360 - Everything you want to read



News360の䞻なタスクは、パヌ゜ナラむズにより情報過倚の問題を解決するこずです。 ゜ヌシャルネットワヌクを䜿甚し、ニュヌスを読み、客芳的な芖点を埗るためにいく぀かのニュヌス出版物を远いかけ、そしおもちろん、友人や他の興味深い人々からブログを読む珟代のナヌザヌを想像しおください。 そのようなナヌザヌは、すべおのニュヌスをフォロヌするのに䜕時間も費やすか、䞀郚の情報をスキップしたす。 たた、゜ヌシャルネットワヌク䞊の新しいブログや友人が増えるに぀れお、たすたす興味深いものが芋倱われおいるずいう感芚がたすたす高たっおいたす。 そのようなナヌザヌ向けのNews360は、遞択した゜ヌスで最も人気のあるすべおの蚘事、゜ヌシャルネットワヌクで最も議論されおいる蚘事を遞択し、ナヌザヌが最も読みやすいトピックに新しいコンテンツを远加し、すべおを䟿利で矎しいフィヌドに敎理したす。



たたは、別の珟代ナヌザヌを想像しおください-政治以倖のすべおに興味があり、料理が奜きな人。 次に、News360はナヌザヌに最も興味深い非政治的な䞖界のニュヌスを衚瀺し、料理のブログや出版物から最新で最も人気のあるフィヌドをフィヌドに远加できたす。



ニュヌスフィヌドを敎理するパヌ゜ナラむズされたアプロヌチずパヌ゜ナラむズされおいないアプロヌチを比范するために、さたざたなフィヌドを芋おみたしょう。



   CNN  Windows 8



CNNは、パヌ゜ナラむズされたフィヌドではなく、最も重芁で人気のあるニュヌスのセットを衚瀺したす。



  getprismatic.com (   )



Prismaticは、私が個人的に興味を持っおいるニュヌスフィヌドを瀺しおいたす。 それずは別に、最もセンセヌショナルな䞖界のニュヌスを掲茉したコラムもありたす。 より倚くの蚘事に合わせるために、このショットから写真をカットする必芁がありたした。



   News360  Windows 8



News360のメむン画面は、私が興味を持ちそうなすべおのニュヌスを結合しようずしたす。 これは䞖界で最も重芁なニュヌスであり、私は奜奇心が匷いかもしれたせんが、それは私の興味に盎接関係しおいたす。



この問題を解決するために、むンタヌネットからシステムに入っおくるニュヌスを分析しお、远加情報を取埗したす。





簡単にするために、名前付きの抂念、トピック、カテゎリ、および蚘事に関するその他のすべおの知識を蚘事タグず呌びたす。 これらの同じタグの圢匏で、News360は、奜きな蚘事を分析するか、ナヌザヌが自分の興味を明確に衚珟するこずで、ナヌザヌの興味を刀断したす。



     News360



ニュヌスフィヌドをさらに最適化するために、News360は同じものに関するさたざたな゜ヌスの蚘事をグルヌプ化したす。これにより、ナヌザヌはメむンフィヌドに繰り返しが衚瀺されなくなりたすが、ストヌリヌを読むこずに突入しお、知りたいず思う芖点を遞択できたす。 このようなコンテンツのクラスタリングは、グラフベヌスの最小カットツリヌ法に類䌌したアルゎリズムによる特別なメカニズムによっお実行されたす。



  News360,

News360蚘事のグラフ、クラスタヌが匷調衚瀺されたす。



クラスタリングメカニズムの動䜜の結果、各クラスタヌには意味の近い蚘事が含たれるだけでなく、同じむベントに関するさたざたな゜ヌスからの蚘事のコレクションが含たれたす。 News360は、ナヌザヌのニュヌスフィヌドの繰り返しを非衚瀺にする問題を解決し、ランキングでのむベントの共鳎を考慮できるようにするために、蚘事ではなくこれらのむベントをナヌザヌに衚瀺したす。



クラスタヌに分類される蚘事の属性に基づいお、その属性が蚈算されたす。 䟋えば、最新の蚘事、頻繁に遭遇するタグ、およびナニヌクな属性-むベントの共鳎は、このむベントが䞖界でどれほど掻発に議論されおいるかを瀺しおいたす。



  1. CIAはクラりド契玄でIBMよりもAmazonを遞択したこずで違反
    • 共鳎 5
    • タグ CIA、Amazon、IBM、クラりドコンピュヌティング
    • 最新の蚘事 Physorg.com、06/18/2013
  2. 増加が芋蟌たれるグロヌバルIT支出
    • 共鳎 5
    • タグガヌトナヌ、クラりドコンピュヌティング
    • 最新の蚘事 The Strategic Sourceror、06/19/2013
  3. 䜿甚するものOffice 365およびSkyDrive Pro
    • 共鳎 1
    • タグ Office 365、SkyDrive、クラりドコンピュヌティング、ガゞェット
    • 最新の蚘事 WinSuperSite、2013幎6月20日


News360では、クラスタヌが情報の基本単䜍ずしお䜿甚されたす。぀たり、掚奚されるのはそのシステムです。



ナヌザヌが蚘事を読んだり、共有したり、気に入ったりするず、システムはこの蚘事に぀いお知られおいるこずからナヌザヌが最もよく知っおいるこずを芋぀けようずしたす。 したがっお、システムは各ナヌザヌ向けにトレヌニングされ、「ポヌトレヌト」を圢成し、ナヌザヌにずっお興味深いニュヌスを最も倚く遞択するためにこのポヌトレヌトを䜿甚したす。 たずえば、私の肖像画は次のようになりたす読みやすくするために、たれなタグから長い尟を削陀したした。

クラりドコンピュヌティング 0.95
りィリアム・ゲむツIII 0.72
スティヌブ・ゞョブズ 0.62
マむクロ゜フト 0.44
ミュヌゞック 0.40
Ibm 0.24
スタヌトアップ 0.18
リチャヌド・ブラン゜ン 0.17
事業内容 0.17
䞭小䌁業 0.16
゚ンタヌテむンメント 0.16
重みは、クラりドコンピュヌティングが私にずっお興味深いものであるずいうシステムの自信です。 この重みは、ナヌザヌが特定のトピックずどれだけ積極的に「察話」するかに基づいお蚈算されたす。 たずえば、クラりドコンピュヌティングに関する蚘事を読んで、プロファむルでこのトピックの重みを増やしおいたす。



ポヌトレヌトに基づいお、システムは実際の情報のクラスタヌを取埗し、どのクラスタヌを衚瀺するかを決定したす。



3぀のストヌリヌすべおがクラりドテクノロゞヌに぀いお語っおいたす。぀たり、私の肖像画によれば、それらは私にずっお興味があるかもしれたせん。 したがっお、コンテンツをパヌ゜ナラむズするプロセスは次のように衚すこずができたす。







぀たり、システムはナヌザヌの関心に埓っおコンテンツをフィルタリングしたす。



このアプロヌチにより、ナヌザヌが興味のないニュヌスからナヌザヌを救うこずができたすが、コンテンツが豊富にあるため、ナヌザヌが関心のある分野で発生するすべおの最も重芁なこずを孊習するこずを保蚌したせん。 情報過負荷の問題を解決したせん。



「ナヌザヌにずっおのニュヌスの重芁性」ずいう抂念の導入により、比范特性぀たり、䞀郚のニュヌスはナヌザヌにずっおより重芁であり、他のニュヌスはそれほど重芁ではないを導入したす。



この手法は「コンテンツベヌスの掚奚」ず呌ばれ、imdb.comの掚奚システムなどのさたざたな補品で広く䜿甚されおいたす。



各ドキュメントに぀いお、䞀連の属性が識別されたす。各属性はナヌザヌに関連しお重み付けされ、このナヌザヌにずっお重芁なニュヌスの量が決定されたす。 この蚘事の䟋では、このようなパラメヌタヌの䜿甚を詊みたす。



  1. コンテンツの鮮床。
  2. ナヌザヌのポヌトレヌトにあるニュヌスタグの数。
  3. 関連タグのナヌザヌがニュヌスを奜む可胜性衚1の係数。
  4. 共鳎-このニュヌスをカバヌする゜ヌスの数、぀たり 蚘事が珟圚のクラスタヌに参加しおいる゜ヌスの数。


ニュヌスのためにシステムに目を向けた瞬間に、私に぀いお知られおいる情報「ポヌトレヌト」がシステムぞのリク゚ストのパラメヌタヌずしお䜿甚されたす。たずえば、蚘事「FabContent-based、collaborative Recommendation」で説明されおいたす。 そのため、蚘事のパラメヌタヌずナヌザヌ情報は、ニュヌスのランク付けに䜿甚されたす。



デヌタでこれを詊しおみたしょうたずえば、2013幎6月20日にランキングしおいるずしたしょう。



  1. CIAはクラりド契玄でIBMよりもAmazonを遞択したこずで違反
    • 鮮床 2日0ポむント
    • ナヌザヌの奜みクラりドコンピュヌティング0.95、IBM0.242ポむント
    • 共鳎 52ポむント
  2. 増加が芋蟌たれるグロヌバルIT支出
    • 鮮床 24時間1ポむント
    • ナヌザヌの奜みクラりドコンピュヌティング0.950ポむント
    • 共鳎 52ポむント
  3. 䜿甚するものOffice 365およびSkyDrive Pro
    • 鮮床関連性2ポむント
    • ナヌザヌの奜みクラりドコンピュヌティング0.950ポむント
    • 共鳎 10ポむント


簡単にするために、各パラメヌタヌのニュヌスを䞊べ替えおポむントを蚈算し、最初に2、3番目に0、その他すべおに1を割り圓おたした。



合蚈、次のようにランク付けされたニュヌスを取埗したす。



  1. CIAはクラりド契玄でIBMよりもAmazonを遞択したこずで違反
  2. 増加が芋蟌たれるグロヌバルIT支出
  3. 䜿甚するものOffice 365およびSkyDrive Pro


ここでは、クラスタヌ=ストヌリヌ=むベントをランク付けしたした。 クラスタをランク付けするずき、3぀の議論の䜙地のない利点が生たれたす。





しかし、このアプロヌチには問題があり、クラスタヌのランキングから抜け出し、蚘事を1぀ず぀ランク付けし始めたした。 問題は、遞択したクラスタヌ属性の倚くがナヌザヌの関心ず䞀臎しないこずです。



たずえば、クラスタヌに5぀の蚘事がある堎合、クラスタヌの共鳎は5ず芋なされたすが、これは5぀の蚘事すべおがナヌザヌの関心を匕くずいう意味ではありたせん。 ぀たり、各パラメヌタヌで特定のナヌザヌの特定のクラスタヌをランク付けする堎合、すべおのナヌザヌの関心を考慮する必芁がありたす。 この堎合、クラスタ゚ントリの総数ではなく、ナヌザヌが関心を持っおいるクラスタ゚ントリの数ナヌザヌの関心に蚀及で共鳎を蚈算したす。



同じこずは、クラスタヌの鮮床、およびクラスタヌの䞻芁蚘事の遞択぀たり、このクラスタヌから䜕をクラスタヌの「カバヌ」に衚瀺するかにも圓おはたりたす。



同時に、ナヌザヌは蚘事ではなくストヌリヌクラスタヌを正確に衚瀺する必芁がありたす。 第䞀に、ナヌザヌは、異なる゜ヌスで公開されおいる堎合でも、ストリヌム内の同じ蚘事に関する耇数の異なる蚘事を芋たくないためです。 第二に、ランキングのためには、むベントの共鳎のようなパラメヌタヌが必ず必芁だからです。



そこで、蚘事がランク付けされるシステムになりたしたが、むベントの共鳎が考慮され、ストヌリヌがナヌザヌに衚瀺されたす。



䞊蚘のグラフに瀺されおいるすべおの蚘事を取り䞊げおみたしょう。
これは、CIAがすぐにAmazonのりィッシュリストにアクセスできるこずを意味したすか 時間 CIA、アマゟン 06/18/2013
Amazon、IBMがCIAスパむクラりド契玄をめぐる争い オヌストラリア人 IBM、CIA、Amazon 06/18/2013
レポヌトCIAがAmazonを遞択しおクラりドを構築 に぀いお調べる CIA、クラりドコンピュヌティング 06/18/2013
政府のIT支出は䞖界的に枛少 Silicononndia ガヌトナヌむンド 06/19/2013
予枬䞖界の州機関は今幎、情報技術ITに支出したす ペパキスタン パキスタン 06/19/2013
CIAはIBMよりAmazonを遞択したこずで違反 Physorg.com IBM、CIA、Amazon 06/18/2013
レポヌトCIAがAmazonを遞択しおクラりドを構築 ビゞネスむンサむダヌ CIA、Amazon、クラりドコンピュヌティング 06/18/2013
䜿甚するものOffice 365およびSkyDrive Pro Winsupersite Office 365、SkyDrive、クラりドコンピュヌティング、ガゞェット 06/20/2013
増加が芋蟌たれるグロヌバルIT支出 戊略的゜ヌス ガヌトナヌ、ワヌルドニュヌス 06/19/2013
モバむルおよびクラりドのトップ政府の技術買い物リスト 技術共和囜 Gartner、クラりドコンピュヌティング、World News 06/19/2013
そしお、それらからナヌザヌに適したものを遞択したすフィルタリング
Amazon、IBMがCIAスパむクラりド契玄をめぐる争い オヌストラリア人 IBM0.24 06/18/2013
レポヌトCIAがAmazonを遞択しおクラりドを構築 に぀いお調べる クラりドコンピュヌティング0.95 06/18/2013
CIAはIBMよりAmazonを遞択したこずで違反 Physorg.com IBM0.24 06/18/2013
レポヌトCIAがAmazonを遞択しおクラりドを構築 ビゞネスむンサむダヌ クラりドコンピュヌティング0.95 06/18/2013
䜿甚するものOffice 365およびSkyDrive Pro Winsupersite クラりドコンピュヌティング0.95 06/20/2013
モバむルおよびクラりドのトップ政府の技術買い物リスト 技術共和囜 クラりドコンピュヌティング0.95 06/19/2013
䞊蚘ず同じ方法で蚈算されたポむントの合蚈で蚘事を゜ヌトしたす。クラスタヌの重みを蚈算したした各パラメヌタヌのポむントは括匧で瀺され、ポむントの合蚈は最埌の列にありたす。 この堎合、共鳎ずしお、クラスタヌ内の蚘事の総数ではなく、クラスタヌ内のナヌザヌが関心を持぀蚘事の数を考慮したす。
䜿甚するものOffice 365およびSkyDrive Pro Winsupersite クラりドコンピュヌティング0.952 06/20/20132 10 4
レポヌトCIAがAmazonを遞択しおクラりドを構築 に぀いお調べる クラりドコンピュヌティング0.952 06/18/20130 42 4
レポヌトCIAがAmazonを遞択しおクラりドを構築 ビゞネスむンサむダヌ クラりドコンピュヌティング0.952 06/18/20130 42 4
モバむルおよびクラりドのトップ政府の技術買い物リスト 技術共和囜 クラりドコンピュヌティング0.952 06/19/20131 10 3
Amazon、IBMがCIAスパむクラりド契玄をめぐる争い オヌストラリア人 IBM0.240 06/18/20130 42 2
CIAはIBMよりAmazonを遞択したこずで違反 Physorg.com IBM0.240 06/18/20130 42 2
最埌の段階で、出力をクラスタヌにグルヌプ化し䞊の図のグラフに埓っお、各クラスタヌの最初の蚘事を取埗し、残りを非衚瀺にしたす。



  1. 䜿甚するものOffice 365およびSkyDrive Pro
  2. レポヌトCIAがAmazonを遞択しおクラりドを構築
  3. モバむルおよびクラりドのトップ政府の技術買い物リスト


この結果は、私が興味を持っおいるものに䌌おいたす。



システムは、ナヌザヌのポヌトレヌトからタグの重みを䜿甚するこずに加えお、さたざたなタグに関連しおさたざたな方法で蚘事のパラメヌタヌに重みを付けるこずができたす。 パラメヌタは、蚘事の日付、゜ヌスの数、テキスト情報の量、゜ヌシャルネットワヌクでの圱響のむンデックス、およびその他の類䌌の蚘事属性です。 たずえば、Politicsタグの分析蚘事に含たれるテキスト情報は少し悪いです。 ただし、フォトブログの情報ずたったく同じ量が蚱容されたす。 したがっお、同じ蚘事のタグごずに重みが異なりたす。 News360で開発されたランキング関数を䜿甚しお正芏化した埌、これらのパラメヌタヌはタグに関連する蚘事の重みに集玄されたす。



ナヌザヌのポヌトレヌトを蚘事内の1぀たたは別のタグを芋たいず考えるず、ナヌザヌがポヌトレヌトに持っおいるタグ内の蚘事の重量を集蚈し、ナヌザヌに察する蚘事の最終的な合蚈重量を取埗したす。



最埌のメカニズムでは、次の機胜のセットを䜿甚しおストヌリヌをランク付けできたす。





たた、ナヌザヌにテヌプのプレれンテヌションを遞択する十分な機䌚を提䟛したす。





このランキングシステムは珟圚News360内でテスト運甚䞭ですが、次のシステムアップデヌトの開発が既に開始されおいたす。これには、ランキングに関するニュヌスに関する共同知識の䜿甚などが含たれたす蚘事が䞀般のすべおのナヌザヌたたは珟圚のナヌザヌず同様のナヌザヌに奜たれる限り 、プロファむルに特定の関心を远加するための掚奚事項、反埩テストプロセスに基づいた特定のナヌザヌに察する掚奚事項アルゎリズムの自動適応、およびその効果の評䟡 このナヌザヌのさたざたなアルゎリズムのアクティビティ。



参照
  1. りィキペディア名前付き゚ンティティの認識
  2. トラブヌルシ、HN2006。 名前付き゚ンティティの認識ロヌカル文法ベヌスのアプロヌチ。 博士論文、コンピュヌティング孊科、電子物理孊郚、サリヌ倧孊、ギルフォヌド、サリヌ、英囜取埗元 scribd.com
  3. ボザヌ、ベルンハルトE .; Guyon、Isabelle M。; およびVapnik、Vladimir N。; 最適なマヌゞン分類噚のトレヌニングアルゎリズム。 Hausslerでは、David線集者; COLTに関する第5回幎次ACMワヌクショップ、144〜152ペヌゞ、ペンシルバニア州ピッツバヌグ、1992幎。ACMPress。 取埗元 citeseer.ist.psu.edu
  4. Chang、C。、およびLin、C。nd。 Libsvm-サポヌトベクタヌマシン甚のラむブラリ。
  5. Oracleテキスト内のドキュメントの分類。
  6. Kornfein、MM、およびGoldfarb、H。2007幎7月。 MM Kornfein議長にお。 技術的な文章の䞀節の分類手法の比范。 WCE 2007、ロンドン、英囜取埗元 citeseerx.ist.psu.edu
  7. フレヌク、GW、タヌゞャン、RETsioutsiouliklis、K。2004。 グラフクラスタリングず最小カットツリヌ。 むンタヌネット数孊、1、385-408。 取埗元 citeseerx.ist.psu.edu
  8. りィキペディアレコメンダヌシステムコンテンツベヌスのフィルタリング
  9. Balabanovic、M.Shoham、Y.1997。 Fabコンテンツベヌスの共同掚奚。 コンピュヌティング機械協䌚の通信、403、66-72。 取埗元 citeseerx.ist.psu.edu



All Articles