商品ずしおのテキスト分析テキスト分析アプリケヌションの抂芁

テキスト分析の颚景 研究に10億ドルを䞎えられたら、NASA党䜓の倧芏暡な自然蚀語凊理NLPプログラムを䜜成したす。 [2015幎マむケル・ゞョヌダン によるReddit AMAより]。 この出版物では、テキスト分析アプリケヌションの垂堎があるかどうかを調べたす。 たた、名誉教授であるM.ゞョヌダン教授は、NLPの可胜性に぀いお楜芳的ではありたせんが、10億ドルを他の䜕かに費やす方が良いでしょう。



はじめに



たず、甚語を定矩したしょう。 テキストマむニングは、テキストドキュメントのコレクションから構造化された情報を取埗するための技術です 。 通垞、次のような倧きなタスク



倚くの堎合、ビゞネスでのテキストマむニングの䜿甚に぀いお人々が話すずき-テキスト分析英語、 テキスト分析 -構造化された情報だけでなく、いわゆる 分析の䞻題掞察を深く理解し、ビゞネス䞊の意思決定を支揎したす。 著名な専門家Set Grimesは、テキスト分析を、テキストからの情報の凊理ず抜出にアルゎリズムアプロヌチを適甚し、深い理解を埗る技術的およびビゞネスプロセスずしお定矩しおいたす。



コグニティブコンピュヌティング補品の新しい垂堎が圢成され぀぀あるこずは䞀般に受け入れられおいたす。 MarketsandMarketsは、自然蚀語凊理補品の䞖界垂堎は2020幎たでに134億ドルになり、CAGRは18.4になるず予枬しおいたす。 したがっお、この垂堎は珟圚玄58億ドルず評䟡されおおり、近幎、この成長垂堎は、IBMによるAlchemy APIの賌入など、 倚数の泚目を集める取匕によっお特城付けられおいたす。 他の掚定によるず、ペヌロッパの同様の垂堎は珟圚5億ドルを超えおおり、2019幎たでに2倍になりたす。 北米垂堎は、䞖界のテキスト分析垂堎のほが40を占めおおり、 楜芳的な成長予枬がありたす。



もちろん、読者はおそらくIBM Watsonプラットフォヌムの成功に粟通しおいるでしょう。 この出版物の目的は、次のような分野における他の興味深いテキスト分析アプリケヌションに぀いお話すこずです。





䌁業怜玢



組織文曞怜玢は、䌁業文曞管理の分野でよく知られおいる情報怜玢アプリケヌションです。 このような゜リュヌションのクラむアントは、倧芏暡たたは䞭芏暡の営利団䜓および政府機関です。 読者は合理的な質問をするかもしれたせん。YandexずGoogleがあるのに、なぜ独自の怜玢゚ンゞンを䜜成するのですか 結局のずころ、Web怜玢ず䌁業怜玢のタスクにはいく぀かの重倧な違いがありたす。



さらに、組織の構造化されたガむドや知識ベヌスの存圚、さたざたな゜フトりェアストレヌゞおよび分析サブシステムずの統合の必芁性、倚くのデヌタ圢匏のサポヌトなどのタスクの機胜が重芁です。

ガヌトナヌの゚ンタヌプラむズ怜玢






りィキペディアは、 䌁業怜玢補品の印象的なリストを提䟛しおいたす 。 ガヌトナヌは 、䞖界のリヌダヌであるHP AutonomyずCoveoを区別しおいたす。 ただし、それらのいずれにも欠陥がないわけではありたせんたずえば、ロシア語をサポヌトするずいう意味で。 したがっお、この方向はアプリケヌションにずっお有望なたたです。



Eコマヌス怜玢



オンラむンストアの補品怜玢は、特別なタむプの䌁業怜玢ず芋なすこずができたす。 さらに、怜玢の重芁性はクラむアントのビゞネスにずっおほが決定的です。e-retailは、コンバヌゞョン率、平均小切手、マヌゞン、および商品の販売速床の向䞊を垞に考えおいたす。 DataInsight分析機関が䜜成したロシアのeコマヌスに関する最近の調査によるず、オンラむンストア機胜ずしおの怜玢の重芁性はバむダヌの少なくずも20が指摘しおいたす。 さらに、サむトで怜玢するナヌザヌは、それ自䜓が蚪問者の高床なコンバヌゞョングルヌプであるこずが知られおいたす。 たた、オンラむンストアmコマヌスのモバむルアプリケヌションの堎合、䜿甚される機胜は基本的に怜玢のみです。 このタスクの特城は、賌入したい補品を正確に定匏化できない顧客向けの探玢シナリオをサポヌトする必芁があるこずです。 特に、これは、入力時に怜玢ク゚リを提案するメカニズムによっお実珟されたすリアルタむムのク゚リ提案。



このニッチ垂堎での成功事䟋は次のずおりです。



Oracle Commerce Platform






Endecaに基づくOracle Commerce Guided Searchは、柔軟なランキング機胜ずパヌ゜ナラむズされた怜玢を備えた匷力な゜リュヌションです。 SAPには独自の同様の゜リュヌションがありたす-電子商取匕プラットフォヌムHybrisの怜玢テクノロゞヌ。 たた、 A9-米囜最倧のオンラむン小売業者Amazonのスピンオフを匷調するこずもできたす。 䞻芁な怜玢゚ンゞンがこの有望な垂堎に参入しようずしたこずは泚目に倀したすが、その成功は明らかではありたせん。 GoogleはCommerce Searchを静かに提䟛し、ロシアを含む高䟡な実装のセグメントを閉じおいたす。 この゜リュヌションの欠点は、怜玢のカスタマむズができないこずです。 著者が知っおいるように、Yandexはロシア最倧のオンラむン小売業者のパむロットを獲埗できたせんでした。 䞀般に、このトピックに぀いおは、Shopologプロゞェクトを率いるアントンテレホフの資料を匷くお勧めしたす。



メディア環境内のオブゞェクトぞの参照の監芖



むンタヌネットは毎日ペタバむトのテキストを生成したす BIによるずFacebookのみ-500 TB /日;「読者はすでにビッグデヌタずいう甚語を埅っおいたす//オン、すぐにそれを取りなさい」、これは珟代䌁業にずっお興味深いニュヌス、プレスリリヌス、レビュヌ、コメント、ブログ投皿、゜ヌシャルメディア投皿。 このようなデヌタを単䞀のストリヌムに収集およびパッケヌゞ化するサヌビス、いわゆる firehoseは、重芁なプレむダヌがGnip 最近Twitterで賌入された、 Datasift 、 Xignite 、 Diffbot 、 Kimono 、 Connotateである深刻なビゞネスになり぀぀ありたす。 最倧芏暡の怜玢゚ンゞンのAPIは、同じカテゎリに起因しおいる可胜性がありたす。 しかし、デヌタは戊いの半分です。 他の䌚瀟は顧客に同じ掞察を提䟛したす。



sysomosダッシュボヌド








最初のグルヌプには、゜ヌシャルメディアを扱う䌁業゜ヌシャルメディアリスナヌが含たれたす。 Meltwaterは数十億の゜ヌシャルメディア投皿を分析し、顧客ブランドの蚀及を远跡し、オピニオンリヌダヌを芋぀け、競合他瀟ず比范したす。 このような補品の゚ンドナヌザヌはブランドマネヌゞャヌです。 Cisionはこの機胜を補完し、䌁業のブランドパフォヌマンスを枬定する機胜を備えおいたす。 Sysomosは、同様の機胜ず、通信を入力しおレビュヌに応答する機胜を提䟛したす。 Luminoso Dashboard-キヌワヌドクラりドに基づくメンションの重芁な芖芚化。 Radian6は、 リヌド生成ず盎接販売を補完したす。 NewsWhipは、トレンド、泚目床の高いストヌリヌ、ミヌムを早い段階で明らかにしたす。これは、オンラむンのパブリッシャヌやマヌケティング担圓者に求められおいたす。 ロシアの゜ヌシャルメディア監芖システム-YouScan 、 Cribrum 、 BrandAnalytics 、 SemanticForce 。



もう1぀のグルヌプには、いわゆる 関心のある䌁業に関する倖郚デュヌデリゞェンス、぀たり、顧客、リヌド、たたは競合他瀟に関する構造化された情報新しい契玄、補品、裁刀所の決定、買収、人材の雇甚、経営陣の亀代など。 LexisNexis News Company ResearchおよびInsideView for Salesは、この分野のリヌダヌです。



画像








マヌケティング



フォヌカスグルヌプのラボ垂堎調査には、参加者の長期怜玢、参加者のサンプルの代衚性の䜎さ、研究参​​加者ず実際の顧客の動機ず行動の違いずいう、重倧な欠点がありたす。 実際の顧客から受け取ったフィヌドバックは、はるかに䟡倀がありたす。 したがっお、 Atensity Analyzeを䜿甚するず、テストモヌドで販売が開始された補品に関する構造化されたフィヌドバックを取埗できたす。 顧客䟋ずしお、通信䌚瀟が挙げられたすは、数時間のうちに、゜ヌシャルネットワヌク䞊の実際のナヌザヌが䜜成した補品の䞻芁な問題のリストを受け取りたす。 これにより、完党なリリヌスの前に、欠陥を修正し、必芁な倉曎を加えるこずができたす。

clarabridgeダッシュボヌド






Clarabdridgeは、予枬分析の目的で、プロファむル、゜ヌシャルメディア、サポヌトログで衚珟された顧客の意芋を分析したす。 さたざたなシグナルたずえば、賌入履歎や人口統蚈デヌタをレビュヌの感情の分析ず組み合わせるこずにより、流出、再賌入、LTVの可胜性を予枬できたす。

Bloomreach Relevance Engineは、Webペヌゞのコンテンツ、ナヌザヌの行動パタヌン、関連性の高いコンテンツの䜜成芁求を分析し、賌入ぞのコンバヌゞョンを倧幅に増加させたす。



スマヌトセヌルス



Web䞊の䌁業の掻動に関するオヌプンデヌタは、それを自分の目的に䜿甚するのに十分な情報を提䟛したす。 たずえば、 Datanyze 、 BuiltWith、およびHG Dataは 、さたざたな䌁業が運営するテクノロゞヌに関する情報を远跡したす。 この情報は、Datanyzeのお客様がスマヌトな販売のために䜿甚したす。サポヌトサヌビスを提䟛したり、競合する技術を適切なリヌドに提䟛したりしたす。



Spiderbookは䌁業の拠点を集め、B2Bの顧客営業チヌムの生掻を楜にしたす。 デヌタには、䌚瀟のプロファむルず、䌚瀟内の掚奚連絡先のリストが含たれたす。 Quidは、高床な怜玢機胜ず意思決定のための䟿利なグラフィカルな芖芚化を備えおいたす。 Introhiveは、連絡先、他の人ずの関係、および個人的な連絡を確立するための掚奚事項の収集にのみ焊点を圓おおいたす。



salespredictダッシュボヌド








SalesPredict 、 Infer 、 LeadSpaceは 、リヌド䌁業に関するすべおの利甚可胜な情報を収集したす䌁業ナレッゞベヌス-Orb Intelligence 、 DunBradstreet 、 LinkedInからのラむセンス賌入を含む埓業員数、オヌプンポゞションの数、Webおよび゜ヌシャルネットワヌクでのプレれンスのレベル、特蚱、技術、商暙、むベントなど、耇雑な数孊モデルを構築し、このデヌタをCRMの情報ず組み合わせお、いわゆる リヌドスコアリング、特定のリヌダヌにサヌビスを賌入する可胜性の評䟡。



情報セキュリティ



䌁業デヌタは特に䟡倀がありたす。 今日の倧䌁業は、個人デヌタやクラむアントデヌタベヌスの挏掩を防ぐために、電子メヌル、ビゞネスメッセンゞャヌ、コラボレヌションサヌバヌのメッセヌゞを傍受するこずにより、情報の普及を制埡する必芁がありたす。 たた、スパむ行為や劚害行為に関䞎する䞍cru慎な埓業員を特定するこずもできたす。 テキスト分析タスクのもう1぀の兞型的な䟋は、スパムずの戊いです。 Kaspersky LabずInfowatchには 、基本的なテキスト分析ツヌルに基づいた同様の補品がありたす 。 Digital Reasoningは 、金銭的虐埅に察凊するためのプラットフォヌムを開発しおいたす。



Palantirダッシュボヌド








政府機関は、通垞、過激掟やintelligence報掻動ずの戊いの䞀環ずしお、膚倧な数の情報源から情報を収集、芁玄、分析するテキスト分析に基づくアプリケヌションにたすたす泚目しおいたす。 有名なアメリカのスタヌトアップPalantirは、 軍 、 intelligence å ± 郹門 、 調査機関など、およびPalantir Gothamシステムなどのビゞネス向けの補品を開発しおいたす。



パヌ゜ナルアシスタント



テキストは普遍的なプレれンテヌション圢匏です。 メッセヌゞは、画像、電話での䌚話の録音、音声メッセヌゞ、ビデオファむルのオヌディオトラックなど、他のデゞタル゜ヌスからテキストに倉換できたす。 ディヌプニュヌラルネットワヌク 深局孊習の理論における近幎のブレヌクスルヌにより、音声認識ず画像認識の問題を解決する䞊で、質的に新しいレベルに到達するこずができたした。 ロシア語の音声認識甚の手頃な䟡栌のツヌルは、 Yandex Speech Kitテクノロゞヌです。



音声認識技術ずテキスト凊理のドッキングが玠晎らしい結果をもたらすこずは明らかです。 すでに埓来のアプリケヌションになっおいたす-マむクロ゜フトの音声怜玢Google、Siri、Cortana。 さらに、この分野のリヌダヌの1人であるNuanceのDragonDriveのデモビデオに泚目したす。 DragonDriveは、ドラむバヌが電子メヌルを読み、メッセヌゞを送信し、音声制埡に基づいおカレンダヌにメモを䜜成できるようにするスマヌトアシスタントです。 別の顕著な䟋は、䌁業䌚議を蚘録するGridspace Memo補品ビデオです。 最埌に、 Pop Up Archiveは、あらゆる皮類のオヌディオファむルの怜玢を実装するこずを目的ずしおいたす。ラゞオ局、メディア、矎術通、図曞通など、オヌディオによく関わる組織でアプリケヌションを芋぀けたす。 カシストは、金融問題の分野で仮想アシスタントずの通信技術を開発しおいたす。 コンテキスト化ず倚蚀語機胜を備えたSiriずRobin Labsのクリ゚ヌタヌによるVivは、この分野での野心的なプロゞェクトです。



おわりに



芁玄するず、テキスト分析アプリケヌションのグロヌバル垂堎の状況は、この出版物のタむトルにあるフレヌズで簡朔に衚珟されおいるず結論付けるこずができたす。 テキスト分析は、あらゆる開発者が利甚できる貎重な補品になりたした 。 たったく新しいレベルに達した非構造化デヌタ分析技術は、巚倧なビゞネスチャンスを切り開きたす。



近幎、機械孊習ツヌルを䜿甚したテキスト分析の根底にある基本的な問題を定性的に解決するクラりドベヌスのツヌルを含むツヌルが登堎したした。 このような補品に䟝存しお、テクノロゞヌ䌁業ぱンドナヌザヌ向けの新しいアプリケヌションを開発し、ワヌドプロセッシングの副産物の開発、むンフラストラクチャ、およびラむセンス賌入の技術的リスクずコストを削枛できたす。 䟋は、関数の暙準セットを実装する倚蚀語テキスト分析サヌビスTextocat APIです。



たもなく圓瀟の別のプロゞェクトがパブリックドメむンに登堎したす。これは、テキストを操䜜するための䜎レベル関数を実装し、IBM Watsonず同じプラットフォヌム䞊に構築されたオヌプンな無料TextoKitラむブラリです。 TextoKitを䞭心に開発コミュニティを組織し、自然蚀語凊理のためのスケヌラブルなパむプラむンを構築するずいう独自の経隓を共有する予定です。 このプロゞェクトの迅速な開発に興味があり、既存のコヌドのドキュメントの準備を支揎する準備ができおいる堎合は、mail @ textocat.comたでご連絡ください。



Textocat APIに基づく補品の䟋ずしお、Textocat NewsずTextocat E-Commerce Searchの2぀の補品を挙げたす。



圓瀟の補品Textocat Newsは、リリヌスの準備が敎っおいたす。 これは、むベントタむプごずに自動分類された䌁業に関するニュヌスを収集するためのテクノロゞヌです。 このテクノロゞヌは、数癟䞇のアメリカおよび囜際䌁業のプロファむルいわゆる䌁業DNA、「䌁業DNA」を提䟛するOrb Intelligence APIず統合されおいたす。 このような情報がリアルタむムでどのように䜿甚されるかは、 最近のGoogleの驚異的な株匏成長のケヌスによっお刀断できたす。



珟時点では、圓瀟は、Textocat APIプラットフォヌムに基づいお実装されたオンラむン小売業者 Textocat E-commerce Search 向けに 、 特殊な怜玢技術の限定的なベヌタテストを実斜しおいたす。 ビゞネスの効果を重芖するオンラむンストアの代衚者を招埅しお、補品をテストしおください。



ロシアのテキスト分析の垂堎分析/ CIS



Textocatは、ロシアおよび旧゜ビ゚ト連邊の囜々のテキスト分析垂堎の分析に関する研究を行っおいたす。 短いフォヌムにご蚘入ください。 調査の結果に応じお䜜成された調査は、調査の参加者が利甚できたす。



著者は、Textocat Alik_Kirillovich 、 Aldvin 、 nomemm 、Maxim GubinGoogle、Maria GrinevOrb Intelligenceの同僚に貎重なコメントをありがずう。



Textocatに぀いお



Textocatは、非構造化デヌタから有甚な情報を抜出するビゞネス゜リュヌションを䜜成するテクノロゞヌ䌁業です。 同瀟の䜿呜-商品ずしおのテキスト分析-は、珟代の゜フトりェア開発者にずっおテキスト凊理を簡単にするこずです。



All Articles