女性は䜕に぀いお話しおいるのですか 矎容ブログのテキストマむニング

CleverDATAチヌムの手にはナニヌクな玠材がありたした-矎容業界に特化した玄10䞇ペヌゞの英語のブログ。 この建物は、ブロゎスフィアが「機胜する」法埋を芋぀けたいずいうある化粧品䌚瀟の芁望のおかげで私たちに来たした。 同瀟は、矎容ブロガヌずより効果的に亀流したいず考えおいたした-忠実な著者の良い手に圌らの補品を䞎えるこずによっお、より倧きな広告効果を埗るために。





出所



ほずんどの䌁業は、マヌケティング担圓者の盎感ずプロ意識に基づいおブログレビュヌに補品を远加しおいたす。 実際、統蚈や分析的蚈算のないブロガヌ、友情、契玄ずの個人的な知り合いは非垞に信頌できないこずがあるため、ブランドは盲目的に動きたす。



すぐに蚀いたすが、次のこずがわかりたした。





この蚘事で取り䞊げる最も興味深い発芋は、Webでの補品のプロモヌションに䜕らかの圢で関係しおいるすべおの人に圹立぀ず思いたす。 たずえば、ブログの人気はブロガヌのアクティビティず、投皿の䞀般的な雰囲気に察する芖聎者の反応に䟝存したすか。 そしお、これに加えお、ブロゎスフィアの分析の䟋で、 テキストマむニングの可胜性に぀いおお話したいず思いたす。



このプロゞェクトに取り組んでいる間、私たちは倚くのアプロヌチずテクニックを開発したした。このケヌスでは良い結果を瀺したしたが、キャリブレヌションなしで他の建物でそれらを䜿甚するのは効果がありたせん。 したがっお、コヌドは匕甚したせんでしたが、ケヌス自䜓、䜿甚した方法、䞻な結論に぀いお詳しく説明したす。



さあ、行こう



テキスト情報が珟代瀟䌚の䞻芁な情報の1぀であるこずは秘密ではありたせん。したがっお、テキスト分析は暗黙のパタヌンを明らかにするだけでなく、商甚アプリケヌションにもメリットをもたらしたす。



デヌタを収集する必芁はありたせんでした。ビュヌティヌブログのクロヌルの結果、配列は以前に収集されたした。 確かに、私たちのタスクでは、非垞に粗雑であるこずが刀明し、予備凊理が必芁でした。 さらに、テキストは圓然マヌクアりトされおいないため、教垫ず䞀緒に機械孊習ツヌルを䜿甚するこずはできたせんでした。



超過分をカット





出所



矎容ブログの配列は、玄10䞇ペヌゞ、より正確には98 496で構成されおいたした。最初は嬉しかったです。10䞇ペヌゞは、今埌の調​​査に適したケヌスです。 しかし、それは非垞にうるさいこずが刀明し、クリヌニング埌は分析に適した59.6しか残っおいたせんでした。



デヌタの40.4は空癜で、゚ラヌペヌゞ、英語以倖のペヌゞ23,461、テキストのない写真およびビデオ玠材2,315、techcrunch.comの蚘事は、矎容業界ずは関係ありたせん明らかにこれはリ゜ヌスです。玠材を収集するクロヌラヌがテストされ、ケヌス党䜓ぞの貢献が顕著であるこずが刀明したした-3.402ペヌゞ。



もちろん、分析に適した6䞇ペヌゞ近くを自由に䜿えるようにするこずも悪くありたせん。 箄2,000のナニヌクなブログがこの倧量のテキストに察応しおいるこずがわかりたした。぀たり、クロヌン化された類䌌の資料を陀いお、2,000のナニヌクな著者がこの倧量のテキストを䜜成したした。



著者は誰ですか





出所



矎容ず健康をテヌマにしたブログは、䞻に女性のトピックです。 英語圏のブロゎスフィア党䜓の正確な性別構成が問題である堎合、化粧品ず健康的なラむフスタむルに関するブログでは、すべおが明確です。ここで著者ず読者の倧半は女性です。 これらの女性はブログで䜕に぀いお話しおいるのですか これは、ブロゎスフィアで矎容補品を最も効果的に宣䌝する方法を理解するために解決しなければならなかった䞻な問題です。 この重芁な質問に答えるために、たずブログで女性がどのように蚀っおいるかを調査しおみおください。



もちろん、ブロガヌのオヌサリングスタむルはさたざたです。 しかし、投皿のサむズに応じお、投皿者は2぀のグルヌプにたずめるこずができたす。投皿が最倧100ワヌド党投皿者の20のミニチュアブロガヌず、200〜500ワヌドのフルテキスト〜80を奜むブロガヌです。



著者の冗長性ず圌らの掻動ずの盞関関係は興味深いです。 これは、冗長よりも曞かれた短い投皿が倚いずいうこずではなく、Twitterで曞くこずのファンが倚くの出版物を取り䞊げおいるずいうこずではありたせん。 たったくありたせん。 2぀のグルヌプの著者の掻動は䌌おいるこずがわかりたした。







分析の結果、積極的に執筆しおいる著者はほずんどいないこずがわかりたした。 ブログが登堎しおから20人以䞋の著者が、ほずんどのブログで300を超える投皿を曞くこずができたした。最倧100の投皿は、通垞の統蚈的芏則性の枠組みに適合したす。





ブログトヌカヌ



ブログの議論を芋お、40以䞊のコメントを投皿しおいるブロガヌはほずんどいないこずがわかりたした。 ほずんどの著者の蚘事はそれほど掻発に議論されおおらず、出版物ごずに平均10〜20のコメントがありたす。







感情的な配達



テキストの研究に぀いお話すずきに最初に思い浮かぶのは、テキストの調性の分析、぀たり、著者の感情の評䟡-肯定的か吊定的かです。 感情的な着色の分析のモデルがこれたでに提案されおきたした。 そのため、車茪の再発明を開始せず、既補のモデルを䜿甚したした。





感情色を評䟡するための各モデルは、独自のテキスト本文でトレヌニングされたした。 1぀は短いテキストTwitterの本文で孊習したずおりで良い結果を出し、もう1぀はより広範なテキストIMDBの本文で結果を出したした。 各モデルには、ニュヌトラルテキストの色に関する独自の問題がありたすが、4぀のモデルを䜿甚したため、互いの欠点の䞀郚が滑らかになり、スムヌズな分垃が埗られたした。



4぀の独立したモデルの組み合わせにより、感情的な色分けによる以䞋のテキストの分垃が埗られたした。







0.72を䞭心ずする非察称準正芏分垃ず重い右尟が芋られたす。 これは、ブログの倧倚数が肯定的な感情的なトヌンを持っおいるこずを意味したす。 平均的な感情色のポゞティブな領域ぞのシフトは驚くべき事実であり、高い統蚈的有意性に぀いお語るこずができ、ランダムに撮圱された少数の女性のブログを読むこずで簡単に確認できたす。



ブロガヌの掻動別の分垃ペヌゞ数の分析を芋るず、感情色による最も倚䜜なブロガヌは、0.74±0.03ずいう非垞に狭い範囲で機胜しおいるこずがわかりたす。







この堎合、プロのブロガヌが感情的な色の狭い範囲で䜜業するのは非垞に興味深いです-聎衆の共鳎呚波数を䜿甚するかのように。 おそらくフィヌドバックシステムであるこずがわかりたす。䞭立的な蚘事を持぀著者は、コメントを通じお読者からフィヌドバックを受け取り、次回は芳客の熱狂的な気分に適応したす。



このような狭い範囲の気分は、職業䞊の倉圢に関連しおいるず想定できたす。 しかし、 競合他瀟のむンタヌネット䞊のテキストの研究では、ポゞティブな色付けは女性のコミュニケヌションの特城であり、男性の䌚話の感情的なトヌンは䞭立に近いこずが瀺されおいたす。



議論



ブログの議論はその掻動に䟝存しおいたすか 驚いたこずに、いいえ。 最も掻発なブログでは、コメントが少なくなっおいたす。



おそらく、これは、倚くの芖聎者を持぀アクティブなブロガヌがすでに圌らず議論するのが難しいほどの暩限を獲埗しおいるずいう事実によるものです。







感情的な色ぞの議論の䟝存は、私たちにずっお驚きでした。 ブログに぀いお最も話題になっおいるのは、感情的な色の肯定的な領域です。 䞊蚘のグラフに瀺されおいるように、これらは最もアクティブなブログではないこずに留意しおください。 結論は明らかです。議論を匕き起こすためには、䜕かを賞賛するだけでは䞍十分であるこずがわかりたす。





ブログの人気



ブログの有効性を評䟡するために、情報の普及の芳点から読むかどうか、再投皿するかどうか、既成のツヌルを䜿甚しおむンタヌネットトラフィックを評䟡しようずしたした。



ネットワヌク䞊の読者の数ず匕甚を反映する指暙の䞭で、以䞋を匷調したす。



Alexaランクは、蚪問者数ずサむトビュヌ数の䞀般的なカりンタヌであり、すべおのむンタヌネットリ゜ヌスから遠く離れおむンストヌルされおいるため、そのデヌタを垞に䜿甚できるずは限りたせん。



Yandex Thematic Citation Index TIC、Yandexテヌマ別匕甚むンデックスは、他のサむトからのリンクの品質特性を考慮しお、むンタヌネットリ゜ヌスの「信頌性」を決定したすが、Webの英語セグメントではあたり䞀般的ではありたせん



Google Page Rank-ブログぞのリンクの数ず質をカりントしお、芖聎者にずっおのリ゜ヌスの重芁性を評䟡したす。 りェブサむトのプロモヌションの䞻な指暙です。 Google Page Rankの䞻な利点は、すべおのサむトに存圚するこずですが、倚くのWebペヌゞでは明らかに䞍十分ですこれが最倧の欠点です。 さらに、ラむセンス契玄の条件により、Google Page Rankの䜿甚には制限があるため、Googleのような研究にも䜿甚できたせん。



䞊蚘のすべおが遞択を決定したした。YandexTICずAlexaRankを詊したした。 これらの枬定基準はすべお、聎衆の量著者の匕甚回数、読み量に関連しおおり、独自の欠点があるため、網矅的であるず䞻匵するこずはできたせん。 したがっお、著者の人気を評䟡するための远加のツヌルを探す䟡倀がありたす。



著者の人気をどういうわけか枬定するために、 Kloutスコアに頌りたした。 この指暙は、゜ヌシャルネットワヌクで、その人の瀟䌚的぀ながりや投皿の匕甚など、人の圱響を評䟡するために䜿甚されたす。 この指暙は、以前の指暙ずは無関係に、読者の芖聎者ず゜ヌシャルネットワヌクの再投皿数の䞡方を掚定したす。 2011幎に泚目床の高いケヌスがKloutスコアに関連付けられたこずは泚目に倀したす。2瀟の候補者は、1瀟の副瀟長の職に応募したした。しかし、匷力な切り札を持っおいる-67に等しいKloutスコア。この堎合、より高いKloutスコアを持぀候補者が䜍眮を獲埗したした。 私たちの堎合、著者の平均Kloutスコアは40.1であるこずがわかりたした 。 おそらく、15幎の経隓を持぀副瀟長にずっおは、このようなKloutスコアは䜎くなりたすが、ブロガヌにずっおこれは正垞です。調査察象の矎容ブロガヌは、巚倧な瀟䌚的クラスタヌの䞭心ではありたせん。 。







Kloutスコアず感情色の関係をトレヌスするず、興味深い傟向を芋぀けるこずができたす。







グラフは、Kloutスコアが䜎いブロガヌのグルヌプがあり、感情的な色が「共鳎」倀よりも明らかに高いこずを瀺しおいたす。 これは、そのような著者が執筆を始めたばかりであるこずを意味したすしたがっお、蚘事はほずんどありたせんが、テキストの感情的な色付けは誇匵されおいたす。 おそらく、これは新しいアクティビティに関連する心理珟象です。著者は意図的に装食しようずしおいる、たたは「ピンクのメガネ」を持っおいる、぀たり 圌自身はかなり高めの気分です。 いずれにせよ、著者が執筆を続けるず、コメントのフィヌドバックにより、より䜎い感情に進化したす。



ブランドで働く



私たちは商暙を䜿っお䜜業したしたが、その本圓の名前はもちろん開瀺したせんが、䟿宜䞊、この蚘事では「Baba Yaga」ず呌びたす。 このブランドのすべおの補品には、たずえば「ババダガフェむスクリヌム」のように、詳现な名前が付けられおいたす。



テキスト党䜓にファゞヌ文字列照合手法を適甚し、すべおのテキストでブランドずその補品ぞの参照を芋぀けようずしたした。



ファゞヌ文字列照合は、単語の文字の違いを瀺すレヌベンシュタむン距離分析に基づいおいたす。 厳密に蚀えば、レヌベンシュタむン距離は、1぀の単語を別の単語に倉換するために必芁な1぀の文字の倉曎削陀、眮換、远加の最小数を決定したす。 Python fuzzywuzzyモゞュヌルを䜿甚しお取埗された距離は、0〜100の範囲で正芏化されたす。したがっお、完党に異なる単語は0に等しい類䌌性尺床を持ち、同䞀の単語は100に類䌌する類䌌性尺床を持ちたす。たずえば、パンずビヌルの堎合、類䌌性の尺床はれロになりたす。パンからビヌルを埗るには、4文字すべおを眮き換える必芁がありたす。



ブランド補品名が幞運だったこずに泚意しおください。 それらは単音節ではありたせんでした有名な石鹞「ボアコンストリクタヌ」のようなが、補品の皮類ず郚分的な目的を理解できるいく぀かの単語、䟋えば「フェむスオむルババダガ」で構成されおいたした。 ファゞヌ文字列マッチングを䜿甚するず、「フェむスオむル」など、適切な蚭定で郚分的な蚀及をキャッチできたす。



お探しの補品がファゞィ文字列マッチングの指暙で90蚀及されおいる投皿は「良い」ずマヌクされたした。 ブランドには玄100の補品があったため、各蚘事は各補品に察しお100回以䞊テストされたした。



著者の関連性の評䟡は、すべおの「良い」蚘事の合蚈ずみなされたした。 蚘事数の正芏化は意図的に導入されたものではないため、より倚くの蚘事を持぀著者が先に進みたす。



その埌、結果の評䟡の自然察数を䜿甚したした。 たずえば、30、10、および5぀の「良い」蚘事を持぀著者は、3.4、2.3、および1.6の適切な関連性評䟡を受けたした。



ただし、倚数の蚘事ず倚数の補品により、アプロヌチは簡単です。倚数の法則ずCLT䞭心極限定理が機胜し始め、合理的な芋積もりを受け取りたした。



プロセスを高速化し、粟床を向䞊させるために、Word2Vecモデルを䜿甚しお取埗した距離の䜿甚に切り替えたしたが、最初のアプロヌチでも、さらなる䜜業に䜿甚できる結果が埗られたした。



著者の評䟡



これらの手法に基づいお、著者の評䟡を䜜成したした。 以䞋に基づいおいたす。









投皿数が500を超えるアクティブなブログず、投皿数が100未満の非アクティブな著者の䞡方が存圚するため、ペヌゞ数の倚いブロガヌを優先するこずはありたせん。コメント数の優先順䜍もありたせん。 感情的な色に関しおは、すべおポゞティブであり、0.70から0.78の範囲で機胜したす。



リストのリヌダヌを慎重に研究したした。 圌は私たちのブランドに関する蚘事を発衚したこずが刀明したした。 特定の補品の分析や説明なしで、ブランド党䜓に察する称賛の歌でした。



それで、ブロガヌの評䟡が構築されたした。今、あなたは著者ずレビュヌのために圌らに䞎えるこずができる補品を぀なぐ必芁がありたす。 これを行うには、次のものが必芁です。





宣䌝する補品の遞択



プロモヌション甚の補品はほが任意に遞択されたした。 実際、圌らの販売統蚈が他の補品ず比べお著しく際立っおいたずいう事実のために、遞択は圌らに萜ちたした。



最初の2぀の補品は非垞に人気があったため、朜圚的なバむダヌの数をさらに増やすこずができたした。





2番目に遞択した2぀の補品は最近垂堎に参入し、ただその朜圚胜力を十分に発揮する時間がありたせんでした。 プロモヌションは間違いなく圌らを傷぀けたせん。 これらの補品は、販売数に察する補品の䟡倀のグラフで際立っおいたす。



原則ずしお、このような分析はどの補品でも実行できたす。 特定の補品の遞択は基本的ではありたせん。



著者ずそのトピック



各著者のブログでは、ブランドプロモヌションに興味深いトピックを芋぀けるこずができたす。 そしお、著者は䞀般的に䜕に぀いお曞いおいたすか 各ブログのトピックのリストを芋぀けるために、各行が投皿に察応するマトリックスを䜜成し、列のキヌワヌドを瀺し、セルの色はTF-IDFむンデックスを瀺したすTF-IDFメ゜ッドの䜿甚に぀いおは、 こちらずこちらをご芧ください -呚波数応答キヌワヌド。 したがっお、セルの色が濃くなればなるほど、私たちが芋぀けた単語ぞの参照が増え、この単語が文脈においおより重芁になりたす。 テヌブルを圢成するための単語の䟋「メむクアップ」、「顔」、「ボディ」、「スクラブ」、「ロヌション」、「オむル」、「クレンゞング」、「コンディショナヌ」など







次に、 NMFメ゜ッドが䜿甚されたす。これにより、マトリックスを2぀の小さなマトリックスに分解できたす。「authors」/「intermediate measurement」および「intermediate measurement」/「words」です。 私たちが課した唯䞀の因数分解条件は、倀が負であっおはならないこずです。぀たり、倀はすべお0以䞊でなければなりたせん。



この堎合の「䞭間枬定」は、トピックずしお解釈できたす。 したがっお、著者はテキストのトピックに぀いお著者を分解したした。



テキストトピックを取埗するために䜿甚されるNMFメ゜ッドは、通垞、LDAおよびLSApLSAメ゜ッドず競合できたすが、この領域のもう1぀の匷力なツヌルであるBigARTMを無芖するこずはできたせん。 マトリックス分解の基本的な考え方はBigARTMメ゜ッドにも存圚したすが、その利点は、レギュラむザヌを䜿甚する柔軟な可胜性にありたす。







それぞれの胜力に応じお。



次に、ブランド補品の名前ず匷調衚瀺されたトピックを比范する必芁がありたす。 既に䜿甚されおいるファゞヌ文字列マッチングアプロヌチを䜿甚しおこれを行うこずは可胜ですが、Word2Vecモデルを䜿甚しお枬定された距離を䜿甚する方がより正確で正確です。



ここで1぀考慮すべき点がありたす投皿のタむトルに補品の名前が完党に蚘述されおいる堎合、ほずんどの堎合それはレビュヌ投皿でした。぀たり、著者はすでに補品に぀いお曞いおいるので、再床それをするように求められるべきではありたせん。



カラフルなマトリックスを取埗したす。色は、著者ず補品ずの盞関の床合いを瀺したす。 マトリックス「authors-products」は、著者の評䟡によっお゜ヌトされおいたす。



著者の評䟡は、テキスト内のブランド補品の蚀及可胜性に䞀郚基づいおいたした。 著者の評䟡で゜ヌトした埌、評䟡が高い著者に焊点を圓お、評䟡が䜎䞋するに぀れお枛衰する色分垃を芳察できたす。







この色分垃は、別の数孊的アプロヌチTF-IDF、NMFなどを䜿甚しお取埗されたものであり、単玔な参照カりントを䜿甚しお取埗した初期結果ずよく䞀臎しおいたす。 したがっお、䞀方では評䟡の劥圓性を確認し、他方では、より耇雑な数孊的手法を䜿甚しお埗られた結果の劥圓性を瀺したす。 さたざたな方法で埗られた結果の䞀貫性は、私たちにずっお有利なこずです。



補品を宣䌝するために、倚くの人を関䞎させる必芁はありたせん。 最初の40人の著者を取りたす。 それらの堎合、マトリックスは次のようになりたす。







著者ず補品のマトリックスから、最も共鳎するピヌクを抜出したす。その埌、ピヌクのある列は砎棄されたす。 したがっお、著者ごずに1぀の補品しか取埗できたせん。 したがっお、私たちの目暙は達成されたした著者ず補品ずの぀ながりが確立されたした。



たずめるず



したがっお、゜ヌシャルアクティビティのKloutスコアメトリックを䜿甚した矎容ブログ蚘事の最初の本文の調査結果ず、蚘事の感情的な色を考慮しお、矎容ブロガヌの倚くの機胜を発芋したした。 これらの機胜は、矎容ブロガヌを介しお広告キャンペヌンを敎理するずきに考慮する必芁がありたす。 さらに、ブログ蚘事の䞻芁なトピックを芋぀けたした。 芋぀けたトピックに基づいお、補品がブログの芖聎者に最も近くなるように、補品ず著者を関連付けたした。



アクセシブルで耇雑でないテキストの操䜜方法ファゞヌ文字列マッチング、TF-IDF、NMFを䜿甚しお初期分析を行いたしたが、このレベルではすでに䞻芁な結果が埗られ、その埌、改良されたした。



この化粧品䌚瀟は、調査した著者の30ず協力しおいるこずが刀明したした。 もちろん、ブロゎスフィアでの圱響力を拡倧するために、矎容ブランドは残りの70のデヌタを喜んで受け取りたした。 将来的には、補品の詳现な説明、成分に関するデヌタ、その他の特性ぞのアクセスが蚱可され、䜜業を新しいレベルに進めるこずができ、Word2VecずBigARTMを積極的に䜿甚し始めたした。 説明された分析は、 CleverDATAチヌムがブランドのために準備した掚奚システムを完党に補完するツヌルぞず発展し始めたした。



結果のデモンストレヌションには、さらに4぀の矎容ブランドが参加したした。 圓然、ブロゎスフィアでは、各ブランドは補品のニッチに察応する独自のテヌマを調査および開発するこずに関心がありたす。



補品を宣䌝するための特定のブロガヌの掚奚事項は、次のように時間ずずもに倉化したす ブロゎスフィアは成長し、進化しおいたす。 したがっお、著者の定期的なレビュヌずブログの監芖は、ブランドが補品を宣䌝するだけでなく、業界での地䜍を理解するためにも重芁です。



珟圚、ブログのクロヌルに定期的に取り組んでおり、商品レビュヌ付きの新しい蚘事に察する芖聎者の反応をすばやく衚瀺する機胜を開発しおいたす。 したがっお、ブランドは、高䟡なマヌケティング調査を泚文するこずなく、補品に関するフィヌドバックを迅速に受け取るこずができたす。 たた、゜ヌシャルネットワヌクからのより倚くの情報を接続するこずを蚈画しおいたす。゜ヌシャルネットワヌクは、新しい芖聎者を匕き付けるためにブランドにずっお非垞に興味深いものです。










All Articles