科学者は、Twitterで「酔っ払った」メッセージを認識するニューラルネットワークを作成しました

この週末に照らして、アルコールと社交は必ずしも星の間良い組み合わせではないことを忘れないことが重要です。 しかし、私たちの多くはこの経験を何度も繰り返します。 そして、この経験はアメリカの科学者(ロチェスター大学の友人と一緒のナビル・ホセイン)に興味深いアイデアを与えました。 その結果、アメリカの科学者は、酔っている間に書かれたTwitterの投稿を認識できるニューラルネットワークを開発しました。 さらに、結果の数学的モデルは、「酔っ払った」投稿の著者が執筆時点でどこにいたかを判断できます。

MIT Technology Reviewによって報告されています。







ロチェスター大学の専門家は、ニューラルネットワークを作成するために、特定の「アルコール」語彙を使用するツイートを1年間収集しました。 このセットから、「飲酒」、「ビール」、「パーティー」など、アルコールまたはアルコール関連の単語に言及するすべてのツイートがフィルターされました。 約11,000件の投稿を分析することで、メッセージの作成者がアルコールを飲む人であるかどうか、また、ツイートを飲んでいる間に直接書かれたかどうかを確認できました。 これは、機械学習アルゴリズム用のかなり大きなツイートのセットです。



科学者は、ユーザーが最も頻繁に「酔っ払った」ツイートを書く場所を決定することも決定しました。







投稿の著者が自宅にいるかどうかを理解するために、特定の「自宅」の語彙(たとえば、「ソファ」や「バス」)の使用を分析しました。 さらに、可能な限り、地理位置情報データが使用されました。 ユーザーの座標を明確にするために、追加のアルゴリズムが開発されました。たとえば、ユーザーが自宅にいるのか、それとも他の場所にいるのかを知るのは興味深いですか。 典型的なアルゴリズムには、午前1時から午前6時までの時間間隔で最後のメッセージが送信された場所の分析が含まれます。 ただし、この方法には欠点があり、精度が高くありません。



ホセインと同僚は別のアプローチを開発しました。 彼らは、「ついに家で!」、「お風呂で」、「ソファで」、「テレビの前で」など、自宅から送信される可能性が高い単語とフレーズのリストを編集しました。 これらのツイートは、人々の位置を決定するための初期データセットであり、それに基づいて、ニューラルネットワークは自宅の人々を決定するための独自のモデルを形成しました。 アルゴリズムは、ユーザーの自宅の場所が、午後の最後のツイートの場所、最も一般的なツイートの場所、特定の場所からのツイートの割合など、他のインジケーターと相関する方法を指定しました。



いくつかの指標に基づいて、ニューラルネットワークは精度を大幅に向上させました。 その結果、Hossainと共著者は、家の外のユーザーを100メートルの精度で80%の確率で識別できると主張しています。 これは、以前のどの作業よりもはるかに優れています。



これらの2つの方法により、チームは人々がいつどこで飲むかというモデルを開発することができました。 そして彼らはそれを使ってニューヨークモンロー郡の郊外での典型的な飲酒の例を比較しました。



研究者は、各エリアを100 x 100セルのグリッドで分割し、アルコールに関連するツイートがあるエリアをマークすることでこれを行います。 これにより、各地域のアルコール消費量の「ヒートマップ」を作成して比較できます。



自宅の場所や他の場所でのツイートからの飲酒に関するツイートもさまざまです。 各地域のアルコール販売のアウトレットの概要を説明しています。 これにより、研究者は酔っている間に異なる地域から送信されたツイートの密度とアルコールの販売密度との関係を調べることができます。



結果は参考として興味深いものです。 最初に、Hossainは、ニューヨークのツイートの割合がモンロー郡よりもアルコールに関連していることに注目しました。 「可能性のある説明の1つは、アルコールの販売密度が高いニューヨーク市などの混雑した都市は、その可用性のために、より多くの人々がより高いレベルのアルコール消費を使用することを奨励していることです」と彼らは言います。







さらに、ジオロケーションデータは、ほとんどの人が自宅から1キロ以上飲んでいるモンロー郡よりも、ニューヨークの自宅(または家から100メートル以内)で飲む人の割合が高いことを示しています。



ヒートマップは興味深いパターンも明らかにします。 これにより、チームは、アルコールに関する少なくとも5つのツイートがあったグリッドの正方形で、100 x 100メートルの領域を見つけることができます。 「このような地域は、異常な飲酒活動の兆候であると考えています」とホセインは言います。



彼らはまた、この地域のアルコール販売の密度と、誰かが現在飲酒していることを示すツイートの数との間に相関関係があることを発見しました。 この場合、相関と因果関係がどのように関連するかについて、興味深い疑問が生じます。 アルコール度数の高い販売により、人々はより多くの飲酒を強いられますか または、飲酒者は高密度のエリアに集まっていますか? もちろん、この種のデータだけではこの質問に答えることはできません。



ただし、この方法の利点は、安価で高速であることです。 同様の情報を取得する他の方法は、非常に高価で時間がかかります。



原則として、事前に準備されたアンケートに記入するために人々を慎重に選択する必要があります。これはさらに慎重に分析する必要があります。 この方法でトレーニングされたニューラルネットワークは、アルコールの使用をリアルタイムで制御することさえできます。 「私たちの結果は、ツイートが都市で起こっていることに関する詳細な情報を提供できることを示しています」と研究者は言います。



もちろん機能があります。 ツイッターから収集されたデータには歪みがあり、若者が優勢であり、人口のごく一部がソーシャルネットワークを積極的に使用しています。 しかし、他の情報収集方法にも同様の歪みが存在します。たとえば、調査では、通常、一部の移民などの調査を希望しない人は考慮されません。







統計的な歪みを識別することは、すべてのデータ収集方法の重要な部分です。



将来、この研究の著者は、Twitterの投稿で性別、年齢、民族性、およびその他の特徴を判断するためにニューラルネットワークを教えることを望んでいます。 科学者は、これが健康に対するアルコールの影響の研究に役立つと信じています。 アメリカではアルコール依存症のために毎年75,000人が亡くなっているため、このような一見深刻ではない研究は、実用上かなり重要です。 社会におけるアルコール消費のモデルの存在により、最小限のコストでこの問題を解決する正当な方法を概説することができます。



All Articles