Twitterは2006年以降、ツイートデータベース全体を6つの大学に引き渡しました。





毎日5億の投稿がTwitterに投稿されています。 個人データを含むこのような情報の配列は、データマイニングの本当の金鉱です。 科学者は、ツイートに基づいて、人間の行動、社会的つながり、感染症の広がり、人体の危険因子などのパターンを研究し、Scientific Americanの6月号を執筆しています。



たとえば、マイクロソフトの研究者は、妊婦のツイートの内容に基づいて産後うつ病を発症するリスクを判断するアルゴリズムを開発しました。 米国地質調査所では、ツイート追跡して地震の震源地を特定しています。



これまで、科学者は非常に限られたデータの選択で作業することを余儀なくされてきました。 すべてのツイートを検索する唯一の方法は、標準のTwitter APIにアクセスすることでした。すべてのメッセージの1%のみにアクセスできます。



しかし今、Twitterは科学コミュニティに目を向けています。 2006年2月、同社 、分析用のすべてのメッセージを含む完全なデータベースを提供すると発表しました。



4月、Twitter 60か国以上から1,300以上のアプリケーションが科学的目的でデータベースにアクセスするためのアプリケーションを受信し、リクエストの半分以上が米国外から送信されたことを発表しました。 候補者を選択した後、情報を提供することに同意した4か国から6つの大学を選択しました。



選択された大学にのみアクセスが許可されましたが、それでも非常に前向きなニュースです。 将来的には、このベースはより広範な研究者サークルが利用できるようになり、データマイニングのツイートに基づく科学論文の数が爆発的に増加する可能性があります。 科学者はより多くのデータを使用して、より複雑で特定のパターンを追跡できます。 最終的に、ベースはオープンアクセスに陥ることがあります。



確かに、多くの質問が必然的に生じます。 たとえば、Twitterは研究結果の権利を取得しますか? データマイニングにデータを使用するには、ユーザーに許可を求める必要がありますか?



ニュアンスに前もって同意するために、バージニア工科大学の科学者グループが、Twitterデータの倫理的利用に関する規則を提案しました。 とりわけ、このルールには、ユーザー名とニックネームの公開の禁止と、調査の目的を公然と宣言する要件が含まれています。 このデータベースの作成者は、このデータベースを使用して作成された多くの科学論文が印刷される前に、そのような規則に同意することが重要であると考えています。





マルテゴプログラム



さらに、Twitterデータの倫理的使用に関する規則に直接矛盾するソフトウェアツールが既に開発されていること、つまり、特定のユーザーおよび組織に関するデータを自動的に収集することを追加する必要があります。 そのようなプログラムには、 MaltegoCreepyがあります。



All Articles