862の一意のSMSテキストを分析し、使用された単語の頻度、都市ごとに配信され、受信者ごとにグループ化されました。 人気のある検索サービスで短期間公開されていたテキストが基礎として採用されました。
メッセージの受信者を特定できないようにするため、電話番号、パスワードを含むテキスト、および送信者または受信者に損害を与える可能性のあるその他の情報を削除しました。
このプロジェクトは 、研究とプロモーションの目的でのみ私たちにとって興味深いものです。
猫の下でいくつかの結果。
定量的パラメーター
データベース内の一意のメッセージの数:862
SMS受信者の地域(トップ5):
- モスクワ-399
- サンクトペテルブルク-60
- サマラ地域-40
- オレンブルク州-31
- バシコルトスタン共和国-28
発送期間:2011/07/07-2011/07/16
総単語数(前置詞を含む):23,581
一意の単語数:5,559
1つのSMSの平均単語数:27.3の非反復-6.4
制限事項
smsデータベースには一定の制限があり、代表的なソースとは見なされません。
制限事項:
- Webフォーム経由で送信されたSMSのみが選択されました。
- サンプリング手法はランダムではなく、Yandexアルゴリズムに基づいています。
- その期間に送信されたSMSの総数は不明です。
- コスト削減;
- 携帯電話がないか、ブロックされている。
- 匿名性を維持するため。
- 他:習慣から、長いテキストを長くタイプすること、より便利。
Yandexの検索結果には8,000を超えるエントリがリストされ、表示できるのは1,000未満でした。サービスを介して送信されたすべてのメッセージが検索結果に含まれているわけではなく、検索ロボットによってのみランク付けされています。
それにもかかわらず、ソースは、テキストの独創性とプライバシーのために、現代の書かれた言語の研究にとって興味深いです。
いくつかの観察
ほとんどのユーザーの前向きな姿勢に満足して、彼らはお互いを愛し 、 キスをし 、 逃し 、 待ち 、より多くの文章 、 会話 、 電話を求めます。 愛、家族と忠実さ、誕生日おめでとう、結婚式の日にお互いを祝福します 。
一方、 「愛」はしばしば「not」粒子に隣接しており、テキストには家族のフィルターを見逃さない言葉や脅威があります。
ほとんどのユーザーにとって、 家は仕事だけではありませんが、 お金について書くことの方がはるかに多いです。 善 、 喜び 、 幸福は 悪と問題を克服します。 彼らは妻や子供についてよりも母親について書くことが多く、 今日と明日を好みます。
ほとんどのメッセージは圧倒的で、感嘆符と絵文字の数が文字数に追いつきます。 テキストは読み書きができず、これが標準になりつつあり、まれなメッセージがエラーなしで書き込まれます。
まとめ
驚くべきことに、 「良い」コメントの数は「邪悪 な」コメントの数に勝ちましたが、一見するとすべてが逆に見えました。