卒業生の言葉:統計(翻訳)

卒業生のために、ただ一言:統計







オリジナル



彼はニューヨーク・タイムズの興味深い記事を翻訳する自由を取りました。









ハーバード大学を考古学と人類学の学位で卒業した後、キャリー・グライムズはマヤの入植地の種類を調査し、地図上で遺物が見つかった場所をマークしました。 しかしその後、彼女は自分の作品の一部である「これらすべての数学とコンピューターのこと」と呼ぶものに魅了されました。







「人々は考古学をインディ・ジョーンズがやったことだと考えていますが、実際、ほとんどの作業はデータ分析です」とキャリーは言います。



現在、ミス・グライムズは異なる種類の「発掘」に取り組んでいます。 Googleで働いており、Google検索エンジンを改善する方法を見つけるために、膨大なデータの統計分析に取り組んでいます。



ミス・グライムズはインターネット世代の統計学者であり、以前は数学ローファーの天国と考えられていた職業のイメージを変えている多くの人の一人です。 現在、統計学者はサービスに対する需要が高まっていると感じています。



「統計は今後10年間で最も魅力的な職業になると私は主張し続けています」とGoogleのチーフエコノミスト、ハルバリアンは言います。 「冗談じゃないよ!」



博士号を取得した直後に大手企業で年間125,000ドルを稼ぐことができる統計学者の地位は、データベースボリュームの爆発的な増加の結果です。 計算数学とインターネットは、データ分析の新しい機会を生み出しています-センサーデータ、セキュリティカメラからの記録、ソーシャルネットワーク上の通信など。 IDCの調査によると、近い将来、デジタルデータの成長率は低下せず、2012年までに5倍に増加します。



データは、知識が抽出される素材にすぎません。 「すべてが測定され記録される世界に急速に移行しています」と、MITデジタルビジネスセンターのエコノミスト兼ディレクターであるエリックブリンジョルフソンは言います。 「しかし、課題は、データから意味のある何かを使用、分析、抽出する能力です。」



新世代の統計学者はこの問題に精力的に取り組んでいます。 強力なコンピューターと洗練された数学モデルを使用して、大規模なデータウェアハウスで解釈されたモデルを検索します。 インターネット検索やオンライン広告の改善から、がん治療や食品配送の最適化まで、アプリケーションは非常に多様です。



ユーザーに映画の推薦システムを大幅に改善できる人に100万ドルを勝ち取った最近締結されたNetflixコンテストでさえ、現代の統計手段間の競争でした。



しかし、これらすべてにもかかわらず、統計は、統計を使用してデータを分析する多くの専門家のほんの一部にすぎません。 計算法と数値法は、見かけよりも重要です。 したがって、データ分析の新しい専門家は、経済学、コンピューターサイエンス、数学などの分野から来ています。



今日のホワイトハウスでは、データ分析の専門家の需要が高い。 「クリーンで信頼できるデータは、当社の長期経済政策と重要な政策優先事項を調整するための最初のステップです」 その日の後半、オルザグ氏は彼のブログで、統計の意味についての彼の話は「私の(確かに意欲的な)心に近い」と認めました。



IBMは、データ分析の未来を見て、4月にビジネスインテリジェンスと最適化サービスの部門を設立しました。 このユニットは、200人以上の数学者、統計学者、その他のアナリストを研究室に引き付けますが、これだけでは不十分です。 IBMは、従業員から4,000人のアナリストを引き付け、再訓練する予定です。



この分野での活動の成長の別の指標は、米国統計協会の情報によると、過去数年の5,400人ではなく、今週ワシントンで開催された専門的な統計会議に約6,400人が参加していることです。 参加者は、若くてすでに灰色になっている男性と女性で、首都の他の観光客と同じように見えました。 しかし、彼らの熱心な対話は、ランダム性、パラメーター、回帰、およびクラスタリングに関するものでした。 データマイニングは、生命保険の料金設定など、従来はあまり目立たず収益性の低い職業として発展しています。



32歳のミスグライムズは、2003年にスタンフォード大学で統計学の学位をすでに取得しており、同年にGoogleに入社しました。 彼女は現在、250人のデータアナリストグループの多くの統計学者の1人です。 統計モデリングを使用して、検索技術を改善します。



例:ミス・グライムズは、検索ロボットを設定するアルゴリズムに取り組んでいます。 このモデルにより、ロボットが頻繁に更新されるページを頻繁にチェックし、更新されていないページをチェックする可能性が低くなります。



目標は、ミス・グライムズによると、コンピューティングの効率を少し上げることです。 「Googleで行っているように、操作を何百万回、何十億回も繰り返すと、効率を1〜2パーセント上げると大きな効果があります」とCarrie氏は付け加えます。



ウェブ上のデータ量のおかげで、研究の新しい世界が開かれます。 伝統的に、社会科学はインタビューや調査を通じて行動を監視してきました。 「しかし、ウェブは何百万人もの人々の行動を見るこの素晴らしい機会を提供します」とコーネルのソーシャルメディアスペシャリストであるジョン・クラインバーグは言います。



たとえば、公開されたばかりの調査で、クラインバーグと2人の同僚はWeb上のアイデアの流れを監視しました。 2008年の大統領選挙キャンペーン中に、ニュースに関連するフレーズを検索および追跡するアルゴリズムを使用して、160万のニュースサイトとブログをフォローしました。



コーネルの研究者は、一般的に、従来の方法がリードし、ブログがそれに続くことを発見しました。通常は2時間半の遅れです。 しかし、引用が最速のブログはほとんどなく、後に広まった。



専門家によると、ウェブ上の膨大なデータソースは危険です。 そのボリュームは、統計モデルを単純に「押しつぶす」ことができます。 研究者は、データ間の強い相関が必ずしもデータ間の因果関係を意味するとは限らないと警告しています。



たとえば、 ジョージワシントン大学の歴史家であり統計学者のデイビッドアラングリーアによると、ポリオワクチンが発明される前の20世紀後半、アメリカの健康専門家はアイスクリームやソフトドリンクの消費が増加している病気の例が多いことに気づきました。 メニューからそのような珍味を取り除くことは、ポリオの食事療法としても推奨されました。 その後、人々がアイスクリームをより多く食べた夏の暑い時期にポリオの発生がより頻繁に発生したことが判明しました。



データの「爆発」は、統計の長期にわたる研究を引き付け、新しいフロンティアを開きます。



「コンピューターに自分の得意なことをさせる鍵は、これらのデータセットで数学的な観点から奇妙に思えるものを探すことです」と、最近の研究で医療データを分析して改善することを目的とするIBMの研究者、ダニエル・グルールは言いますサービスの質。 「そして、人々が最善を尽くすために残っているのは、これらの異常を解釈することです。」



All Articles