機械学習:質問と回答





すでにお気付きのように、私たちは機械学習のトピックにしばしば注意を払います。 そこで、 ディープラーニングについて話し、データの操作について書いて、トピックに関するソースのさまざまなコレクションを適応させました: 1、2、3



今日、Quoraリソースの機械学習のトピックに関する最も興味深い質問と回答を見ることにしました。



機械学習に最適なプログラミング言語はどれですか?



Yoshua Bengio(モントリオール、機械学習アルゴリズム研究所所長)は、長年にわたって他の言語とともにPythonでプログラミングを行ってきたと言います。 しかし、彼はPythonのようなものを使用したいと考えています。Pythonには、移植しやすい効率的で分散した(クラスターで)コードを生成できる、より強力なコンパイラーがあります。



このため、彼らはTheanoライブラリの開発を始めました(それが本格的な言語であると言うことはできません-むしろ式とコンパイラを作成するための関数のセットです)。



Netflix推奨システムではいくつのアルゴリズムが使用されていますか? 800以上の意見があります。そうですか?



Xavier Amatrian(2011年から2014年までNetflixのCTO)は、すべてが推奨システムの意味に依存していると言います。 評価に基づいた設定について話している場合、2つのアルゴリズムがそれらに使用されます。



質問が全体としてNetflixの推奨のエコシステムを意味する場合、もちろん、より多くのアルゴリズムが使用されていますが、800ではありません。



機械学習で良い仕事をするために博士号を取得することは本当に必要ですか? Googleのような企業にとって、博士号は(候補者にとって)基本的な要件であることは本当ですか?



Beng Zhao(カリフォルニア大学コンピュータサイエンス教授)は、卒業後、Google、Microsoft、Twitter、Linkedin、およびZyngaで職を得た多くの学生に精通しています。 彼らのほとんどは学位のためではなく、positionsと一緒にソーシャルネットワークの分析に関する調査を実施したか、人事部門の賢明な手に落ちたためです。



もちろん、博士号を取得することには利点があります。 これは、既存の問題を研究する機会であり、数年にわたってそれらと連携するための絶え間なく出現する技術です。 そのため、博士号を取得しても、絶対にポジションを取得することを妨げることはありません(候補者が本当に機械学習の問題に専念したい場合)。



最近リリースされたYahoo機械学習データセットについてどう思いますか?



ジェームズ・ベイカー(彼が呼ばれる前から機械学習に従事していた)は、これが他の会社が同様のセットをリリースすることを奨励することを望んでいます。 彼はこのセットがどれだけあるべきかを完全に理解しているので、自分でそれを勉強するつもりはありません-アシスタントや誰かとのコラボレーションに興味があります。



Jamesが指摘しているように、このようなデータセットを単独で使用することの難しさは、研究者がそれを処理するのに十分な力を持っていない可能性があることです。



ジェームズ自身は、Yahooからこのセットに適用したいディープラーニングの理論モデルを持っていますが、問題は彼のハードウェアがそれを引き出せないことであり、さらに、彼はモデルを維持するアシスタントが不足しています。



したがって、彼は関心のある関係者と同様の立場にある研究者を探しています。ジェームズは、愛好家のチームの形成を待つことを強くお勧めします。



機械学習と自然言語処理のスタートアップが少ないのはなぜですか?



Joseph Turian(データマイニングおよび自然言語処理コンサルタント)は、これがリスクの増加であることに注意します。 ほとんどのテクノロジースタートアップは、比較的高いマーケティングリスクに直面していますが、そのリスクとテクノロジーコンポーネントに関連する比較的低いリスクとのバランスが取れています。



機械学習と自然言語処理の分野では、マーケティングと技術の両方のリスクが高いため、こうしたスタートアップの創設者がサードパーティの資金を引き付けることはできません。 この場合、創業者はビジネスと市場の関係全般について常に十分な考えを持っているわけではないという事実に賛成していません。ほとんどの場合、機械学習の専門家は「大きな世界」の場所にあまり影響を受けません大学や大企業のように。



ジェームズ・ベイカーはジョセフの答えを補足します。 彼は、(一般的な悲観論にもかかわらず)これらの分野で働いているスタートアップが、私たちが考えることに慣れているよりも多いことを強調しています。 彼は、機械学習または自然言語処理技術を使用するスタートアップは、大量のデータを使用する必要があることに注意しています。



この環境では、グーグル、マイクロソフトなどの巨人が競争相手になります。したがって、競争を避けるために、小さな会社は単に自分の仕事のこの部分を宣伝しません。



機械学習で最も人気のある素晴らしいアイデアは何ですか?



Charles Martinは、そのうちの1つがホップフィールドニューラルネットワーク、 Isingモデルとの接続、およびディープラーニングの現代的な実装への応用であると考えています。 このような単純なモデルは、統計物理学だけでなく、最新の深層学習アルゴリズムの開発にも適用されます。



彼はまた、このアーキテクチャの出現から深層学習モデルでの積極的な使用までほぼ20年が経過したという事実にもかかわらず、機械学習における限られたボルツマンマシンの重要性に注目しています。



Abinav Mauryaは、このリストにサポートベクターメソッドのカーネルトリック(核メソッド)を追加します(このメソッドで最も一般的に使用される関数のリストは、こちらにあります)。 他の研究者は、最尤法(わかりやすさと単純さのため)とレスリーガブリエルヴァリアントのほぼ正確なトレーニングの理論に注目しています。これは、現代の機械学習アルゴリズムで広く使用されているためです。



データを研究する人はどのアルゴリズムを使用すべきですか?



William Chen(Quoraのデータ研究者)には、3つのお気に入りのアルゴリズムがあります。





彼の意見では、回帰モデルは非常に効果的であり、統計の知識はそれらの隠れた可能性を明らかにするのに役立ちます。 彼はその優れた予測能力からランダムフォレストが好きで、TF-IDFを使用するとテキスト情報を数値ベクトルに変換するのに便利です。 他の研究者は、 パーセプトロンk-means法 、およびリカレントニューラルネットワークにも注目しています



データサイエンスの未来は何ですか?



ブライアンランゲ(Datascopeのデータ研究者)は、新しいデータソースが現れると考えています。生産、輸送、オフィスなどのセンサーによって生成されるデータは、研究者にとって新しい情報のソースになるでしょう。



データの操作を大幅に簡素化する新しいツールが表示されます。 これは主に、オープンライブラリの出現と研究者間の活発な情報交換によるものです。 ブライアンは、10年前に手書きで書かなければならなかったアルゴリズムが直接アクセスできるようになり、作業に簡単に組み込むことができるようになったことを強調しています。



データ研究者の職業は、多くの種類を補充します。 ブライアンによると、データ研究者が実行する情報とタスクの量が増えると、企業のさまざまな部門の従業員がデータサイエンスの分野で何らかの形で働き始めます-研究者の仕事は1つの部門に限定されません。



逆に、Dima Korolev(ビッグデータスペシャリスト)は、将来フルスタックのデータエンジニアが登場すると考えています(フルスタックの開発者と同様)。 たとえば、Excelで数値を処理し、PythonまたはRでさまざまなモデルを使用し、結果をリアルタイム/ほぼリアルタイムで翻訳すると、通常3人が忙しくなります。 将来的には、最初から最後まで多くのプロセスを実行するものが必要になります。



金融市場で機械学習を使用するための簡単なプロジェクトはありますか?



ウラジミール・ノバコフスキー(Quoraの機械学習責任者)は、取引結果を適切に予測するプロジェクトは決して単純ではないと考えています。 彼は、機械学習を取引の分野でうまく適用できる2つの領域について考えることを提案します。



最初の領域:取引に間接的に影響する予測指標。 これらの指標の一部は、ボラティリティ(機械学習を使用してGARCHのボラティリティモデルを改善することができます)、失業率、またはインフレ率です。



仕事の別の方向の本質は、市場価格の振る舞いを分析することです。



ウラジミールによると、取引のトピックを理解できる優れたプロジェクトを作成するには、機械学習を使用して、取引コストに関する情報でモデルを「オーバーロード」せずに価格を分析するだけで十分です。もちろん、取引所でこのようなモデルと取引することはできませんが、職業に「転がる」。



ビッグデータと機械学習の違いは何ですか?



ウラジミール・ノバコフスキーは、「ビッグデータ」は特定の計算に直接関係しないと説明しています。 たとえば、クレジットカードで数十億件のトランザクションのデータを集約し、結果の配列にSQLクエリを生成して10ドルを超える操作が完了した回数を把握する技術を作成することは、ビッグデータに関連するタスクですが、機械学習には関連しません。



ウラジミールは、計算のための大量のデータは機械学習の必須コンポーネントではないことに注意しています-アルゴリズムは比較的小さな配列でも実行できます(ただし、大規模な配列では通常より効率的であるため、これら2つの概念はしばしば重複します) 。



PSブログでは、通信システムの開発と高度なプログラミングに向けた最初のステップについて書いています。 定期刊行物、友人であなたを喜ばせようとします。



All Articles