「Python Machine Learning」という本を書いたとき

こんにちは、カブロビテス!



現在、近い将来、機械またはディープラーニングに関する本をお届けします。 私たちの最大の関心を呼んだ本の中で、セバスチャン・ラスカの「 Python Machine Learning 」の作品は特別な言及に値します。







著者自身がこの本について語っていることを読むことをお勧めします。 記事の後半部分全体が執筆とブックデザインの複雑さに専念しており、テーマの複雑さとトピックの関連性が最初に検討されたため、記事をほぼ半分に短縮することができました。 テキストをお楽しみください、そして私たち-調査結果。





かなりの時間が経ちました。ここで報告できることを嬉しく思います。PythonMachine Learningの本がついに発売されました! もちろん、私はこの本の運命に興味があるすべての人にメールを送ることができました。 もう1つのオプションは、Twitterで140文字(または140マイナスハイパーリンク)を入力するだけで、それを忘れることです。 しかし、とにかく、Python Machine Learningの本の作業は1か月以上続きました。私は喜んでお気に入りのコーヒーショップに座って、それがどのように作成されたかを簡単に話します。



ISBN-10:1783555130

ISBN-13:978-1783555130

ペーパーバック:454ページ、電子ブック

Packt Publishing Ltd. (2015年9月24日)



私はこの本について長い間尋ねられてきました:それは何であり、どのように私はそれを書く時間を見つけましたか(1)私がツイッターで報告したすべての興味深い記事を読む時間を見つけました(3)必要な資料を研究するために(3)人生をリラックスして楽しむ方法 理論的には、このように最初の質問に答えることができます。すべての技術書は自由な時間に書かれていると思います。 数か月間、私はいつもの趣味(プログラミングとブログ)から逃れることができると決め、それから本のために時間を空けることにしました。



理解したことだけを書いてください。 その後、多くの自由時間があります。

-ハワード・ネメロフ





「Pythonでの機械学習?」-それは何ですか?





すべては善意で始まりました。私は、初心者の機械学習の専門家向けに役立つヒントのコレクションをまとめたかったのです。 はい、「Pythonでの機械学習」という本を本と呼ぶことはできませんが、問題は素材の不足ではありませんでした。 まったく逆です。あなたがそのトピックに情熱を傾けているなら、書くことも書くこともできます。 本のボリュームを制限するのは簡単ではありませんでした!



だから、「機械学習とPythonの何がそんなに面白いので、これについての本を書くことに決めたので、自由時間のほとんどすべてに専念しますか?」ソーシャルネットワークで私の投稿を読んでも、この質問がまだ気になったら、別の人を引用するだけです:



現在、データは絶え間なく流れ続けています。 最新の推定値の1つによると、毎日2.5クインティオン(10 18 )バイトのデータが生成されます。 ボリュームは信じられないほどです。現在保存している情報の90%以上は過去10年間に生成されたものです。 残念ながら、この情報のほとんどは個人が使用できないほどのものです。 このデータは標準の分析処理に適していないか、データが広すぎて理解することもできません。

機械学習のおかげで、コンピューターはそのようなデータを処理し、そこから学習し、「ビッグデータ」の事実上侵入できない壁のために実用的なデータを抽出できます。 Googleで検索するスーパーコンピューターからポケットに収まるスマートフォンまで、さまざまなデバイスの動作の基礎は、機械学習の原則に基づいています。これにより、多くの場合、知らないうちに世界中のほとんどの場所を学習します。

機械学習とは何ですか、どのように機能しますか? 機械学習は、未知のものを調べたり、ビジネスをアップグレードしたり、オンラインコミュニティが私のお気に入りの映画についてどう思っているかを知るのにどのように役立ちますか? このすべては、私の良き友人であり同僚であるセバスチャン・ラスカのペンから来た本から学ぶことができます。

-博士。 ランダル・オルソン(序文より)








今日、機械学習はかなりホットなトピックですが、なぜPythonなのでしょうか? つまり、直感的で生産性が高く、さまざまなレベルで適用できるためです。 「生産的」と言って、私はすぐにトピックから気をそらされるので、厳密に判断しないでください-私は以前のポストPython、機械学習、および言語戦争を参照します 非常に主観的な視点 、私はこの問題を検討しました。



テクノロジーは些細なことです。 主なことは、人々を信じること、原則として人々は善良で賢いと信じること、そしてあなたが彼らに正しい道具を与えれば、これらの人々は単に奇跡を起こすことを理解することです。

-スティーブジョブズ




この本で何になりますか?



「この本は、Pythonや機械学習に関する他の作品と比べて際立っていますか?」-すでに多くの本があります。 そう思う! 出版社がそのような本を書くという提案で私に最初に近づいたとき、私はこのテーマに関するいくつかの本がすでにあったので、丁寧に拒否しました。 それで、拒否して、私はそれらのいくつかを読むことに決めました。 それらが私のものよりも良いとか悪いとは言いませんが、Pythonで適用された例を含む機械学習の本を想像しました。



[...]機械学習のためのコンピュータープログラム自体は、科学的手法の精巧さに似ていますが、すべての作業は科学者によって行われるのではなく、コンピューターによって行われます。

-ペドロ・ドミンゴス(ドミンゴスの新しい本に関するインタビューからの抜粋:機械学習のマスターアルゴリズムはすべてを変える可能性がある)




機械学習の理論を調べる優れた本があります。 特に、私はBishopのパターン認識と機械学習 、およびDuda、Hart、およびStorkのパターン分類が大好きです。 彼らはクールで、本当にクールです。 彼らの精神で何かを書くことはもはや必要ないと思う。 しかし、これらの本は「初心者向け」に位置付けられていますが、初心者は苦労します。 機械学習に真剣に取り組むつもりの人にはこれらの本をお勧めしますが、この文献は、機械学習に関する最初の本ではなく、「余分な読書」であるように思えます。 一般に、理論の研究に加えて、機械学習アルゴリズムをいじって実装する必要があると思います。それが、この分野を習得するために最大限の時間を費やすことができる方法です。



また、ドキュメントのように読む非常に実用的な本もあります(* scikit-learn、Vowpal Wabbit、キャレット、または他の機械学習ライブラリ/ APIをここに挿入してください)。 これらも良い本だと思いますが、(オンライン)ドキュメントのレベルでライブラリの詳細な議論を残します-このリソースはオンラインリファレンスとして使用するのに便利で、さらに、タイムリーに更新するのが簡単です。



小説を書くルールがあります。 残念ながら、誰もそれらを知りません。

-W、サマセット・モーガム




本に取り組んでいる間、私は3つの基本的な目標を設定しました:(1)最も一般的な概念を説明する(2)必要な数学的装置でそれらを補足する(3)例とそれらを適用する方法を説明する



一般的なレビューはこのモザイクの断片をまとめるのに役立ち、数学はシステム内レベルで何が起こっているのかを理解し、最も一般的な問題から逃れるのに役立ちます。 教材にそのような例が含まれている場合、学習は間違いなく便利です。 最後に、「手で主題を掘り下げる」こと、つまり学習した内容を具体化するコードを書くことが本当に重要です。 はい、私たちは概念を研究したいのですが、最終的にはこれらの概念の助けを借りて実際に適用された問題を解決するつもりです。







本のページでは、さまざまなライブラリ、特にscikit-learnTheanoを使用します。これは、実際のアプリケーションを作成するときに役立つ効果的で十分にテストされたツールです。 しかし、いくつかのアルゴリズムをゼロから実装しています。 そのため、これらのアルゴリズムを扱い、ライブラリの動作を理解し、独自のアルゴリズムの作成を練習します-ところで、それらの一部はまだscikit-learnの一部ではありません。



この本にあるものとないもの



この本は「データサイエンス」に関するものではありません。 仮説の定式化、データの収集、非定型または外来データセットの分析から結論を引き出すことについては何も述べていません。 機械学習に重点が置かれています。 ただし、この種のさまざまなアルゴリズムの説明とともに、データセットの前処理から始めてアセンブリパイプラインをシミュレートするために、一般的な機械学習プロセスの他の側面を考慮することは非常に重要だと思います。 欠損値の処理、カテゴリ変数の機械学習に適した形式への変換、有益なプロパティの選択、より少ない次元のサブスペースへの転送によるデータの圧縮などのトピックについて説明します。 この本には、モデルの解釈に関する章全体があり、サンプルの分割による交差検証、kブロックの交差検証、ネストされた交差検証、ハイパーパラメーターのチューニング、およびその他のパフォーマンスインジケーターについて説明しています。 素材を少し統合するために、全世界と共有できるWebアプリケーションに機械学習モデルを埋め込むことに関する章を追加しました。







これは、「scikit-learnの仕組みを見る」というカテゴリの別の本ではありません。 機械学習の仕組みを説明し、実証済みの方法と落とし穴について必要なものすべてを説明します。 次に、NumPy、scikit-learn、Theanoなどを使用して、これらの概念を実践する方法を学びます。 もちろん、この本には、かなりの量の「数学と方程式」がありますが、そうでなければ、本を「ブラックボックス」にしたくない場合は、単に不可能です。 しかし、物語のスレッドをたどることは本当に難しくないことを望み、徹底的な数学的訓練を受けていない読者にもこの本が適していることを願っています。 この本の多くのセクションでscikit-learnの例を見つけるでしょう-私の意見では、これは機械学習のための最も美しく実用的なライブラリです。



以下に短い目次を示します。







エクスプレスリンク



一般情報とコード例が記載されたGitHubリポジトリ

参考文献と追加リソースへのリンク

Amazon.comAmazon.co.ukPacktApple iBooksの電子版および紙版へのリンク

非常に興味深いフィードバック 、ありがとう!



All Articles