今年、私はデータ分析とデータエンジニアリングに特化したブダペストで開催されたData Crunchカンファレンスに参加しました。 Linkedin、Uber、Github、および多くの第2層企業の講演者がこの会議に招待され、人々が経験を共有したり、データツールについて話し合ったりします。 まあ、私と同じくらい興味深いのは、会議の参加者と話し合って、ロシアの現実がヨーロッパやアメリカとどう違うかを理解することです。
私がこれに注意するために:
- Full Stack Data Sceince-2レポートは、 以前書いたものとほぼ同じトピックに当てられました。 DS / DAを最初から最後まで問題を解決できる人にしてください。 作業を「機能」に分割するのではなく、DSを「トピック」に分割します。 つまり データの操作は、モデルの準備、処理、分析、構築、視覚化を行う人の間の部分ではなく、すべてを完全に行える専門家の間のトピックのこの部分です。
- ゼロからヒーローまで-DS部門をゼロから構築する方法について話しました。 一般的に、いつものように、普通の音のアイデアはうまくいきます
- 最小チームサイズとして2 DS。
- およびそれらに対する2つのデータエンジニア。
- B製品所有者、ビジネスと通信します。
- 良いエコシステムを構築します。 通常、スピーカーはオープンソースにdrれます。 通常、すべてのレポートはHadoopに言及しています。 問題は多くの点で真実です。私が働いているプロジェクトでは、読者の多くと同様に、Hadoopは必要ありません。 そこから利益が得られる場所には、その量のデータはありません。 一般に、オープンソースに対する私の姿勢は、試して勉強することですが、あなたの会社が既に何かを購入している場合、独自のソフトウェアのエコシステムに住み続けることは、他のテクノロジーに突入してそれらを「ペアリング」またはゼロから学習するよりも収益性が高い場合があります。
- 何をしているかをテストします。 A / Bテストと結果の評価。 奇妙なことですが、単純なアドバイスでは実際にはすべてが行われるわけではありません。
- Uberのデータの民主化-これについては、すでに別の記事を書きました
- AI倫理-多くのタスクには根本的に異なる最適化がいくつかあることを説明しました。 条件付きで、「効果的な」決定と「倫理的な決定」があります。 そして問題は、それらの最大化が異なる条件下で発生することです。 そして、数学やアルゴリズムには適切な解決策はありません。 「車」から何を望むかを決めるのは人々次第です。 例として、スピーカーは、犯罪再発リスク評価アルゴリズムは黒人アメリカ人にリスク評価を高める傾向があると述べました。 このリスク評価は、仮釈放に関する決定を行うために使用されます。 ジレンマは、黒人の社会的に受け入れられない「差別」が、早期に解放されなかった人々からの客観的に受け入れられない犯罪の増加につながることです。 また、1つのアルゴリズムで両方のソリューションを組み合わせることはできません。 興味深いことに、米国の黒人コミュニティは主に自身の黒人の「兄弟姉妹」に対して犯罪を犯しているため、白人と黒人を「平等化」しようとしてもリスクはありませんが、解放された人の数の観点では、黒人の間で暴力の犠牲者の数が不均衡に増加します。
- MLと情報戦-男は、テキストと相互のリンクを分析することで、トランプ大統領選挙前にFacebookで疑わしい活動を見つけた方法を語った。 彼は、誰かが「ロシア」のアジェンダを大きく覆い隠し、保守派グループが話す言語がより人種差別主義者になったと主張している。 彼はネオナチのグループで使用されている語彙を分析することでこれを調査し、保守派の言語と比較しました。 そして、彼は、トランプの選挙前に辞書が非常に近づき始めたことを発見しましたが、このようなことは以前には観察されていませんでした。 一般的に、彼はプーチンが非難されることをほのめかした:)
会議の参加者との会話から:
- R対Python。 人々は2つのツールを使用して生活し、通常Rは科学と数学のバックグラウンドの人々に愛され、Pythonは開発のバックグラウンドの人々に愛されています。 Rの最も一般的な使用法は、パイプライン用の探索的Pythonです。 モデルは両方に書き込みます。 たとえば、Rで製品モデルを作成した個人的な経験があります。
- A / Bテスト-あなたの行動の定期的な評価を実施し、A / Bテストに基づいたソリューションを選択することは、企業にとってまだ珍しい習慣です(私が話した12のグループのうち、1つだけがA / Bテストを持っています)。 人々はA / Bテストにエネルギーを費やしたくない、彼らはすでに知っているか、CEOが方法を「見る」と言います...
- マネージャー、クライアント、社内など、誰もがコミュニケーションの問題を抱えています。 コミュニケーションの改善は、ほとんどすべてのチームにとって成長のポイントです。
- 機械学習の主な作業は、最もクールなモデルの選択ではなく、生成とデータ準備を特徴としています。 GoogleもFacebookも「秘密」のモデルを持っているわけではありませんが、これらのモデルのデータの処理と準備において、アルゴリズムの有効性が高い可能性があります。 これは、一般的な「ニュース」です。これは、パブリックxgboostまたは回帰がほとんどのタスクの最先端のアルゴリズムであることを意味するためです。