「音楽の進化」:ストリーミングサービスに推奨されるアルゴリズムについてのいくつかの言葉

世界中の何百万人もの人々が音楽ストリーミングサービスを使用しています。つまり、デバイスにダウンロードせずに曲を聴いています。 今日、この市場には大きな可能性があります。 2016年上半期、米国のオーディオストリームの数は2015年に比べて倍増しました。



さらに、2015年末までに、音楽ストリーミングサービスの加入者数は世界中で6,800万人に達し、この数字は増え続けています。 今日、多くの人気企業がこの市場で働いており、外国のSpotify、Pandora、8tracksから始まり、ロシアのYandex.MusicとZvooqで終わります。



なぜユーザーはストリーミングが大好きなのですか? 物理メディアに煩わされる必要も、デバイスに音楽をダウンロードする必要もないため、すべての曲が文字通り徒歩圏内にあるため便利です。 しかし、ストリーミングの人気の主な理由の1つは、音楽の推奨事項です。







/写真: Patrik Nygren CC



TidalやApple Musicなどのサービスが私たちの音楽の好みに合った曲のコレクションを提供するため、私たちはそれぞれ「穴に耳を傾けた」音楽に飽きているようです。



プレイリストを作成するために、企業はマシンアルゴリズムによって処理された大量のデータを使用します。 Spotifyの上級科学者であり、エコーネストの共同創立者であるブライアンホイットマンは、彼のプロとしてのキャリアを通じて音楽でコンピューターを教えてきました。



彼は、推薦を行うための音楽の分析に対する4つのアプローチを特定します。作曲の人気(歌の再生数と購入数)と批評家の意見に関するデータの使用、テキスト分析と音響分析です。 最初の2種類の分析には1つの重大な欠点があります。それらはあまり知られていないアーティストによる音楽のプロモーションには寄与しないため、残りの2つのオプションに注意を払います。



音響およびテキスト分析



エコーネストの歴史は、学生であるホイットマンが自然言語処理技術を使用して音楽ブログを分析するプログラムを作成した瞬間に始まったと言えます。 現在、そのアルゴリズムは進化しており、常にWebを探索しており、音楽に関連する約1,000万ページを閲覧しています。



インターネットに表示され、音楽に関連するすべてのフレーズは、記述子、キーワード、および関連用語を検索するEcho Nestシステムを通過します。 さらに、各用語には重要度を示す独自の重みがあります(実際、誰かがこの単語で歌を説明する可能性を表します)。 推奨事項のリストは、識別された記述子をユーザーのお気に入りの歌の記述子と比較することにより形成されます。



推奨事項を形成する2番目の方法-音響分析については、サービスでは最も純粋な形式では使用されません。 たとえば、楽器の高品質な認識について話すことはまだできません。 ただし、これにもかかわらず、信号解析は推奨アルゴリズムの操作において非常に重要な役割を果たします。 たとえば、人々はプレイリストを「スムーズ」にしたいと考えています。静かで落ち着いた歌の後は声を出せず、ジョギング用に作成されたプレイリストではペースが徐々に増加します。



歌の分析は、歌の「描画」の変化の速さに応じて、音が200ミリ秒から4秒の範囲の小さな断片に分割されるという事実から始まります。 次に、各セグメントについて、音量と音色が決定され、使用されている楽器も識別されます。 構成のどの部分(コーラス、詩など)にこのセグメントが属するかが確立されます。



さらに、受信した情報は、機械学習ツールを使用して結合および分析されます。 これにより、「高レベルで歌を理解する機会が与えられます。 その後、コンポジションは説明的な機能を実行する特別なマーク(エネルギー、活気、その他)を受け取ります。



このような強力な技術の開発のおかげで、エコーネストは音楽分析アルゴリズムの世界的リーダーになりました。 このため、2014年に音楽ストリーミングSpotifyの巨人に買収されました。 Spotifyは、3000万人の有料加入者を抱える音楽ストリーミングの世界的リーダーです。 同時に、同社はそのアドバイザリーサービスについて何千もの熱烈なレビューを受けています。



同社は、協調フィルタリングに成功したことを負っています。 このアプローチでは、他のユーザーのデータと比較することで、コンテンツの消費履歴(いいね、再生回数など)に基づいてユーザーの好みを予測できます。 したがって、アルゴリズムは、人間の介入なしで顧客に理想的に適している歌を識別します。



推薦サービスの未来



ただし、アドバイザリーサービスをまったく異なるレベルに引き上げることができるテクノロジーがあります。 Google DeepMindの研究者であるSander Dielemanは、共同フィルタリングよりもニューラルネットワークとディープラーニングがオーディオの推奨事項にはるかに対処できることを示す記事を共著しました。



ディレマンは、7〜8層の畳み込みニューラルネットワークの可能性を探り始めました。 特に、彼は多次元データの視覚化を可能にするt-SNEアルゴリズムを使用しました。 Dilemanが指導したネットワークは、楽器、和音、さらにはハーモニーと進行を識別することを学びました。 ネットワークの最初のレイヤーでは、「歌うビブラート」や「バスドラム」など、256種類のフィルターが強調表示されました。 さらに、ネットワークは独自に中国のポップソングを見つけて、プレイリストに結合しました。



Dilemanのソリューションは、それ自体がよく実証されており、実際のシステムでテストが成功した場合、他のアルゴリズムのデータと組み合わせて使用​​されます。 ただし、ストリーミングサービスは、曲の分析と顧客の個人的な音楽の好みだけで停止するわけではありません。



約1年前、Spotifyはユーザーの場所、連絡先、音声に関するデータを収集する意向を発表しました。 6か月後、別のイノベーションが明らかになりました。SpotifyはRunkeeperと協力して、顧客の物理データを使用して、ペースに最適なトラックを選択しました。 数年前は、これは素晴らしいと思われていました。



おそらく将来的には、電話のモーションセンサーを使用して、走っているか、自転車に乗っているか、車を運転しているかを判断できるようになるでしょう。 心拍数センサーは、緊張や興奮の程度を判断するのに役立ちます。 さらに、睡眠中のユーザーの身体的状態についても多くのことが言える。



好み、脈拍、運動、睡眠。 天気、血中のドーパミンのレベルなど、将来の推奨事項は何を考慮しますか? 既存のテクノロジーはすでに信じられないほどに見えますが、すべてがはるかに信じられないほどになるためのすべての前提条件があります。



PS追加資料: IaaSダイジェスト -クラウドテクノロジーの適用性に関する30の資料。



All Articles