MP3、JPEG、およびホーマーシンプソンの数学トリック

9年前、私は大学の物理学コースに参加し、教授は私に衝撃を与えた一つのことを教えてくれました。 これは、光学から量子物理学、電波天文学、MP3およびJPEG圧縮、X線結晶学、音声認識、MRIまで、最も広く使用されている数学的発見の1つであると言っても過言ではないと思います。 この数学的ツールは、18世紀のフランスの物理学者で数学者のジョセフフーリエに敬意を表して、フーリエ変換と呼ばれます。 ジェームズ・ワトソンとフランシス・クリックによってさえ使用され、ロザリンド・フランクリンによって生成されたX線からDNAの二重らせんの構造を解読しました。 (スクリームはフーリエ変換の専門家であり、鳥類愛好家のワトソンにその本質を説明するために彼の本「鳥類学者向けフーリエ変換」と冗談めかしてタイトルを付けました)。



MP3を聴いたり、インターネットで写真を見たり、Siriに質問したり、ラジオ局をキャッチしたりする場合は、おそらく毎日フーリエアイデアを使用するでしょう。 (ちなみに、Fourierは仕事が大好きでした。理論物理学と数学の仕事に加えて、 彼は温室効果を初めて発見しました [pdf]。)



それでは、フーリエの発見は何であり、なぜそれがとても有用なのでしょうか? ピアノの音を想像してください。 ピアノのキーを押すと、ハンマーが特定の周波数で振動する弦を叩きます(音-毎秒440回)。 弦が振動すると、周りの空気分子が前後に動き、音と呼ばれる分子の波を作り出します。 空気の動きを観察できれば、正弦波と呼ばれる滑らかで波状の無限に繰り返される曲線が表示されます。 (説明:ピアノの鍵盤の例では、実際に複数の正弦波があります。実際のピアノの音の豊かさは、主な正弦波に加えて現れる多数のソフトな倍音です。音は正弦波にほぼ等しいが、音叉を使用すると音を得ることができます1つの正弦波で構成されます)。





音の音波は、単純な正弦波と考えることができます。 ShuttershockのミランB



次に、3つのキーを同時に押してコードを取得します。 結果として生じる音波はそれほど正確ではないことが判明します-より不安定になります。 しかし、この湾曲した音波では、単純な描画が隠されています。 結局のところ、3つのキーを押すだけでコードが得られるため、この音波は3つの音符(または正弦波)で構成されています。





ピアノの和音で得られた音波はランダムに見えるかもしれませんが、これは3つの異なる音の合計にすぎません。 クリスティン・ダニロフ/ MIT



フーリエは、これが単に音楽コードの特別な特性ではなく、より一般的な形で、繰り返し波、正方形、円形、波状、三角形、一般的に-すべてに適用可能であると推測しました。 フーリエ変換は数学的プリズムに似ています-波を送り、その成分、つまり、接続すると波を再現する音符(または正弦波)を表示します。



それが少し抽象的に聞こえる場合、フーリエトリックを視覚化するいくつかの方法があります。 ここでは、 ルーカスV.バルボサに出会います。 ルーカスV.バルボサはルーカス VBというニックネームで、ウィキペディアの信じられないほどの数学的および科学的なアニメーションを無料で作成するブラジルの物理学の学生です。

それでは、フーリエプリズムを通過した方形波を見て、出力で何が起こったのかを見てみましょう。





LucasVB アニメーションからの画像



これらの写真(上のリンクではアニメーション全体を見ることができます)では、赤い方形波が一連の音符(青い正弦波)に変換されます。 青い波は赤い波の数学的な要素です。 同じように、フーリエ変換は、元の波を復元するためにいくつのノートを混合する必要があるかを正確に示すレシピです。 アニメーションの青い縦線は、各ノートの量を視覚的に表すグラフです。



マシューヘンダーソンまたはケンブリッジ大学の学生であり、 興味深い数学チップのアニメーションも作成しているマッテンによって提示されたわずかに異なるアプローチを次に示します 。 Matthenは、正弦波の代わりに円を使用してフーリエトリックを説明します。 さまざまなサイズの円のセットが彼の助けになり、それぞれの中心はより大きな円の境界にあります。 円は回転し始め、小さな円は大きな円の周りを動き、より速くなります。 最小の円上の1つのポイントの動きをトレースすると、アニメーションと図に示すように、任意の形状の波を再構築できます。 繰り返しになりますが、フーリエ変換は、波を作成する方法、つまりどの円と速度を使用するかを教えてくれます。





マシュー・ヘンダーソン



肺活量計を見つけた場合、円の内側の円を使用して複雑なモデルを追跡するという考えはおなじみかもしれません。 これは LucasVBが作成したものに似た、インタラクティブなアニメーションのバージョンで、サークルのサイズを変更したり楽しんだりできます。



一般に、フーリエ変換は、「ノート」の各成分(正弦波または円)が共通波に含まれる数を示します。 そして、ここにそれが役に立つ理由があります。 あなたが電話であなたの友人と話していて、彼にこの方形波を描いて欲しいと想像してください。 面倒な方法を使用して、各瞬間の波の高さを示す数字の長いリストを読むことができます。 これらすべての数字を与えられれば、あなたの友人は元の波を作成することができます。 これが、WAVなどの古いオーディオ形式の仕組みです。 ただし、友人がフーリエ変換を理解している場合は、すべてをより簡単にすることができます。いくつかの数字(上の図の円のサイズ)に名前を付けるだけです。 これらの円を使用して、元の波を復元できます。



これは複雑な数学的なトリックではありません。 フーリエ変換は、波が存在するほぼすべての場所で使用されます。 ユビキタスMP3形式は、フーリエトリックの変形を使用して、それ以前のWAVファイル(「ウェーブ」と発音)と比較して大きな圧縮を実現します。 MP3は曲を短いセグメントに分割します。 各セグメントで、フーリエ変換はオーディオ波をコンポーネントの音に分割し、元の波の代わりに保存します。 フーリエ変換は、どのノートが重要であるかを知るために、歌で使用されるノートの数と数も示します。 非常に高い音はそれほど重要ではないため(耳ではほとんど聞こえません)、MP3はそれらを捨てて、さらに多くのデータ圧縮を実現します。 したがって、音楽愛好家はMP3が好きではありません。これはロスレスオーディオ形式ではなく、違いを聞くことができると主張しています。



Shazamアプリはそのように曲を認識します。 曲を断片に分割し、フーリエ変換を使用して各断片を構成するノートを決定します。 次に、データベースを検索して、このノートの「指紋」が保存されている曲と似ているかどうかを確認します。 音声認識では、同じアイデアを使用して、声の音符を有名な単語のリストと比較します。



画像にフーリエ変換を使用できます。 円を使用してホーマーシンプソンの顔を描く方法を示す素晴らしいビデオです。 Wolfram Alphaオンライン百科事典は、 有名な人々の顔を描くために同様のアイデアを使用しています。 次の事実は、パーティーで知識を誇示するために役立ちます。フーリエ変換は、画像をJPEG形式に圧縮するためにも使用されます。 Microsoft Paintの古き良き時代には、画像はBMP形式で保存されていました。これは、各ピクセルの色をエンコードする長い数字のリストでした。 JPEGはMP3画像です。 JPEGを作成するには、画像を8 x 8ピクセルの小さな正方形に分割する必要があります。 画像を再作成するには、各部分に、ホーマーシンプソンの顔を描く円の同じアイデアを適用する必要があります。 MP3が非常に高いノートを破棄するように、JPEGは非常に小さな円を破棄します。 その結果、ファイルサイズが大幅に削減され、品質はわずかに低下します。このトリックは、私たち全員が愛するオンライン世界をもたらしました(おかげで猫と一緒にgifを入手できました)。





ランドール・マンロー/ XKCD



フーリエ変換は科学でどのように使用されていますか? ツイッターを通じて、科学者にフーリエのアイデアが彼らの仕事にどのように役立ったかを説明するように依頼しました。 答えは私を襲った。 応答する科学者はフーリエ変換を使用して、液体と相互作用する水中構造物の振動を研究し、地震を予測し、非常に遠い銀河の成分を決定し、ビッグバンの熱残骸の新しい物理プロセスを検索し、タンパク質の構造を決定し、NASAのデジタル信号を分析しました楽器の音響学の研究、水循環のモデルの改良、パルサー(回転する中性子星)の探索、および構造の決定 核磁気共鳴を使用した分子。 フーリエ変換は、塗料中の化学物質を認識することにより、偽のジャクソンポロックの絵画を識別するためにも使用されています。



行くぞ! 1つの数学の焦点にたくさん。



Aathish Bhatiaは最近、 プリンストン大学で物理学の博士号を取得し、科学と工学を推進しています。 彼は有名なEmpirical Zealブログの著者であり、彼のTwitterアカウントは@ aatishbです。




All Articles