研究者は、ビデオ内のオブジェクトの振動から音を復元しました





音は、音源の周囲の空間を伝播する特定の周波数の振動です。 これらの波は近くの物体に到達し、それらに振動を経験させます。 マサチューセッツ工科大学の研究者グループは、ビデオに見られるこれらの振動に基づいて、歪みのある元の音を部分的に復元することができました。



彼らの作品では、Abe Davis、Michael Rubinstein、Neil Wadhwa、Gautam Mysore、Fredo Durand、William Freemanは、毎秒数千フレームの周波数でビデオを記録するカメラを使用しました。ナプキンまたはコップ1杯の水が入った箱。 日常生活でそのようなビデオカメラを見つけることは非常に難しいでしょうが、彼らの他の技術は、毎秒60フレームの通常の記録を使用して音声回復も可能であることを示しました。



復元された音の品質により、個々の単語を分離することが可能になり、信号対雑音比が比較的高くなります。 復元されたオーディオ録音により、人間の会話をかすかに区別したり、音楽認識サービスを使用することもできます。



上記のビデオの00:45またはプロジェクトページに、ソースサウンド(研究者は録音の歴史に興味のある人なら誰でも知っているMary has a lamb 」という歌を使用しました)と復元されたサウンドが表示されますが、高周波ビデオの振動は肉眼では見えません-振動は100分の1ピクセル未満に達します。



次に、1:50のビデオでは、携帯電話のマイクで録音された元の音声と復元された人間の音声が示されています。 この場合、カメラは音波で振動するチップのパケットからある程度離れて配置され、ガラスはカメラと物体の間に配置されたため、タスクの複雑さが増しました。 研究者たちは再び、トーマス・エジソンの蓄音機で録音された最初の歌を使用しました。



2:35では、音楽認識サービスが復元されたオーディオ録音を「認識」できることが示されています。特に、クイーンのUnder Pressure歌が認識されました。



上記の結果は、毎秒数千フレームの撮影頻度のカメラから得られました。 しかし、通常の家庭用ビデオカメラ(特にローリングシャッター )を撮影したときのアーティファクトを使用して、元のビデオ録画のフレームレートよりもはるかに高い周波数の音を生成できることも示されました。



変更されたテクニックの結果は3:35で見ることができ、研究者はビデオのフレームレートより5倍以上高い周波数を復元することができました。 子供の歌のメロディーを持つ同じMIDIファイルが使用されました。



プロジェクトページで詳細情報とオーディオ録音を利用できます 。 研究者チームは、近い将来にプロジェクトコードを公開することを約束します。



All Articles