AIは脳の活動を音声に変換しました

画像






話すことができない多くの麻痺した人々は、彼らの言いたいことのシグナルを脳の中に隠しています。 そして誰もこれらの信号を解読できませんでした。 しかし、最近、3つの研究チームが、脳に外科的に配置された電極からのデータをコンピューター合成音声に変換することで進歩を遂げました。



ニューラルネットワーク上に構築されたモデルを使用して、彼らは単語や文全体を再構築しました。これは、場合によっては、平均的な人間の聞き手にとって非常にわかりやすいものでした。



思考からスピーチを再現するためのbioRxivに関する研究のプレプリントで説明されている試みはどれも成功に至っていません。 代わりに、研究者は声を出して読んでいる間、または唇を動かして自分自身に読んでいる間、患者の脳のさまざまな領域の活動を観察しました。



「再構築された音声が非常に理解しやすいことを示すのは本当にエキサイティングです。」このプロジェクトの作業に関与したスイスのジュネーブ大学のニューロエンジニア、ステファニーマーティンは言いました。



脳卒中後、または病気の結果として話す能力を失った人々は、目または他の小さな動きを使用してカーソルを制御したり、画面上の文字を選択したりすることができます(宇宙学者スティーブン・ホーキングは、頬に負担をかけて眼鏡に取り付けられたスイッチを作動させました)。 しかし、脳とコンピュータのインターフェースが患者の発話を直接再現できる場合、これにより患者の能力が大幅に拡張されます。調性を制御し、迅速に進行する会話に参加できるようになります。



「私たちは、さまざまな時点で活性化されるニューロンの回路を開発し、音声がどのように聞こえるかについて結論を出そうとしています」と、コロンビア大学のエンジニアであるNima Mesgaraniは言います。 「一方を他方に変換することはそれほど簡単ではありません。」



ニューロンからのこれらの信号を音声に変換する方法は人によって異なるため、コンピュータモデルは個人ごとに個別にトレーニングする必要があります。 そして何よりも、非常に正確なデータから学習するモデルの場合、頭骨を開く必要があります。



研究者は非常にまれなケースでこの機会を得ることができます。 それらの1つは、患者が脳腫瘍から取り除かれるときです。 外科医は、脳から直接電気信号を読み取るセンサーの読み取り値を使用して、音声および運動領域を特定し、回避します。 別の例は、電極を数日間てんかん患者に植え込み、手術前に発作の原因を突き止める場合です。



「データを収集するのに最大で20分、場合によっては30分です」とStephanie Martin氏は言います。 「私たちは時間的に非常に限られています。」



脳の活動を記録して得られたデータを人工ニューラルネットワークに「供給」したチームによって、最高の結果が得られました。 出力(ラベル)として、ネットワークには患者が大声で言ったり聞いたりしたスピーチが与えられました。



Nima Mesgaraniチームは、てんかん患者5人のデータに依存していました。 彼らのニューラルネットワークは、人々の脳の聴覚皮質(自分のスピーチの最中と他人の話を聞いている間両方で)の録音で訓練されていました。当時は、さまざまな物語の記録を再生し、0から9までの一連の数字を発声していました同じ数字のシーケンスとコントロールグループの人々がこのデータの75%を認識できました。



数字を聞きながら患者の脳活動データから取得したコンピューター生成音声
www.sciencemag.org/sites/default/files/audio/Mesgarani-1.mp3



ドイツのブレーメン大学のTanja Schultz率いる別のチームは、脳腫瘍を除去するために手術を受けている6人のデータを使用しました。 音声はマイクで録音され、単音節の単語を読み上げました。 同時に、彼らの脳に置かれた電極は、計画領域と運動領域の活動を捕捉し、言葉を発音するためにコマンドを音声経路に送ります。



マーストリヒト大学のエンジニアMiguel AngrickとChristian Herffは、電極を使用して読み取られたデータと結果のオーディオ録音を一致させるニューラルネットワークを訓練し、その後、以前に示されていない読み取りデータセットのモデルの語句を再構築しました。 これらのデータによると、モデルは約40%の音声を合成し、その音声は人間が理解できることが判明しました。



電極からのデータに基づいたコンピューター生成音声の記録
www.sciencemag.org/sites/default/files/audio/Herff-1.mp3



そして最後に、カリフォルニア大学サンフランシスコ校の脳神経外科医エドワード・チャンと彼のチームは、声を出した瞬間に、てんかん患者6人の電極で読まれた音声センターの活動に関する全文を再構成しました。 研究者は、コンピュータモデルによって生成された文の1つを166人が聴き、10の提案されたオプションの中から自分の意見では読まれたものを選択するオンラインテストを実施しました。 一部の文は、ケースの80%以上で正しく識別されました。 しかし、研究者はそこで止まらず、自分で言葉を読んでいる間に得られた脳活動に関するデータに基づいて、モデルに人のスピーチを再作成させましたが、そのとき彼は「内部で発音する」かのように唇を動かしました。



「これは非常に重要な結果です」と、クリスチャン・ハーフは言います。「私たちは音声義肢に一歩近づいています。」



「しかし、私たちが本当に期待しているのは、患者がまったく話せないときにこれらの方法がどのように現れるかです。」 -カリフォルニアのサンディエゴ大学の神経科学者であるステファニー・リースが応答しています。 「脳の信号は、人が自分の本を読んでいるときや他の人の話を聞いているときに、大声で読み上げたりライブコミュニケーションで見たりするときに表示される信号とは異なります。 脳の活動を比較できる外部音がなければ、コンピューターモデルが内部音声の始まりと終わりを予測することは非常に困難です。」



「想像上のスピーチのデコードは大きな飛躍を遂げます」と、ニューヨーク州保健省の適応神経工学センターの神経科学者であるガーウィン・シャルクは述べました。 「そして今、これを達成する方法は完全に明確ではありません。」



Herff氏によると、方法の1つは、患者がコンピューターモデルに与えるフィードバックであり、そのコンピューターモデルは、人が言葉を精神的に発音するときにリアルタイムで音声を再現します。 患者とAIの両方に十分な量のトレーニングがあれば、脳とコンピューターは途中で会うことができます。



All Articles