それを認識してください! コンペティション「ネイティブスピーチ」2014



みなさんこんにちは!



前回の投稿では、Rodnaya Speech-2014開発者コンテストを発表しました。参加者は、認識された音素シーケンスをロシア語の規格に準拠したテキストに変換するための実行可能なアルゴリズムを作成する必要があります。

登録はすでに開始されており、それを疑う人々が参加するかどうかを決定するのを助けるために、私は競技の枠組みで何をする必要があるかを説明しようとします。





まず、実験してみましょう。 次の段落のテキストを読んで理解してみてください。 子音の後のアポストロフィの記号、たとえばl 'は 、その軽減を意味することに注意してください。



'' ' ''' ' '''' '' ' ' ' '' ' ''







うまくいきましたか? 次に、このテキストが実際にどのように見えるかを見てみましょう。



, , -







上記の例では、音声レベルで認識システムをシミュレートしようとしました。 アポストロフィを含む段落は、読まれたテキストを認識することの粗雑な結果です。 およそこの形式で、参加者はシステムを開発し、実験を行うためのデータファイルを受け取ります。 問題の本質は次のとおりです。 各単語が対応するトランスクリプションエンタングルメントマトリックスに関連付けられている辞書を自由に使用できるようにするには、元のメッセージを復元する必要があります。 この場合、単語の音声記録を元のスペルと比較します。



簡単そうですね。 ただし、アルゴリズムを実装するときに発生する可能性のある問題を見てみましょう。 主な問題は、認識中に発生するエラーのために、認識された音素の結果のシーケンスが話された単語の書き起こしに必ずしも対応しないことです。 エラーには3つのタイプがあります:あるサウンドを別のサウンドに置き換える(pashkh st 's'eni)、サウンドをスキップする(n'imatel'n、lを与える)、単語に余分なサウンドを挿入する(pash x s)、または誤認識呼吸のアーティファクトと音素(js)のような外部ノイズ。 ある音が別の音と混同される確率、およびスキップと挿入の確率に関する情報を取得するには、エンタングルメントマトリックスから取得できます。







また、認識システムの出力で話している話者のペースに応じて、そのような長い線が判明する可能性があることにも留意してください : したがって、私たちはセグメンテーションの問題に直面しています。つまり、入力シーケンスを個別の単語に分割するのは、ロシア語には次のような機能が豊富であるためです:私たちはあなたです、あなたは子馬です-あなたは子供などです。この問題は言語モデルを使用することで解決できます







そのため、競合タスクを実装するには、次の問題を解決する必要があります:辞書からの転写ミスマッチの問題、音の欠落、挿入、置換による認識された音素のシーケンス、および入力音素シーケンスの個別の単語へのセグメンテーションの問題。



すぐに思い浮かぶ最も簡単な解決策は、レーベンシュタインメトリックまたはビタビアルゴリズムの変更です。 追加情報は、 「競争目標」セクションの最後にある文献のリストから収集できます。



しかし、私たちの競争の目標は、複雑で興味深い問題に対する革新的な解決策を見つけることができる専門家を見つけることなので、参加者に明確な「レシピ」を与えたくありません。 Native Speechで見つかる若くて才能のある開発者がMDGチームに加わり、製品をさらに良くすることを願っています。 そして、すべてのファイナリストがサンクトペテルブルクでの競技の最終段階に行くことができるように、輸送費と宿​​泊費を主催者の費用で負担します。



また、コンテストの参加者が開発したシステムのプロトタイプは知的財産であり、MDGは主張していません。 同社には、この問題に対する独自のソリューションがあり、当社の製品で使用されています。



ソーシャルのコンテストのニュースをフォローしてください。 ネットワーク: VKFBLinkedIn 、およびサイト



コンテストの主な資料はフォーラムにあります。



All Articles