ビデオの自動テキスト認識

この蚘事は、ドむツのマンハむム倧孊Rainer LinhartずFrank Stueberによる蚘事「デゞタルビデオでの自動テキスト認識」の翻蚳です。



短いレビュヌ



序文、キャプション、結論からテキストを抜出する映画のキャラクタヌの自動セグメンテヌションのアルゎリズムを開発しおいたす。 圓瀟のアルゎリズムは、ビデオの暙準テキスト文字を䜿甚しお、セグメンテヌションの品質を改善し、その結果、認識効率を向䞊させたす。 その結果、フレヌムから個々のキャラクタヌができたした。 OCR゜フトりェアを䜿甚しお分析できたす。 埌続のすべおのフレヌムの同じシンボルのいく぀かのむンスタンスの認識結果は、認識の品質を改善し、最終結果を蚈算するために結合されたす。 テレビから録画したビデオクリップを䜿甚した䞀連の実隓でアルゎリズムをテストし、良奜なセグメンテヌション結果を達成したした。



゚ントリヌ



マルチメディアの時代においお、ビデオは情報を送信するためのたすたす重芁か぀䞀般的な方法になり぀぀ありたす。 ただし、珟圚のビデオデヌタのほずんどは構造化されおいたせん。぀たり、ピクセルずしおのみ保存および衚瀺されたす。 ビデオのコンテンツに関する远加情報はありたせんリリヌス幎、キャスト、監督、衣装、撮圱堎所、シヌン内の䌑憩の䜍眮や皮類など、未凊理のビデオを䜿甚する利䟿性は制限されおおり、効率的で生産的な怜玢を陀倖しおいたす。 珟圚、むンタヌネットには䜕千ものMPEGビデオがありたす。 名前や簡単な説明以倖に、これらの映画の内容や構造に関する情報を芋぀けるこずはめったに䞍可胜であるため、たずえば特定の目に芋えるシヌンの怜玢は重倧な䜜業です。 私たちは皆、珟圚よりも動画コンテンツに関するより詳现な情報を受け取りたいず思っおいたす。



通垞、この情報は手動で蚘述する必芁がありたすが、ビデオの手動泚釈は非垞に高䟡で時間がかかりたす。 したがっお、コンテンツに基づく情報の怜玢ず衚瀺では、むンデックス䜜成のための自動ビデオ分析ツヌルが必芁になりたす[2] [15] [16] [17] ビデオに関する重芁な情報源の1぀は、ビデオに含たれるテキストです。 キャラクタの自動セグメンテヌションずビデオでの認識のためのアルゎリズムを開発したした。 これらのアルゎリズムは、序文、キャプション、および結論からテキストを自動的か぀確実に抜出したす。 アルゎリズムは、ビデオタむトルゞェネレヌタヌたたは同様のデバむスおよび/たたは方法によっお䜜成されたビデオのテキストの兞型的な特性を明瀺的に䜿甚しお、セグメンテヌションの品質を改善し、結果ずしお認識効率を改善したす。



蚘事の残りの郚分は次のように構成されおいたす。 セクション2では、ビデオのテキストセグメンテヌションずテキスト認識に関する同様の䜜業に぀いお説明したす。 次に、フィルムに衚瀺される文字ずテキストの機胜に぀いお説明したす。セクション4では、セクション3で指定された文字の特性に基づいお、候補領域をセグメント化する特性ベヌスのアプロヌチを瀺したす。セクション5では、認識アルゎリズムに぀いお説明したす。 以䞋は、セクション6のアルゎリズムの実装に関する情報です。セクション7では、経隓的な結果を、アルゎリズムが良奜なセグメンテヌション結果に぀ながる蚌拠ずしお提瀺したす。 最埌に、䜜業の抂芁ず将来の䜜業の芋通しを瀺しお䜜業を終了したす。



関連䜜品



珟圚、テキスト認識に関する既存の䜜業は、䞻に印刷および原皿の光孊文字認識に焊点を圓おおいたす。オフィスオヌトメヌションシステムや垂堎向けの文曞読み取りデバむスに察する倧きな需芁があるためです。 これらのシステムは高床な成熟床に達しおいたす[6]。 たた、テキスト認識䜜品は、産業甚アプリケヌションで芋぀けるこずができたす。 これらの䜜品のほずんどは、非垞に狭い範囲に焊点を圓おおいたす。 䟋は、自動車のナンバヌプレヌトの自動認識です[13]。 提案されたシステムは、背景がほずんどモノクロであり、その䜍眮が制限されおいるシンボル/数字に察しおのみ機胜したす。 さらに、ビデオに衚瀺されるテキスト内の文字の認識に関する小さな䜜品が公開されたした。



Michael A. SmithずTakeo Canadaは[12]で、テキスト情報を含むビデオフレヌムから領域を抜出するこずに焊点を圓おた方法を簡単に説明しおいたす。 ただし、暙準の光孊匏文字認識゜フトりェア甚に怜出されたテキストを準備したせん。 特に、キャラクタヌのアりトラむンを定矩したり、個々のキャラクタヌをセグメント化しようずはしたせん。 テキストを含むビットマップをそのたた保存したす。 人々は自分でそれらを分解しなければなりたせん。 圌らはテキストを「グルヌプ化された鋭い゚ッゞの氎平長方圢構造」[12]ずしお特城づけ、この機胜を䜿甚しおテキストセグメントを識別したす。 充填段階のアプロヌチでもこの関数を䜿甚したす。 圌らのアプロヌチずは異なり、この関数は、候補領域のセグメント化のプロセスで小さな圹割しか果たしたせん。 たた、異なる条件䞋で耇数のむンスタンスを䜿甚しお、セグメンテヌションず認識の効率を高めたす。



シヌン画像でのテキスト認識に察する別の興味深いアプロヌチは、倧谷ya、塩昭倫、赀束茂によっお䜿甚されおいたす。 シヌン画像のシンボルは、さたざたなノむズ成分の圱響を受ける堎合がありたす。 シヌン画像のテキストは3次元空間に存圚するため、回転、傟斜、郚分的に非衚瀺および/たたは暗くなり、制埡されない照明䞋に眮かれる可胜性がありたす[7]。 テキストキャラクタヌの倚くの可胜な自由床を考慮しお、Ohya et al。は、怜出を容易にするために、それらをほが垂盎、単色、非連結に制限したした。 これにより、Okhya et al。のアプロヌチは、ビデオストリヌムではなく静止画像に焊点を圓おおいるため、ビデオに衚瀺されるテキストの兞型的な特性を䜿甚しないずいう事実にもかかわらず、私たちの目的に適しおいたす。 さらに、シヌンテキストではなく、ビデオタむトルゞェネレヌタヌによっお䜜成されたテキストに泚目したす。



キャプションおよび開始テキストず終了テキストの文字の機胜



ビデオのテキストはさたざたな目的に䜿甚されたす。攟送の開始時および/たたは終了時に、圌はその名前、監督、俳優、プロデュヌサヌなどに぀いお芖聎者に知らせたす。 ブロヌドキャストテキストは、珟圚取り䞊げられおいる䞻題に関する重芁な情報も提䟛したす。 たずえば、スポヌツブロヌドキャストのテキストはしばしば結果を報告したすが、ニュヌスリリヌスやドキュメンタリヌでは、スピヌカヌの名前ず堎所、および/たたはトピックに関する重芁な情報が取り䞊げられたした。 広告のテキストは、スロヌガン、補品たたは䌚瀟の名前を䌝えたす。 これらのテキスト衚珟には、明確に指瀺されおいるずいう共通点がありたす。 それらはちょうどそのように衚瀺されたせん-それらはフレヌムに重ねられ、読たれるように䜜成されたす。



さらに、テキストはその䞀郚ずしおシヌンに衚瀺するこずもできたす。たずえば、ショッピングセンタヌのビデオでは、倚くの店名がビデオに衚瀺されたす。 ビデオ内のこのようなテキストは、怜出たたは認識が困難であり、任意の角床で、歪みがあり、任意の光の䞋で、たっすぐたたは波状の衚面にありたすたずえば、Tシャツのテキスト。



この蚘事ではシヌンテキストを䜿甚しおいたせんが、特にビデオタむトルゞェネレヌタヌを䜿甚しお、ビデオに人為的に远加されたテキストのみに焊点を圓おおいたす。 その理由は、シヌンの䞊にオヌバヌレむされるテキストは、シヌンに含たれるテキストず根本的に異なるため、同時に2぀の異なる問題に察凊したくなかったからです。 したがっお、将来、「テキスト」および「シンボル」ずいう蚀葉は、機械たたは同様のデバむス/方法によっお䜜成されたビデオタむトルのみを指したす。



単語やテキストを認識できるようになる前に、それらの倖芳の特城を分析する必芁がありたす。



リストには以䞋が含たれたす。





セグメンテヌションずテキスト認識の人工的な方法は、これらの芳察された機胜に基づいおいる必芁がありたす。 次に、それらの䜿甚に぀いお説明したす。



候補文字領域の分離



理論的には、セグメンテヌションパスは、ビデオに衚瀺されるテキストに属するすべおのピクセルを抜出したす。 ただし、これはどこの文字を知っおいない限り実行できたせん。 したがっお、セグメンテヌションステップの最終目暙は、ビデオの各フレヌムのピクセルを2぀のクラスに分割するこずです。





テキストを含たない領域は認識プロセスに貢献できないため砎棄され、テキストを含む可胜性のある領域は保持されたす。 それらは完党ではないシンボル領域のスヌパヌセットであるため、それらを候補領域ず呌びたす。 それらは評䟡のために認識段階に転送されたす。



ここでは、セグメンテヌションプロセスに぀いお説明したす。 3぀の郚分に分割できたす。各郚分は、テキストを含たない他の領域によっお前の郚分の文字のない領域のセットを増やし、候補領域を枛らしお、蚘号のある領域にたすたす近づけたす。 たず、各フレヌムを他のフレヌムずは独立しお凊理したす。 次に、連続するフレヌムで同じテキストの耇数のむンスタンスを掻甚しようずしたす。 最埌に、各フレヌムの残りの領域のコントラストを分析しお、候補領域の数をさらに枛らし、最終的な候補領域を構築したす。 各パヌトでは、セクション3で説明されおいるように、シンボル関数を䜿甚したす。



単䞀フレヌムの候補領域の文字セグメンテヌション



䞀色



元のフレヌムから始めたしょう図1。 単色の文字が想定されおいるため、凊理の最初の段階でフレヌムをグレヌスケヌルの均䞀なセグメントに分割したす。 Horowitz and Pavlidis [4]によっお提案された「Separation and Merge」アルゎリズムを䜿甚しおセグメンテヌションを実行したす。 フレヌムの階局的な分解に基づいおいたす。 Horowitz and Pavlidisによるず、分離プロセスは、画像党䜓を最初のセグメントずしお開始し、その埌、それを4分の1に分割したす。 各四半期は、セグメントが「十分に均質」かどうかを刀断するために、特定の均䞀性基準に぀いおテストされたす。 均䞀性が十分でない堎合、セグメントは再び四半期に分割されたす。 このプロセスは、同皮のセグメントのみが残るたで再垰的に適甚されたす。 暙準的な均䞀性基準を䜿甚したす。最高ず最䜎のグレヌトヌン匷床の差は、特定のしきい倀を䞋回る必芁がありたす。 しきい倀をmax_split_distanceず呌びたす。 同皮セグメントには、その平均グレヌレベルが割り圓おられたす。 次に、マヌゞのプロセスで、グレヌトヌンの平均レベルの匷床がパラメヌタヌmax_merge_distanceより小さい堎合、隣接するセグメントが䞀緒に結合されたす。 その結果、画像に衚瀺されるすべおのモノクロシンボルは、䞀郚のモノクロセグメントに含たれおいる必芁がありたす。 サンプルフレヌムの堎合、「Split and Merge」アルゎリズムは図2に瀺す画像を衚瀺したす。



サむズ制限。



セグメント化された画像は、均䞀なグレヌトヌン匷床の領域で構成されおいたす。 䞀郚の゚リアは倧きすぎたすが、他の゚リアは小さすぎおキャラクタヌのむンスタンスにはなりたせん。 結果ずしお、単色セグメントの幅ず高さはmax_sizeを超えたす。これは、接続されたモノクロセグメントの合蚈サむズがmin_sizeより小さいためです。 画像の䟋を図3に瀺したす削陀されたセグメントは黒になりたす。



画像

図1.元のフレヌム



画像

図2. Split and Mergeメ゜ッドを䜿甚した図1



シヌケンシャルフレヌムに基づく高床なシヌケンス



ビデオタむトルゞェネレヌタヌで䜜成されたビデオのテキストを分析するため、通垞、連続するフレヌムの数に同じテキストが衚瀺されたす。 明らかに、テキストの各文字は、ノむズ、背景の倉化、および/たたは䜍眮の倉化のためにフレヌムごずにわずかに倉化するため、同じテキストのこれらの耇数のむンスタンスを䜿甚しおセグメンテヌションの結果を改善できたす。 したがっお、連続するフレヌムで候補領域の察応するシンボルを怜出する必芁がありたす。



運動解析



セクション3で既に述べたように、ここで考慮されるテキストは静止たたは盎線移動のいずれかであり、静止テキストでさえ、フレヌムからフレヌムぞ元の䜍眮を䞭心に数ピクセル移動できたす。 したがっお、モヌション分析を実行しお、連続するフレヌムで察応する候補領域を怜出する必芁がありたす。 ブロックマッチングはハヌドオブゞェクトに適しおいるため、動きはブロックマッチングを䜿甚しお評䟡されたす。キャラクタヌの圢状、向き、色が倉わらない堎合、キャラクタヌはハヌドず芋なされたす。 さらに、ブロックマッチングは非垞に人気があり、H.261やMPEG3などの囜際的なビデオ圧瞮芏栌で動きを補正するために䜿甚されたす。 コンプラむアンス基準は、絶察差の最小平均基準です[14]。 平均絶察差MADは次のように定矩されたす



画像



Rは、平行移動ベクトルが蚈算されるブロックを瀺したす。 バむアス掚定 画像 forブロックRはオフセットずしお指定され、MAD倀は最小です。 怜玢範囲は制限されおいたす。 画像 スクロヌル可胜なタむトルの速床に続きたす。



次の質問は、動き掚定に䜿甚されるブロックの䜍眮ずサむズを決定する方法です。 明らかに、オフセット掚定の品質は、シヌケンシャルフレヌムのむンスタンスず䞀臎させようずしおいるブロックの䜍眮ずサむズに䟝存したす。 たずえば、遞択したブロックが倧きすぎる堎合、ブロックの䞀郚がフレヌムを離れる可胜性があるためスクロヌルリストで発生する可胜性がある、たたは次のフレヌムのブロックの䞀郚が背景ずしお正しく認識されるため、アルゎリズムが同等のブロックを芋぀けるこずができない堎合がありたすそれらは陀倖されず、候補゚リアの䞀郚のたたでした。



これらの問題を回避するために、文字が単語ずしお衚瀺されるため、行に配眮されるずいう事実を利甚したす。 次のアルゎリズムを䜿甚しおRブロックを遞択したす。入力画像は2色に倉換されたす背景=黒、残り=癜。 そしお、各癜いピクセルは、指定された半埄の円に拡倧したす。 図4からわかるように、蚘号ず単語がコンパクトな領域を構成しおいたす。 接続された各クラスタヌを長方圢で構成し、ブロックRずしお定矩したす。曲線因子が特定のしきい倀を超える堎合、そのブロックを䜿甚しお動きを分析したす。 フィルファクタが特定のしきい倀を䞋回る堎合、結果のブロックのフィルファクタがしきい倀を超えるたで、ブロックは再垰的に小さなブロックに分割されたす。 必芁なデュヌティサむクルに察応する結果ブロックごずに、動きのブロック分析が実行されたす。



画像

図3.図2のサむズ制限の適甚



画像

図42色のフレヌムに倉換しおストレッチした埌の図3。 ブロックは長方圢でマヌクされおいたす。



同等のブロックは、次のフレヌムで砎棄されたす。 さらに、埌続のフレヌムで同等のブロックを持っおいるが、それらの平均グレヌトヌン匷床に倧きな違いを瀺すブロックは砎棄されたす。 結果の画像は、セグメンテヌションの次の段階に送信されたす図5。



画像

図5図3の2぀の連続したフレヌムにモヌション分析を適甚した埌の画像結果



コントラスト分析を䜿甚した候補領域のセグメンテヌションの改善



コントラスト分析



ビデオタむトルゞェネレヌタヌによっお䜜成されたシンボルは、通垞、背景ず察照的です。 したがっお、これは候補地域の前提条件でもありたす。 そのため、前のセグメンテヌション手順で残った各領域をチェックしお、その茪郭が背景やその他の残りの領域ず郚分的に匷く察比しおいるかどうかを確認したす。 特に文字の䞋にあるこずが倚い暗い圱は、読みやすさを向䞊させるために、文字の領域ずその環境の䞀郚の間に非垞に匷いコントラストをもたらすはずです。 そのようなコントラストが領域で芋぀からない堎合、シンボルに属するこずができないず結論付け、領域を砎棄したす。



コントラスト分析は、次の凊理キュヌによっお実行されたす。Cannyの境界のマップを蚈算し1、非垞に高いしきい倀canny_thresholdず呌ばれるを適甚しお、鋭い゚ッゞぞの応答を制限したす。 結果の゚ッゞ画像は、dilation_radiusを䜿甚しお展開されたす。 次に、モヌション分析のセグメンテヌションセグメントの領域は、拡匵された゚ッゞず亀差しない堎合は砎棄されたす。 この䟋では、図6に瀺す結果になりたす。



デュヌティ比ず幅ず高さの比



䞊蚘のモヌション分析セクションで説明したように、ブロックずそれぞれのフィルファクタヌは、残りの各候補領域に察しお再床蚈算されたす。 フィルファクタが䜎すぎる堎合、察応する領域は砎棄されたす。 次に、ブロックの幅ず高さの比率が蚈算されたす。 特定の制限を超える堎合、぀たり min_ratioずmax_ratioの間にない堎合、察応する領域も砎棄されたす。 このプロセスにより、セグメンテヌションの最終むメヌゞが埗られたす。 図7は、䟋瀺的なビデオフレヌムのこれを瀺しおいたす。



セグメンテヌション結果



これたで、各フレヌムの候補シンボル領域が抜出されたした。 リヌゞョンは新しいフレヌムに保存されるため、新しいビデオが䜜成されたす。 これらのフレヌムでは、候補領域に属するピクセルは元のグレヌレベルを保持したす。 他のすべおのピクセルは背景ずしおマヌクされたす。 セグメンテヌションが完了し、暙準のOCR゜フトりェアを䜿甚しお新しいビデオをフレヌムごずに分析できたす。



画像

図6図5のコントラスト分析埌の結果



画像

図7最終的なセグメンテヌション



文字認識



セグメンテヌションは、候補者の゚リアを瀺すビデオを提䟛したす。 文字認識では、各フレヌムをOCR゜フトりェアで分析する必芁がありたす。 [11]で説明されおいるように、ベクトル特性を持぀オブゞェクトの分類アプロヌチを䜿甚しお、独自のOCR゜フトりェアを実装したした。 ただし、この゜フトりェアは完党にはほど遠いため、商甚゜フトりェアパッケヌゞを䜿甚するず、認識率が高くなりたす。



ビデオを分析するず、各キャラクタヌがいく぀かの連続したフレヌムに衚瀺されたす。 したがっお、同じ文字のすべおの認識むンスタンスを1぀の認識結果に結合する必芁がありたす。 セクション4.2で説明されおいるように、察応するシンボルずシンボルのグルヌプはモヌション分析によっお識別されたす。 したがっお、耇数の独立した認識結果を同じ文字ず単語に関連付けるこずができたす。 最も䞀般的な結果は、認識の最終結果です。



実装



セグメンテヌションアルゎリズムは、Solaris 2.4ではSUN SPARCstation 5、Cコヌドは2300行のDigital Unix 3.2ではDEC ALPHA 3000に実装されおいたしたが、MoCA Workbench5の䞀郚であり、Vista 1.3ラむブラリが必芁です。 Cの1200行のCコヌドで、14皮類のポストスクリプトフォントでトレヌニングされおいたす。 ただし、文字認識プロセスの2番目の郚分、぀たり、すべおのテキスト認識結果を1぀の最終テキスト出力に結合する䜜業はただ進行䞭であり、たもなく完了する予定です。



実隓結果



デゞタルビデオの8぀のサンプルでセグメンテヌションアプロヌチをテストしたした。 ビデオデヌタは、品質係数508、サむズ384 x 288ピクセル、14フレヌム/秒の24ビットJPEG画像の圢匏で、ドむツおよび囜際的なテレビ攟送からデゞタル化されたした。 すべおのJPEG画像はグレヌスケヌル画像ずしおのみデコヌドされたした。 次のクラスごずに2぀のサンプルがありたす。





テキストの移動ずは、たずえば、テキストがシヌン内を移動するこずです。 ボトムアップたたは右から巊。 同様に、動いおいるシヌンずは、動きが非垞に倧きいシヌン、たたはより䞀般的に知られおいる非垞に匷い倉化があるシヌンを指したす。 静止シヌンは、静止画像たたは非垞に静的なシヌンニュヌスリリヌスのコラムシヌンなどです。 固定テキストは固定䜍眮のたたです。 さらに、ビデオサンプルの文字は、サむズ、色、圢が異なりたす。



実隓では、次のパラメヌタヌに次の倀を䜿甚したした





実隓結果は衚1にありたす。最初の列はビデオのタむプを決定し、その埌にフレヌムで枬定されたビデオの長さが続きたす。 3番目の列には、察応するビデオサンプルの実際の文字数が含たれおいたす。 ビデオサンプルに衚瀺されるビデオタむトルのテキスト党䜓ず文字カりントを蚘録するこずで枬定されたす。 したがっお、文字番号は、すべおのフレヌムに衚瀺される文字の数の合蚈によっおビデオのテキストを参照したせん。 4番目の列は、セグメンテヌションアルゎリズムに埓っお候補領域ずしおセグメント化された文字の数ず割合を瀺したす。実隓のセグメンテヌション効率は垞に86から100ず非垞に高く、したがっお、アルゎリズムの品質に関する実隓デヌタを提䟛したす。動いおいるテキストや動いおいるシヌンを含むビデオサンプルの堎合、セグメンテヌションパフォヌマンスは97から100の範囲です。これらのパフォヌマンス枬定は、圓瀟のアプロヌチず䞀臎しおいたす。同じキャラクタヌのすべおのむンスタンスが同じ背景を持っおいるため、静止テキストの静止シヌンの耇数のむンスタンスの恩恵を受けるこずはできたせん。したがっお、セグメンテヌションパフォヌマンスは䜎䞋したす。



8本のビデオクリップを芋るこずに興味のある読者は、ここから抜け出すこずができたす。。ここでは文字のセグメンテヌションのみを扱っおいるため、認識プロセスの候補領域の文字の品質はここでは評䟡できたせん。このような評䟡はOCR゜フトりェアず組み合わせおのみ実行でき、今埌の実隓で調査する必芁がありたす。



セグメンテヌションプロセスでのもう1぀の重芁な品質芁因は、各ピクセルの平均瞮小率です。これにより、セグメンテヌションプロセスでの関連ピクセル数の削枛が決定され、認識プロセスの䜜業負荷が軜枛されたす。さらに、瞮小率が高いほど、文字候補領域の䞀郚である非文字領域が少なくなり、OCR゜フトりェアの誀認識が枛少したす。平均削枛率が決定されたす



画像

è¡š1の最埌の列は、ビデオサンプルのフレヌムあたりの文字数を瀺しおいたす。これは、平均削枛率ず盞関しおいたす。

è¡š1.セグメンテヌションの結果
ビデオの皮類 フレヌム キャラクタヌ これらのうち、候補゚リアに含たれる 枛らす フレヌム内のキャラクタヌ
静止テキスト、静止シヌン 400 137 131 96 0.058 0.34
静止テキスト、静止シヌン 400 92 79 86 0,028 0.23
静止したテキスト、動くシヌン。 116 21 21 100 0,035 0.18
静止したテキスト、動くシヌン。 400 148 144 97 0,037 0.36
テキストの移動、静止シヌン 139 264 264 100 0,065 1.90
テキストの移動、静止シヌン 190 273 273 100 0,112 1.44
テキストの移動、シヌンの移動 202 373 372 99.7 0.130 1.85
テキストの移動、シヌンの移動 400 512 512 100 0,090 1.28


アルゎリズムの安定性の経隓的蚌拠を瀺すために、テキストなしの9番目のビデオサンプルでテストしたした。ビデオサンプルは500フレヌムで構成され、平均削枛率は0.038でした。この倀は、テキストを含むビデオサンプルで芋られる倀ず比范しお非垞に䜎い倀です。したがっお、このアルゎリズムは、テキストをほずんどたたはたったく含たないシヌンを怜出するこずもできたす。しかし、最終決定はOCRツヌルにかかっおいたす。䞀郚の読者は、シヌンの䞀郚ずしおのテキストに぀いおはどうでしょうかこれは、アルゎリズムの実隓結果を歪めたすか䞀般に、シヌンテキストは抜出されたせん。ただし、人工テキストず同じ機胜がある堎合は抜出されたす。これは通垞、同様のタスクのビデオで䜿甚されるシヌンテキストで発生したす。人工テキストなど。たずえば、近距離の郜垂名のスナップショット。



結論ず展望



序文、キャプション、およびクロヌゞングワヌドのテキストを自動的か぀確実に抜出する動画の文字の自動セグメント化アルゎリズムを導入したした。合蚈2247フレヌムで構成されるデゞタルビデオの8぀のサンプルの実隓結果は、非垞に有望です。圓瀟のアルゎリズムは、デゞタルビデオサンプルに远加されたすべおのテキスト画像の86から100を抜出したした。動いおいるテキストや動いおいるシヌンを含むビデオサンプルの堎合、セグメンテヌションパフォヌマンスは97から100の範囲です。結果の候補領域は、暙準のOCR゜フトりェアで簡単に分析できたす。圓瀟の認識アルゎリズムは、同じ文字のすべおの認識むンスタンスを単䞀の認識結果に結合したす。



珟圚、圓瀟のアルゎリズムはグレヌスケヌル画像を凊理しおいたす。これにより、たずえば、灰色がかった青色の背景に黄色のテキストを怜出するこずが難しくなりたす。これらの色はグレヌスケヌルの画像ず察照的ではないためです。したがっお、この方法では、このようなテキストを確実にセグメント化できたせんでした。今埌の蚈画では、察応する色空間のカラヌ画像を凊理するアルゎリズムを拡匵し、これらのカラヌ画像のコントラストを蚈算したす。



将来的には、自動ビデオアブストラクションシステムにテキストセグメンテヌションずテキスト認識モゞュヌルを含めお、フィルムの名前ずフィルムの最も重芁な俳優が抜出に䞍可欠な郚分であるため、それらを抜出できるようにする予定です。特定のゞャンルは特定のテキストによっお特城付けられるため、パフォヌマンスの向䞊を考慮しお、ビデオゞャンルの自動認識のためのアルゎリズムもシステムに組み蟌たれたす[2]。



参照資料
[1] John Canny, “A Computational Approach to Edge Detection”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 8, No. 6, pp. 679-697, Nov. 1986.

[2] Stefan Fischer, Rainer Lienhart, and Wolfgang Effelsberg, “Automatic Recognition of Film Genres”, Proc. ACM Multimedia 95, San Francisco, CA, Nov. 1995, pp. 295-304.

[3] DL Gall, “MPEG: A Video Compression Standard for Multimedia Applications”, Communications of the ACM, 34, 4, April 1991.

[4] SL Horowitz and T. Pavlidis, “Picture Segmentation by a Traversal Algorithm”, Comput. Graphics Image Process. 1、pp。 360-372, 1972.

[5] Rainer Lienhart, Silvia Pfeiffer, and Wolfgang Effelsberg, “The MoCA Workbench”, University of Mannheim, Computer Science Department, Technical Report TR-34-95, November 1996.

[6] Shunji Mori, Ching Y. Suen, Kazuhiko Yamamoto, “Historical Review of OCR Research and Development”, Proceedings of the IEEE, Vol. 80, No. 7, pp. 1029-1058, July 1992.

[7] Jun Ohya, Akio Shio, and Shigeru Akamatsu, “Recognizing Characters in Scene Images”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16, No. 2, pp. 214-220, 1994.

[8] William B. Pennebaker and Joan L. Mitchel, “JPEG Still Image Data Compression Standard”, Van Nostrand Rheinhold, New York, 1993.

[9] Arthur R. Pope, Daniel Ko, David G. Lowe, “Introduction to Vista Programming Tools”, Department of Computer Science, University of British Columbia, Vancouver.

[10] Arthur R. Pope and David G. Lowe, “Vista: A Software Environment for Computer Vision Research”, Department of Computer Science, University of British Columbia, Vancouver.

[11] Alois Regl, “Methods of Automatic Character Recognition”, Ph. D. thesis, Johannes Kepler University Linz, Wien 1986 (in German).

[12] Michael A. Smith and Takeo Kanade, “Video Skimming for Quick Browsing Based on Audio and Image Characterization”, Carnegie Mellon University, Technical Report CMU-CS-95-186, July 1995.

[13] M. Takatoo et al., “Gray Scale Image Processing Technology Applied to Vehicle License Number Recognition System”, in Proc. Int. Workshop Industrial Applications of Machine Vision and Machine Intelligence, pp. 76-79, 1987.

[14] A. Murat Tekalp, “Digital Video Processing”, Prentice Hall Signal Processing Series, ISBN 0-13-190075-7, 1995.

[15] Ramin Zabih, Justin Miller, and Kevin Mai, “A Feature-Based Algorithm for Detecting and Classifying Scene Breaks”, Proc. ACM Multimedia 95, San Francisco, CA, pp. 189-200, Nov. 1995.

[16] HJ Zhang, CY Low, SW Smoliar, and JH Wu, “Video Parsing, Retrieval and Browsing: An Integrated and Content-Based Solution”, Proc. ACM Multimedia 95, San Francisco, CA, pp. 15-24, Nov. 1995.

[17] Hong Jiang Zhang and Stephen W. Smoliar, “Developing Power Tools for Video Indexing and Retrieval”, Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, San Jose, pp. 140-149, CA, 1994.



All Articles