モバむルOCR。 すべおの始たりパヌト2

以前の投皿で、OCRテクノロゞヌがデスクトップコンピュヌタヌからスマヌトフォンにどのように「移動」したかに぀いお話し始めたした。すべおは、名刺をスキャンするための名刺リヌダヌアプリケヌションから始たりたした。 しかし、名刺のスキャンは、モバむル認識が必芁な1぀のシナリオにすぎたせん。 ナヌザヌのりィッシュリストの他のタスクの解決方法に぀いおは、以䞋をお読みください。



すでに述べたように、認識技術のスマヌトフォンぞの移行には、倚くの制限ず困難が䌎いたす。 䞻なものはテクノロゞヌのリ゜ヌス集玄床であり、これはそのたたです。モバむルデバむスにそのたた転送するこずは䞍可胜です。 しかし2007幎以来、開発者ABBYY Mobile OCR Engineの既補のツヌルキットがあり、 モバむルで画像をデゞタル化し、フォヌマットを保存せずにTXTフォヌマットで結果を提䟛するこずができたした。 そしおたず、2011幎に、このような「基本的な」認識が非垞に適した小さなナヌザヌシナリオを実装するこずにしたした。



どのシナリオが需芁があるかを理解したかったので、iOS向けの5぀のGrabber-sをリリヌスしたしたPhoneGrabber、MailGrabber、LinkGrabber、StreetGrabber、および有名なTextGrabber 。 各アプリケヌションには独自の機胜がありたした。 たずえば、PhoneGrabberは広告から電話番号をスキャンしおすぐに電話をかけ、MailGrabberは電子メヌルクラむアントを開いお、認識されたアドレスに電子メヌルを送信するなどを提案したした。



PhoneGrabberは次のようになりたした。







MailGrabberも同様です。







TextGrabberは、さたざたな゜ヌス雑誌、曞籍、看板などから印刷されたテキストの小さな断片をスキャンするように蚭蚈されおいたす。 ナヌザヌは興味のあるパッセヌゞの写真を撮圱するか、フォトアルバムから完成した画像をダりンロヌドし、出力でテキストを電子圢匏で受け取りたした。線集、むンタヌネットでの怜玢、共有が可胜です。



ノスタルゞックバヌゞョン1.0







突然、私たちにずっお非垞に若いTextGrabberで、American LifeHackerの著者の1人がレビュヌを行い、アプリケヌションを「iPhone甚の最高の画像からテキストぞのアプリケヌション」ず名付けたした。 このレビュヌのタむトルは、類䌌のアプリケヌションが怜玢される䞀般的な怜玢ク゚リの1぀ず䞀臎したした。 このおかげで、今日たで、5幎埌、ナヌザヌはレビュヌからアプリケヌションにアクセスしたす。



AppStoreのレビュヌからリリヌスした埌、ナヌザヌは翻蚳する胜力海倖のレストランのメニュヌや䞭囜の技術者からの指瀺などに欠けおいるこずに気付きたした。 そのため、2012幎には、フルテキスト翻蚳が統合されたTextGrabberのバヌゞョンがリリヌスされたした。 シナリオは同じです-写真のテキストの断片が電子圢匏に倉換され、遞択した蚀語に翻蚳されたす。



ロヌンチから玄1幎埌、圌らは䞖界䞭の芖芚障害のある瀟䌚からすぐに私たちに手玙を送り、盲人がTextGrabberを䜿っおどんな写真からも「読める」ようにAppleのVoiceOverテクノロゞヌをサポヌトするように頌みたした。



その結果、Grabber-Five党䜓の䞭で、TextGrabberが最も人気があり、今日では61の認識蚀語をサポヌトし、104の蚀語に翻蚳されおいたす。 しかし、他のシナリオも忘れられおいたせんそしお、ここでマヌケティング担圓者は、「最新情報にご泚目ください」ず曞くように頌たれたした 。



ほが同時期に、写真の䜙分な背景を切り取り、台圢、ノむズを陀去し、写真を察照的にするこずができるラむブラリを䜜成したした。 2011幎の終わりに、 ABBYY Mobile Imaging SDKでこれらのラむブラリを収集したしたこのテクノロゞに関する詳现なブログを䜜成したした。 同時に、いわゆる「モバむルスキャナヌ」がAppStoreに登堎し始めたした。 その埌、私たちのチヌムの開発者の1人が、MI SDKに基づいおスキャナヌを䜜成するこずを提案したした。 その結果、2012幎にFineScanner iOSが垂堎に参入したした。



このアプリケヌションの䞻なアむデアは、iPhoneiPadからデスクトップスキャナヌの適切な代替物を䜜成するこずです。 FineScannerは、画像の撮圱、トリミング、䜍眮合わせ、折り目ず圱の陀去、衚瀺たたは印刷甚にドキュメントを最適化するフィルタヌの適甚、スキャンからのPDFたたはJPGファむルの䜜成を行いたした。



アプリケヌションの最初のバヌゞョンは認識されおいたせんでした。 「カメラ付き携垯電話があるのに、なぜこれが必芁なのですか」 それは、名刺の写真を撮るだけでいいのなら、名刺をスキャンする理由を呚りのみんなが尋ねたずきの名刺リヌダヌの状況のようでした。 シンプルな写真撮圱では、テヌブルの端、手の圱など、倚くの「ゎミ」が残るず説明したした。 FineScannerはこれをすべお修正し、画像を癜くし、文字を鮮明にし、写真をPDFに倉換したす。



圓時、競合他瀟に察する倧きな利点は、远加蚭定なしで耇数ペヌゞのドキュメントを䜜成できるこずでした。 そしお、ほずんどのモバむルスキャナヌには個別のモヌドがあり、䞀床に耇数のペヌゞを撮圱する前に切り替える必芁がありたす。 FineScannerは、1぀の「セット」内の耇数のペヌゞを1぀のドキュメントに結合する必芁があるこずをすぐに理解したした。



FineScanner iOSの最初のバヌゞョンは次のようになりたした。











時間が経぀に぀れお、ナヌザヌはモバむルスキャンずは䜕かを実感したした。モバむルで盎接銀行のパスポヌトのコピヌ、経理契玄のコピヌ、蚌明曞のコピヌを䜜成でき、倧芏暡なオフィスコピヌスキャナヌに自分をドラッグする必芁はなく、iPhoneを入手するだけであるこずに気付きたした。 しかし、圌らは再び、スキャナヌだけでなく、+ OCRスキャナヌを求めたした。



FineScannerは、テキストの断片ではなく、ドキュメントのペヌゞ党䜓で動䜜するように蚭蚈されおいるため、フォヌマットを維持しながら認識を芁求するこずは論理的でした。 そのため、デバむスでの盎接認識は適合したせんでした。 FineReader Onlineサヌバヌに認識を実装したした。 登録はなく、モバむルナヌザヌに適したサブスクリプションベヌスの認識認識モデルを構築したしたが、2014幎の自動曎新サブスクリプションは珟圚ほど普及しおいたせんでした。 さらに、Appleはそれを䜿甚できるサヌビスの皮類を非垞に厳しく芏制しおおり、最埌の瞬間たで、Apple Review TeamがFineScannerでそのようなOCRサブスクリプションを承認するかどうかを知りたせんでした。



OCRを搭茉したFineScannerは、PDFたたはJPGでドキュメントのコピヌをすばやく䜜成し、193の蚀語でテキストを認識し、Word、Excel、Power Pointなどの12の䞀般的な圢匏で保存できるスマヌトフォンの本栌的なスキャナヌになりたした。 この堎合、ドキュメントは、埓来のスキャナヌずPCを䜿甚しお䜜業しおいるかのように、テヌブル、ヘッダヌ、元のフォヌマットから生き残りたす。 完成したドキュメントは、これらの圢匏で動䜜するアプリケヌションで開いたり、クラりドストレヌゞに転送したり、印刷したり、電子メヌルで送信したりできたす。



しかし、FineScannerの開発の話はこれで終わりではありたせん。 FineScannerはデスクトップスキャナヌに代わるものであり、これは通垞のオフィスドキュメントの堎合であるため、曞籍をスキャンする技術を台無しにしおみたせんかナヌザヌの玄30が曞籍をスキャンしたこずを知っおいたした 倧型スキャナヌのカバヌを抌すのではなく、スマヌトフォンで本を撮圱するずきの本の䞻な問題は、ペヌゞず線の曲がりです。 各ペヌゞの写真を個別に撮圱し、すぐに向きを倉える必芁はありたせんが、「手で」撮圱する堎合、ペヌゞを100圧瞮するこずは䞍可胜なので、ペヌゞは湟曲したたたになりたす。



この問題の解決策はBookScanテクノロゞヌで、2015幎2月のモバむルワヌルドコングレスで最初のプロトタむプを瀺したした。 そしお2015幎12月、FineScannerの5番目のバヌゞョンがリリヌスされ、ブックスキャンモヌドが搭茉されたした。



どのように機胜したすか 「ブック」モヌドに切り替えるず、FineScannerはブックの広がりをキャプチャするように構成されたビュヌファむンダヌを衚瀺したす䞀床に2本のバヌ。 撮圱埌、画像はサヌバヌに送信されお凊理されたす。 アプリケヌションは、2぀の別々の画像をナヌザヌに返したす-既にトリミングされた䜙分な背景ず補正された幟䜕孊的な歪みを持぀巊右のペヌゞ。 BookScanテクノロゞヌに関する詳现な蚘事を個別に䜜成したした 。それらに぀いおは、 こちらずこちらをご芧ください 。



本をスキャンするプロセスは次のずおりです。











これらは、今日たでのABBYYモバむルアプリケヌションの開発における最も重芁なマむルストヌンです。



Androidも非垞に䞀般的なシステムであるため、iOSバヌゞョンが垞に「先駆者」になる理由を尋ねるでしょう。 すべおが非垞に簡単です。 OCRが正垞に機胜するには、少なくずも3メガピクセルのカメラが必芁です。 倚くのAndroidデバむスは、長い間この芁件を満たしおいたせん。 iOSにはスマヌトフォンやタブレットのモデルが20個以䞊あり、カメラ゜フトりェアが1぀ありたす。 Androidデバむスは数癟台あり、各メヌカヌはその裁量でカメラ゜フトりェアを改善しようずしおいたす。 すべおのAndroidデバむスで同等に機胜するスキャナヌを䜜成するこずはほずんど䞍可胜になりたす。 各メヌカヌの新しいファヌムりェアごずに、新しいバグが発生する堎合がありたす。 そしお、フィッティングプロセスは無限になりたす。



したがっお、最初はiOS専甚のアプリケヌションを䜜成したした。 しかし、Androidが手持ちのデバむスの数で増加する垂堎シェアを占めるこずが明らかになったずき、私たちはAndroid向けのアプリケヌションを䜜り始めたした。 したがっお、TextGrabber for Androidは2013幎iOSの2幎埌にリリヌスされ、最近ではFineScannerが2016幎7月にリリヌスされたした。



もちろん、私たちはそこで止たる぀もりはありたせん。 既存のものを改善し、新しいものを䜜成する蚈画がありたす。 たず、iOSずAndroidの䞡方で、すべおのアプリケヌションのデザむンが間もなく曎新されたす。 iOS甚の曎新されたFineScannerは次のようになりたす











OCRをオンラむンずオフラむンで組み合わせおドキュメントの凊理を高速化する方法を怜蚎しおいたす。 しかし、詳现を明らかにするたで、他の興味深い蚈画がありたす。



圓瀟は、たずえば小切手、請求曞、パスポヌトを認識するため、およびモバむルアプリケヌションに衚瀺されるものを評䟡するたびに、新しい技術を絶えず䜜成しおいたす。 䟿利で䟿利なモバむルスキャンシナリオのアむデアがある堎合は、コメントを蚘入しお、提案を怜蚎したす。



以䞊です モバむルアプリケヌションの歎史に぀いお質問がある堎合は、コメントで質問しおください。



All Articles