モバイルOCR。 それがすべて始まった方法

OCR技術(光学認識技術)のPCからモバイルデバイスへの移行については、おそらくその登場の瞬間から議論されました。 90年代後半、スマートデバイスを指で数えることができるようになったときに、名刺からデータを抽出するプログラム(名刺リーダー、略してBCR)を作成することを考えました。 彼らが言うように、このアイデアは空中にありましたが、カメラの能力もデバイスの処理能力もそれを可能にしませんでした。 あまりカメラを選択する必要はありませんでした。「普通の人向け」の優れたカメラを備えた普通の電話か、「専門家向け」の高度なビジネスハンドヘルドです。



しかし、時間が経つにつれて、人々の要求が高まり、少なくともすべてのデバイスにまともなカメラが登場し始めました。 デバイスの機能が「プルアップ」されるとすぐに、開発者はモバイルオペレーティングシステムに固有の多くの制限を考慮して、認識技術を移植しました:ライブラリサイズ(メディアに500キロバイトのイメージデータベースを使用してOCRを押し込もう)、低パフォーマンスプロセッサの作業速度。 また、認識されるのはスキャナーからの理想的な画像ではなく、歪みのある、暗い場所などで撮影された写真であることを考慮しなければなりませんでした。



そのため、90年代後半にテキスト認識用の最初のABBYYアプリケーションがリリースされました。これは携帯電話用ではなく、ポータブルスキャナー用に開発されました。 スウェーデンの会社C Technologies ABが製造したこのスキャナーは、マーカーやペンを漠然と連想させる小さなデバイスであり、本、雑誌、新聞の行ごとのスキャンを可能にしました。



モバイルSDKがこのペンに組み込まれ、ユーザーがペンを線に沿って動かし、デバイスがテキストを認識してすぐに小さな画面に表示しました。その後、テキストをコンピューターに転送できました。 この仕事の仕組みは今では時代錯誤のようです。当時の古いデバイスを見てください。当時は魔法のようでした!







大規模なFineReaderからC Penのバージョンを作成するには、1人年かかりました(実際、私たちのチームの1人の開発者がこれをすべて行いました)。



C Technologies ABは現在も存在し、ABBYYの最新のソリューションを使用するポータブルスキャナーを製造しています。







このように成功した後、開発者とアナリストのチームは、OCRモバイルテクノロジーを商用製品に実装する必要があることを少しも疑いませんでした。 2005年、韓国の会社Diotec(サムスンの携帯電話にプリインストールされたアプリケーションを開発していた会社)の注文により、最初に携帯電話で動作するSDKを作成しました。 このコラボレーションのおかげで、ヨーロッパとインドネシアのいくつかのサムスンの携帯電話に当社の技術が搭載されました。 Mobile SDKのメインのテキスト認識ライブラリに加えて、ライブラリが追加されました。これにより、プログラムは電話番号のある行、名前と姓(スウェーデン語などで印刷されている場合でも)、および住所を決定しました。 これは、名刺を認識し、携帯電話のノートブックの必要なフィールドにデータを保存できる機能でした。



2007年に、サードパーティの開発者が光学式印刷テキスト認識(OCR)をモバイルデバイスに組み込み、名刺を認識できるようにするツールキットであるABBYY Mobile OCR SDKをリリースしました。 Mobile SDKの最初のバージョンを開発した電話はNokia 6630です。 すでに適切なオペレーティングシステムがありましたが、カメラの認識にはまだ適していなかったため、コードまたはBluetoothを介して画像ファイルを流し込みました。







歴史は、展示会での製品の最初の展示のための指示を保存しました







このツールキットは、Windows Mobile、Symbian、Linuxなどの最も一般的なモバイルプラットフォームや、何らかの方法で画像を受信できるモバイルデバイス(スマートフォン、ハンドヘルドコンピューター、ポータブルスキャナー、デジタルカメラ)で使用できます。 また、2008年の初めに、ユーザー自身が自分の携帯電話にインストールできる最初の製品であるSymbian用ABBYYビジネスカードリーダーがリリースされました。 それでも、仕事用プログラムは永続的なインターネット接続を必要としませんでした。3つのインターフェイス言語と16のテキスト認識言語をサポートしていました。















残念ながら、Symbianのバージョン、膨大な数の製造されたモバイルデバイス(Nokiaを除く、デバイスはSamsung、Motorola、Sonyによって製造され、後者はSymbian-UIQの独自の修正を作成しました)の混乱により、希望どおりにアプリケーションを開発できませんでした。 一部の携帯電話メーカーはタッチ入力をサポートしており(たとえば、Sony)、特定の時点までサポートしていなかった(Nokia)、各企業はユーザーが好むシステム上で異なる何かを構築しようとしました。 デバイスごとに、BCRの個別のバージョンを開発および保守する必要がありましたが、これには開発者が時間がかかり、前進することはできませんでした。



いつものように、最初のiPhoneのすべてが変わりました。 新しいOS用の名刺リーダーを作ってみたかったのですが、その時点で新しいスマートフォンが人気があるかどうかは明らかではなかったので、人件費が最小の製品であるMVP(最小の貴重な製品)を作ることにしました。 開発は、テスト用の経験とデバイス自体の両方を持っているアウトソーシングのチームに与えられました。 したがって、iOS用BCRの最初のバージョンはMedia Mojiのアウトソーサーによって作成され、アプリケーションはiPhone 3Gで機能しました。 「トレシュカ」にはオートフォーカスに問題があったため、名刺はあまり認識されませんでした。 iPhone 3GSはこの問題を修正し、次のバージョンのBCRはすでにデータを認識していました。







もちろん、製品の需要が確認されるとすぐに、開発は州に移りました。 ところで、現在、iOS開発チームの新しいリーダーを探しています。 要件は簡単です-あなたは3年の経験と優れたポートフォリオを持つクールなスペシャリストです。 興味があれば、詳細はこちら



あなたは尋ねます-Androidはどうですか? 既に述べたように、同社は当初、新しいモバイルプラットフォームに慎重でしたが、このプラットフォームが人気があると確信したときにのみAndroid向けの開発を開始しました(これが起こるまで、ブログの読者は約200件のコメントを残しました。 Android向けのモバイル製品が登場します)。 その結果、 このプラットフォームの最初のBCRは、iOSの場合よりも1年遅れて登場しました。







iOSおよびAndroidデバイスの人気の高まりは、私たちを含むすべてのモバイルアプリケーション開発者の生活を大いに促進しました。 Windows MobileとSymbianの時代には、インターネット上に多くのモバイルアプリストアがありました。 オンラインストアが異なるとライセンスシステムも異なるため、これは大きな頭痛の種でした。アプリケーションにアクセスしたい場合は、これらの要件を満たし、ディストリビューションを変更する必要がありました。 巨大なテーブルにディストリビューションバージョン(50の異なるバージョンに存在するビジネスカードリーダーは1つだけ)を増やし、多くのバージョンをサポートするために手間と時間がかかりました。 一元化されたモバイルアプリストアの出現-AppStoreとAndroidマーケット(現在のGoogle Play)-はこの問題を解決し、アプリケーションの機能の開発に集中することができました。



ここからは、BCRでそれ以降に発明されたすべてのものをリストすることはしません-記事はそれについてではありません。 デバイス間での名刺の非接触転送を実装する方法を検索した方法のみを説明します。 名刺の電子交換のトピックは約5年間議論されてきました。開発者は非常に一生懸命努力しています。たとえば、実装の1つ(当社ではない)で名刺を交換する場合、スマートフォン同士をノックする必要がありました。 QualcommのAllJoynテクノロジーに基づいて、独自のバージョンのWi-Fi非接触伝送も作成しました(2013年6月)。 しかし、すべてが私が望んだほどスムーズに行ったわけではありません。 視覚的には、2つのスマートフォン間で名刺を個別に転送するプロセスは非常に印象的であり、iOSデバイスとAndroidデバイス間でも機能しましたが、多くの制限がありました。



•名刺の交換には、両方のユーザーがBCRを持っている必要がありました

•両方のユーザーが同じWi-Fiネットワークに属している必要があります

•このネットワークはパブリックであり、そのようなデータ交換を許可することになっていた。



実際、同じグリッドでも交換は毎回機能しなかったため、この機能をこれ以上開発しませんでした。







その結果、共有の最も簡単で一般的な方法は古き良き電子メールであることに気付きました。 そして今、そのような交換シナリオが実装されています。他の誰かの名刺をスキャンした後、ユーザーはすぐに画面に「名刺を送信」という大きなボタンが表示されます。 彼はそれを押すと、昔ながらの方法で、次のコンテンツに関する歓迎のテキストを含む電子メールが送信されます。







もちろん、テキストテンプレートは事前に構成できます。 名刺の画像とVCF形式のファイルがレターに添付されます。 電子名刺の交換では、これがはるかに活気のあるシナリオであると思われます。



もちろん、開発者はあらゆる種類の「魔法」を名刺を読み取るためのアプリケーションに添付することを好みます-そして私たちも例外ではありません。 たとえば、最近(2015年5月)、アプリケーションに自動キャプチャが表示されました-カメラのリリースをクリックする必要はありません。名刺に向けるだけで、焦点を合わせ、境界を定義し、背景をトリミングし、画像の強化と認識を「自動的に」一瞬で実行します。 すぐに、BCRで、いくつかのソーシャルネットワークや他のいくつかのクールなチップからのデータを含むプロファイル拡張が表示されます。



過去10年間、誰もが紙の名刺で死を予言してきましたが、何年も経ち、人々はこれらの紙片を交換し続けています。 おそらく5-10年で、ビッグデータとディープマシンラーニングを備えたブロックチェーンを介してボットと連絡先データを電子的に交換するための単一の形式が登場します。もちろん、私たちはすでにこれに備えて準備を進めており、それまでは名刺の写真撮影と認識のトピックが引き続き求められています。



さて、Mobile FineReaderの作成方法とその結果については、第2シリーズで読んでください。 切り替えないでください。



All Articles