OCRオンライン

1997年頃、光学式テキスト認識の技術に精通しました。最初の、まだ手動の、白黒のGenius ScanMate 256スキャナーを購入したときです(ところで、まだ機能しています)。 スキャナーには、3インチフロッピーディスクのDirect OCRが付属していました(それは、これらの名前はすべて潜在意識のどこかからポップアップします)。これは、間違いなく、本からコンピューターにテキストをほとんど間違いなく入力できることを証明しようとしました。 まあ、証拠はあまりありませんでした。 後で会ったFineReaderの方がうまくいきました。 認識のトピックに興味があり、OCRテクノロジーに関する一般的な科学記事にかなりの時間を費やしました。



2001年、私はウェブ技術に関する論文を準備していました。 知識をどこに適用するかについて長い間考えていました。 OCRテクノロジーに興味があったので、WEBとテキスト認識を組み合わせることにしました。 FineReaderは認識のために応答する必要があります。 友人と一緒に、FineReaderを個別のDLLに「解析」し、これらのライブラリの個々の関数を呼び出す方法、バイナリイメージデータを送信する方法、認識されたバージョンのテキストを取得する方法を見つけました。 画像のアップロード、認識の実行、結果の取得を行うために、最もシンプルなWebインターフェイスがこれらすべての上に構築されました。



当時の最初の制限は、私たちにとってインターネットの途方もない帯域幅でした。 200 dpiとしてスキャンされ、TIFF形式(FineReaderのみが受け入れた)で保存されたA4ページは、グレートーンで数メガバイトを占有する可能性があり、誰かが誤ってまたは無知でカラーバリアントをスキャンした場合、ボリュームは3から4倍に増加します。 当時のこのような巨大なファイルは、ローカルネットワーク上であっても送信および処理が困難であり、パブリックインターネットを介して一般に困難な作業でした。



2番目の要因はコストです。 スキャンしたページのファイルをこのように高速で送信するため、各ページは高価でした。 また、ハッキングされたバージョンのテキスト認識プログラムが通常使用されていることも考慮しました。これらのプログラムは無料またはペニーで利用できます。



3番目の要因は需要です。 個人がオンラインテキスト認識サービスを使用するには、少なくとも3つの要因が必要です。スキャナーの存在、インターネットの存在、テキストを独立して認識できないことです。 このような「曲がった」ユーザーや「愚かな」ユーザーを多数想像することは困難でした。



このプロジェクトは実施されましたが、「布地の下に」残されたものです。



2年前、私は同僚にプロジェクトを再実装するオプションについて考えることを提案しました。 状況は変わりました:インターネットは高速になり(mp3ファイルは既にJPG形式のスキャンページよりも長い間ボリュームが大きくなっています)、スキャナーはほぼどこにでもあり(写真を撮ることもできます)、ユーザーはあらゆる種類のプログラムで頭に負担をかけずにオンラインを使用しようとしますサービス。 FineReaderにはAPIがあり、FLASHを使用すると、ダウンロードと認識を管理するための非常に便利なWebベースのインターフェイスを作成できます。 しかし、私たちは共通の意見には至らず、ABBYYまたはGoogleが有益に販売できる便利で人気のあるサービスを作る機会を逃したと言えます



現在、ABBYYはテキスト認識用のFine Readerオンラインバージョンを既に実装しています(ロシア語を含む6言語をサポート、一度に複数の言語で書かれたドキュメントを理解し、TIFF形式(マルチページファイルを含む)、JPEG、BMP、PNG、PCX、 GIF、DjVu;Microsoft®Word、Excel®、リッチテキスト形式、TXT、検索可能なPDFの出力をサポートしています。



そして先日、有名なGoogle Docs APIサービスがデモページで同じことを確認する機会を提供しました。 Googleでは、JPG、PNG、またはGIF形式の高解像度画像(最大10メガバイト)をアップロードできます。 認識は約2分間続きます。 これまでのところ、ラテンアルファベットのみがサポートされています。



関連リンク: 検索エンジンを調べてみると、テキストをオンラインで認識するためのサービスがいくつか見つかりました(今年は文字通り作成されたものもあります)。 それらのいくつかを次に示します。

PS EverNoteシステムの利便性と、このシステムが暗闇の中で左足で撮影された非常に不潔で曲がった写真の碑文とテキストの認識を含んでいるという事実にも注目したいと思います。

PSS私はHabravetsからそのようなサービスの仕事についてのフィードバックを受け取りたいです。 あなたは、オンラインファインリーダー、グーグルドキュメント、その他のサービスで認識を使用した人たちの中にいますか? 投稿にあなたのレビュー(およびより良い認識例と技術的な制限)を追加します。

更新: Servicesに移植されました



All Articles