2001年、私はウェブ技術に関する論文を準備していました。 知識をどこに適用するかについて長い間考えていました。 OCRテクノロジーに興味があったので、WEBとテキスト認識を組み合わせることにしました。 FineReaderは認識のために応答する必要があります。 友人と一緒に、FineReaderを個別のDLLに「解析」し、これらのライブラリの個々の関数を呼び出す方法、バイナリイメージデータを送信する方法、認識されたバージョンのテキストを取得する方法を見つけました。 画像のアップロード、認識の実行、結果の取得を行うために、最もシンプルなWebインターフェイスがこれらすべての上に構築されました。
当時の最初の制限は、私たちにとってインターネットの途方もない帯域幅でした。 200 dpiとしてスキャンされ、TIFF形式(FineReaderのみが受け入れた)で保存されたA4ページは、グレートーンで数メガバイトを占有する可能性があり、誰かが誤ってまたは無知でカラーバリアントをスキャンした場合、ボリュームは3から4倍に増加します。 当時のこのような巨大なファイルは、ローカルネットワーク上であっても送信および処理が困難であり、パブリックインターネットを介して一般に困難な作業でした。
2番目の要因はコストです。 スキャンしたページのファイルをこのように高速で送信するため、各ページは高価でした。 また、ハッキングされたバージョンのテキスト認識プログラムが通常使用されていることも考慮しました。これらのプログラムは無料またはペニーで利用できます。
3番目の要因は需要です。 個人がオンラインテキスト認識サービスを使用するには、少なくとも3つの要因が必要です。スキャナーの存在、インターネットの存在、テキストを独立して認識できないことです。 このような「曲がった」ユーザーや「愚かな」ユーザーを多数想像することは困難でした。
このプロジェクトは実施されましたが、「布地の下に」残されたものです。
2年前、私は同僚にプロジェクトを再実装するオプションについて考えることを提案しました。 状況は変わりました:インターネットは高速になり(mp3ファイルは既にJPG形式のスキャンページよりも長い間ボリュームが大きくなっています)、スキャナーはほぼどこにでもあり(写真を撮ることもできます)、ユーザーはあらゆる種類のプログラムで頭に負担をかけずにオンラインを使用しようとしますサービス。 FineReaderにはAPIがあり、FLASHを使用すると、ダウンロードと認識を管理するための非常に便利なWebベースのインターフェイスを作成できます。 しかし、私たちは共通の意見には至らず
現在、ABBYYはテキスト認識用のFine Readerオンラインバージョンを既に実装しています(ロシア語を含む6言語をサポート、一度に複数の言語で書かれたドキュメントを理解し、TIFF形式(マルチページファイルを含む)、JPEG、BMP、PNG、PCX、 GIF、DjVu;Microsoft®Word、Excel®、リッチテキスト形式、TXT、検索可能なPDFの出力をサポートしています。
そして先日、有名なGoogle Docs APIサービスがデモページで同じことを確認する機会を提供しました。 Googleでは、JPG、PNG、またはGIF形式の高解像度画像(最大10メガバイト)をアップロードできます。 認識は約2分間続きます。 これまでのところ、ラテンアルファベットのみがサポートされています。
関連リンク:
- FineReader API
- ABBYY Fine Readerオンライン
- Googleドキュメントのテキスト認識デモページ (Googleドキュメントへの登録が必要)
- OnlineOCR (ロシア語を含む28言語、TIFF(マルチページ)、JPEG / JPG、BMP、PCX、PNG、GIF、PDF(マルチページ)形式、最大20 mbのファイル、PDF、MS Word、 MS Excel、HTML、RTF、TXT)
- 無料のOCR (6言語、ロシア語なし、PDF形式での入力(最初のページのみ)、JPG、GIF、TIFFまたはBMP、最大2メガバイトのファイル、テキスト形式での出力)
- OCRターミナル (6言語、ロシア語なし、PNG、JPEG、GIF、BMP、マルチページTIFFおよびPDFでの入力、DOC、TXT、RTF、PDFでの出力)
- 無料の商用オンライン光学認識システムの小さなリスト
PSS私はHabravetsからそのようなサービスの仕事についてのフィードバックを受け取りたいです。 あなたは、オンラインファインリーダー、グーグルドキュメント、その他のサービスで認識を使用した人たちの中にいますか? 投稿にあなたのレビュー(およびより良い認識例と技術的な制限)を追加します。
更新: Servicesに移植されました 。