FineReader 12:インターフェースの新機能と、実績をパーセンテージに変換する難しさ

構築し、構築し、最終的に構築しました!



名前が示すように、私たちは最近友達になりました。 この点で、カットの下で、私たちはFineReader 12が何のために良いのかを簡単なロシア語で説明しようとします。それにより、それを必要とする人は、新しいバージョンのために今すぐオンラインストアに走るか、幸せな13番目の登場を静かに数年待つかを理解できます。





インターフェースについて





まず、古いバージョンのユーザーの目に留まるでしょう。 つまり、インターフェースから。 いいえ、左の写真のように理想に達していませんが、体系的に目標に向かっています。 この動きの次のステップは、「非モダリティ」および「迅速な発見」という内部名を持つ機能でした。



FineReader 11でドキュメントをkページ(そしてもちろん古いバージョン)に投げると、手で何かをする前にn秒間考えます。 これらすべてのn秒間、ページへのアクセスをユーザーと共有するのではなく、当社の技術が引き継ぎます。



バージョン12では、初心者向けに追加されたページがすぐに表示されます。 そして最も重要なのは、必要に応じてブロックを編集/特別な手動画像前処理を行う機能(通常、悪い、使用できない、誇張せずに怖い文書が入り口に現れるときに発生します)がすぐに表示されることです。 さらに、この時点ですでに認識が進む可能性があります。 要するに、ほとんどすべてのメカニズムがユーザーと同時に動作できるため、ユーザーが待機時間を失うことはありません。 非モダリティを完了する途中の未征服のピークは、ドキュメントの合成およびエクスポートと呼ばれるプロセスです。 これらのプロセスの特徴は、ページごとではなくドキュメント全体を処理することです。したがって、ユーザーと並行して作業することはできません。 ただし、これらのプロセスの所要時間は通常合計時間の10%未満であり、ユーザーが必要なことをすべて完了した可能性が最も高い最後の段階で行われます。



さらに、新しいバージョンは引用スクリプトを提供します。 ユーザーはファイル(/ s)の形でドキュメント全体を必要とせず、どこかにコピーするために個々の部分だけを必要とすることを前提としています。 正直なところ、通常の作業で1つか2つの段落を引用する場合は、 スクリーンショットリーダーを使用することをお勧めします(ちなみに、別売りであるだけでなく、FineReaderのボーナスの一部でもあります)。 ただし、100ページのドキュメントから15の特定の段落を取得する必要がある場合は、新しい機能が最も歓迎されます。 このシナリオの具体的な利点は、FineReaderがブロックを適切に選択することです。つまり、目的のページを見つけて、ターゲットブロックで[コピー]をクリックするだけです。 Pentium 3ではなく、より新しいものをお持ちの場合は、おそらく1秒もかからないでしょう。



オンラインを維持するのに役立ちます。 aram_pakhchanianが 正しく指摘しているように、製品に機能 満載されており、これは明らかに証明書が正確かつ最新であることを義務付けています。 ここのオンラインは理想的なソリューションです。今日、私たちは事前翻訳の統合をテストしており、明日はすべてのユーザーがすでに更新された情報を使用しています。



さらに、自動更新メカニズムが追加されました。 もちろん、ディストリビューション全体をダウンロードする必要はなく、パッチ(メガバイト単位)のみをダウンロードする必要があります。 FineReaderは、ユーザーがアップグレードするかどうかを明確にしない限り、すべて自分で行います。



私は実際にテストを行っているので、製品を長い間見ていますが、率直に言って、他に何を追加すればよいかさえわかりません-新しい外観と新しい機能にすでに慣れています。 この点について、 3dnewsのレビューをご紹介します。57dedマイクをお渡します。これにより、製品のサイクルで認識品質が長年98%から30-40%向上したのに、200%に達していない理由がわかります。



技術について



新しい、または忘れられていた古い画像処理機能についてはすべて明らかです。 一方では、右の写真のように、オフィス文書のカラープリントを最終的に削除しました。これは、私見では受け入れられ、現在の科学技術の成果レベルに対応しています。



一方、ナフタレンの厚い層は、画像のホワイトバランスおよびその他の「視覚的改善」を復元する機能によって吹き飛ばされ、2007年にFineReader 8の一部として初めて導入されました。さらに、表と図を含むドキュメントの作業の改善を正式に発表しました。 図については、おそらく、ここで、何らかの誤解、または詳細を理解することをためらうために、スクリーンショットが写真内にあった写真付きのドキュメントは図に起因していたことに注意してください-私たちはこのタスクを意図的に決定しました。



FineReaderの発表が示すように(リンクは提供しませんが、発表の場はありません)、スクリーンショットを含む図では「最大」33%、表では「最大」40%の改善が達成されました。 興味のある普通の懐疑論者は、これらの数字を見逃すことはないので、それらがどこから来たのかを説明します。 キャプテンエビデンスは、OCRプログラムの結果を特定の「あるべき」標準と比較することにより、認識精度が通常測定されることを示唆しています。 テキスト認識の正確さを測定する場合、正確にこのテキストがどこにあるかがすでにわかっている場合(多くの人を魅了し、分類理論の力をすべて適用することを求めているタスク)、結果が元にどれだけ近いかを測定することはまったく問題になりません。



テキスト領域を強調表示するタスクの場合、結果を測定するのはそれほど簡単ではありません。たとえば、1つのブロックでテキストとタイトルを組み合わせて、これに対して2つのテキストブロックを実行できるためです。 現在、世界では、多くの人々がテキスト領域セレクターの作業の品質を測定する必要があります。誰もが少し異なる方法で測定しますが、一般的な考え方は非常に単純です。 標準では、すべてのテーブル、テキスト、画像をページに保存します。 認識結果で表と画像が適切に配置され、テキストがテキスト領域内にあることを確認します。 そして、さまざまなcな方法で、さまざまな悪いことを禁止しています。 たとえば、2つの列を1つのブロックに結合することはできません(読み順は失われます)。途中で行を分割してテキストから文字を切り離すことはできません(同じ理由で)。1つのブロックで白い背景に黒のテキストと黒に白を結合しないでください。



これで、テーブルとダイアグラムのスクリーンショットの精度を測定するために、何もすることはありませんでした。以前のバージョンが見つけられなかったテーブルの数を確認し、現在のバージョンが処理できなかったテーブルの数と比較し、以前のバージョンのテーブルの「不足」を100%として、所望の結果を取得します...おっと...、再び、それほど単純ではありません。



まず、テーブルを見つけるだけでなく、セルに分割する必要があります。 セルの境界が何らかの方法でマークされていない場合、これは困難な作業になります。 しかし、 すでに述べたように、以前のバージョンではここで大きな進歩を遂げたため、現在のバージョンでは「慣性で」自分自身を動かすことができます。 ところで、テーブルをセルに分割する品質を測定することは、かなり簡単な作業です。 原則として、この場所にセル境界があるかどうかをしっかりと言うことができます。そのため、FineReaderの品質を評価するには、欠落しているセル境界の数を計算し、冗長な境界の数を追加する必要があります。
実際に
テーブルの列間の境界線の損失は、テーブルヘッダー内の1つのセルのランダムな分割よりも重大なエラーと見なされる必要があります。したがって、各セルの境界線、つまり、垂直セパレータの重みは、分割するセルの数に等しいと考えられます。


第二に、かなり大きな画像データベースをマークアップすることは非常に困難です。 ここで少し正確に難しさを説明しましょう。 あるドキュメントから1ページをマークアウトしたとします。 プレートが1枚ある場合は、その上に適切に配置されます。いくつかの写真と非常に多くのテキストがある場合があります。 認識精度を測定するために、数千の文字と数百の単語を取得します。テーブルを検索するタスクでは、1つのテーブルのみを取得します。 すべてがどれほど複雑であるかというトピックについて、あなた自身がすでにすべてを理解しているという話題を続けても意味がありません。



第三に(あなたは私がひっかかったと真剣に信じていますか?)、場合によっては、人類はテーブルが私たちの前にあるのかテキストなのかを確実に言うことができません。 右の写真のように言ってください。

そのような場合、ソロモンの決定は「そして、それで正しい」と判断します。



上記の魔術を適用して、私たちのベースで...

「やめて!」-どんな対戦相手も当然inします。「テストとしてトレーニングベースを使用するのは善悪を超えている!!!」。 まあ、あなたは彼に同意する必要があります。 確かに、比較テストは、新しくダウンロードまたはスキャンしたばかりの画像の完全に新しいデータベースで実行する必要があります。そのため、プログラマーがそれらの画像に合わせようとしなかったという保証があります。 しかし、このベースをマークアップすることは安価ではないことを思い出すのはまさにここです。 これまでのところ、解決策は次のとおりです。





一般に、文書上のテキスト、表、写真を強調表示するタスクは美しく「数学的に」定式化できないため、人工知能に関する投稿の開始サイクルはそれに非常によく関連していることに注意してください。



これで、私たちの休暇を取り、私たちの奇跡の製品の試用に慣れるために別れを告げることができます。



All Articles