楔形文字でテキストを認識する

写真からのテキストの自動認識を確立するタスクがありました。 ユーザーは、写真をサーバーにアップロードするときに、認識されたテキストも受信します。 すぐに言ってやった。 優れた無料のコンソールソリューションが見つかりました-cuneiform nixバージョンはhttps://launchpad.net/cuneiform-linuxにあります



インストール。 ところで、Ubuntでは、リポジトリからバージョン0.7を入手できます。 現在、バージョン0.9が最新です。

<br> wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2<br> tar xvjf cuneiform-linux-0.9.0.tar.bz2<br> cd cuneiform-linux-0.9.0<br> mkdir builddir<br> cd builddir<br> cmake -DCMAKE_BUILD_TYPE=debug ..<br> make<br> make install<br>





オプションの引数「-DCMAKE_INSTALL_PREFIX = / your / dir」は、正しいディレクトリにcuneiformをインストールします。

次の引数を使用して実行できます。



-l





ドキュメントの言語を指定します。 可能なもの:eng(デフォルト)ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur。



-o





ファイルに保存します。



-f





受信したテキストの形式。 サポート対象:テキスト(デフォルト)、html、rtf、スマートテキスト(TeX段落を含むプレーンテキスト)、hocr(hOCR HTML形式)、ネイティブ(Cuneiform 2000形式)



--dotmatrix





マトリックスプリンターを使用して印刷される画像のスクリプトの最適化。



--fax





FAXを使用して印刷される画像のスクリプトの最適化。



--singlecolumn





ページ分析を無効にし、画像が1列のテキストで構成されていることを意味します。



使用例:

cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif







GUI



それから私は国内のニーズに合ったグラフィカルインターフェースが欲しかった。 選択肢は2つあります。これらはYAGFCuneiform-Qtです。



YAGF



Cuneiform-Qt



YAGFを使用することになりました。 また、 qt



で記述されており、 aspell



パッケージも必要です。 ダウンロード、インストール:



wget http://symmetrica.net/cuneiform-linux/yagf-0.8.1.tar.gz<br> tar xvfz yagf-0.8.1.tar.gz <br> cd yagf-0.8.1/<br> cmake ./<br> make<br> make install<br>






All Articles