ルーン文字処理

こんにちは、読者の皆様。



おそらく、クラウドテクノロジーの導入の素晴らしい成功事例をお聞かせください。 残念なことです-今日は、地上の事柄以上に焦点を当てますが、これはそれほど面白くありません。 さまざまなソースから受け取ったルーン文書を処理するための野心的なプロジェクトについてお話します。 たとえば、次のとおりです。



画像



このプロジェクトでは、認識システム、テキスト合成、DA(テキスト領域の選択を担当するFineReaderパーツと呼ばれるドキュメント分析)だけでなく、画像処理とエクスポートにも珍しいタスクに直面しました。



私たちの会社は、このプロジェクトではあまり馴染みのない役割を果たしました。 通常、私たちの技術はドキュメントのストリーミング入力に使用されます。これについて徹底的に徹底しているため、常にそのようなタスクに対応できます。 今回、お客様は、各ドキュメントを最大限の精度で骨の折れる復元が必要な研究問題を解決するために私たちを選択しました。





読者がおそらく知っているように、ルーン文字は、カバノキの樹皮、羊皮紙、パピルスなどの紙のようなソースだけでなく、石やプラークに刻むことも意図されています。 これは、ほとんどのルーン記号の形式でも示されます。



画像



ルーン文字は通常切断ツールで適用されるため、印刷されたテキストで動作するように訓練された標準の機能認識ツールの使用は不合理でした-特に、各文字がセグメント、アーク、およびその言語で記述される構造認識などの強力なツールがあるため相対位置( SDKドキュメントを参照)。



プロセスはかなり時間がかかりましたが、慣れていることが判明しました。各ルーンの構造を手動で記述し、それらの比率を半自動で選択する必要がありました。 runicスクリプトでは、要素「arc」は使用されていません(誰もが石の上に弧や円を彫ることができるわけではありません)。



すでに述べたように、ほとんどのルーン文字は非紙媒体に描かれています。 したがって、初期デジタル化にスキャナーを使用することは非常に困難です。 写真機材に関係していました。 その結果、処理中に画像のサイズがわからないことがよくありました。 最初は、この問題は非常に簡単に解決されました。写真を撮るとき、成長が知られているルーンストーンの隣に開発者を置きました。 写真は次のようになりました。



画像



しかし、後に、より多くのソースが利用可能になったとき、アルゴリズムの画像解像度に依存することをやめなければなりませんでした。



顧客にとって、そして実際に開発者にとって特に興味深いのは、いわゆるムーンルーンです。 ご存知のように、これらのルーン文字は月の光の中でのみ読むことができ、一部は月がその適用時と同じ位相にある場合にのみ見ることができます。 ある人にとっては、太陰月も重要です。 判明したように、この場合魔法は使用されません。月の発光のスペクトルは、一年を通して段階ごとに、また月ごとに幾分変化し、必要な成分は常に現れるとは限りませんが、月の特定の日にだけです。 これは、読むことができる瞬間からちょうど6か月後にそのようなルーン文字を調べることで簡単に確認できますが、南半球のほぼ同じ緯度にあるため、ルーン文字もはっきりと見えます。



プロセスを高速化するために(各録画を6か月待たないように)、標準カメラをわずかに変更しました。 オクタリンの最も特徴的な月の測定値を追加することで、許容されるスペクトル領域の範囲を拡大する必要がありました。そのため、画像は32ビットRGBO色空間に保存されるようになりました。 便宜上、青とオクタリンのコンポーネントを高ビットで記述し始めました。これにより、色空間が正しくBORG(またはビッグエンディアンのシステムの場合はGROB)と呼ばれるようになりました。



事件なしではない。 おそらくご存知のように、ルーン文字の助けを借りて、非常に多くのさまざまな呪文が記録されました。 さらに、それらの一部は書き換えから保護されています。結局のところ、著作権は近年の発明ではありません。 しかし、私たちはそのような保護された呪文をhtmlで不注意にアンロードしました。その結果、彼らが見ていたブラウザはひどく傷つき、開こうとすると、たとえば、Habrはおよそ次のメッセージを生成し始めました。



画像



テキストを単純な圧縮で保存し、部分的に展開して、コピーできないスペルを調べなければなりませんでした。



幸いなことに、テストベースには、お客様がよく対処する強力なファイアスペルが十分にありませんでした。 彼らにとって、これは長い間解決された問題です。すべてのコンピューターには、BeOSの下で自律制御システムを備えた消火器が装備されています。 問題は、BeOSが便利な関数is_computer_on_fireを実装していることです。これは、燃焼中のマザーボードの温度も非常に正確に測定します(詳細については、 ここをクリックしてください )。 ちなみに、顧客のシステム管理者は非常に良いケバブを提供してくれました。マザーボードの温度が摂氏230〜240度の範囲に維持されていれば、わずか40分で肉は柔らかくてジューシーになります。



認識されているすべてのルーン文字は、巻物にきちんと印刷され、顧客に引き渡されました。 もちろん、ここにお客様と一緒に集合写真を投稿する喜びを否定するつもりはありません。



画像



ドミトリー・デリヤギン、

技術開発部



All Articles