シュレッダー後の文書の復元のための競争の結果

問題番号5、約6200フラグメント、各フラグメントのサイズは約150 x 60ピクセルです。



DARPA代理店は、シュレッダー後の文書の復元のための競争の結果を発表しました。 ほぼ9,000チームが競争に参加しました。



各パズルは、新しい市販のシュレッダーで細断された手書きテキストの断片で構成され、400 DPIの解像度でスキャンされました。 最も難しいタスク5では、不明なページ数から約6200のフラグメントがありました-このタスクに対処したのは2つのチームだけでした。



勝者はチームAll Your Shreds Are Belong To USでした-彼女はすべてのタスクを完了することで最大50ポイントを獲得することができました。 最も近い競合他社は30ポイントと26ポイントを獲得しました。



誰も完全に自動化されたソリューションを開発することはできませんでした;すべてのチームは、フラグメントが正しく一致することを確認する1人以上の人-オペレータを必要としました。 ポーランドのチームはクラウドソーシングを使用しようとしました。 数十人のユーザーが共同で最初のパズルを比較的早く解決しましたが、それ以上は進みませんでした。



3番目に終わったプログラマーMark Newlin( wasabiチーム)は、ドキュメントの回復方法を公開しました。 すべてのモジュールはC#/ .NET 4.0 / MSSQLで開発されています。 最初の段階で、アセンブリの準備が実行されます。画像を個別のフラグメントに分割し、背景からクリーニングして、位置合わせします。







背景が塗りつぶされた後、境界線が選択されます。 フラグメントのアライメントは、最大ピクセル数の側で自動化されますが、物議を醸すケースでは、手動アライメントが役立ちます(マークによると、そのようなものは約1%ありました)。 断片の上部境界と下部境界もシュレッダーの特徴的な痕跡によって簡単に識別されるため、必要に応じて断片は180°回転します。 パズルの各ピースはファイルに保存されます。 長い側面から切り離されたフラグメントの「クリーニング済み」バージョンは個別に保存されます。ペントレースの接続ポイントを見つける必要があります。



アセンブリの前に、各フラグメントに関する情報でデータベースがコンパイルされます。「汚れた」きれいなフォームの寸法、ラインの座標(ルーラーでシートのフラグメントが見える場合)、境界線の形状、ペントレースの出口点、境界線上の各点の色、認識されたシンボル。 OCRプログラムはこれをうまく行えないので、文字の認識は手作業で行われた、とマークは言います。



フラグメントの各ペアの近接確率は、フラグメントの境界にあるハンドルからのトラックの接触点(そのような点の座標と数による)、紙上の定規の接触点、および色によるフラグメントの類似性を考慮して計算されました。



この情報に基づいて、ドキュメントはグラフィカルエディタで手動で組み立てられます。 マークはGIMPとPaint.NETを使用しましたが、数千のフラグメントを持つ4番目と5番目のタスクの複雑なパズルのために、さまざまなパラメーター(近接確率、ペンの色、コーヒーの染みの有無など)に従ってデータベースからフラグメントの表示をフィルター処理するための個別のインターフェイスを作成する必要がありました。







画面に最適なフラグメントを表示するインターフェイスも追加され、アセンブリの精度と速度が向上しました。







見つかったすべての一致を含む一般文書が徐々に補足され、確率が再集計されました。







マークニューリンは、過去数週間にわたってプロジェクトにすべての自由時間を費やしたと言います。 彼は、競争の5つの課題のうち4つをなんとか解決しましたが、6200個の最も難しい5番目のパズルには例外があり、24点が与えられました。 どうやら、マークは単独で働いていたため、十分な時間を持っていなかったようです。 現在、彼は実験を続けて技術を向上させるために、いくつかの商用シュレッダーを購入する予定です。 おそらく将来、マークはUnshredder.comと競争するために本を書くか、彼自身の会社を開くでしょう。 しかし、彼は一人ではありません。 DARPAコンテストの後、このトピックに興味を持つ人々の大規模なコミュニティがおそらく形成されました。



受賞チームは、 すべてのシュレッダーが米国に属し ていることも、近い将来にソリューションアルゴリズム明らかにすることを約束します。 Markのブログ投稿のコメントで、彼らは多くの同じ方法を使用したと述べました。 カバーノートで、彼らはすべての問題を解決するのに約600人時間かかると言った。



受賞チームによって送信されたソリューションスキャン (PDF)は、DARPA Webサイトで公開されました。 たとえば、5番目のタスクの3ページの元のフラグメントと復元されたフラグメントを以下に示します。 タスクでは、すべてのフラグメントが混在し、各ページには欠落フラグメントが含まれ、2番目のページはほぼ完全に欠落していました。 ポイントを獲得するには、パズルを組み立てるだけでなく、メッセージを解読することも必要でした。 したがって、5番目のタスクでは、メッセージはモールス符号でエンコードされました( 各タスクの解決策 、PDF)。



ページ1 、最終行のモールス信号





ページ2が上下逆さまに細断されている





3ページ





シュレッダーDIN 32757の安全基準は、各安全レベルの粉砕後の最小破片サイズを指定しています。



レベル1 = 12 mmのストリップまたは11 x 40 mmの破片

レベル2 = 6 mmのストリップまたは8 x 40 mmの破片

レベル3 = 2 mmのストリップまたは4 x 30 mmの断片(機密マーキング)

レベル4 = 2 x 15 mmフラグメント(商業的に機密性の高いラベル)

レベル5 = 0.8 x 12 mmの破片(極秘または分類されたマーキング)

レベル6 = 0.8 x 4 mmフラグメント(トップシークレットまたは分類済み)



コンテストの5番目のタスクでは、フラグメントサイズは約148 x 59ピクセル、つまり9.4 x 3.7 mmであり、これは安全規格DIN 32757に基づくレベル4シュレッダーにほぼ対応しています。ロシア連邦では1 x 5 mm以下-1 x 1 mm。



All Articles