全ロシアの人口調査:データの集計方法





2000年からの国勢調査および農業人口調査データの認識と処理に取り組んできました。 これは、1年以上ソフトウェアを書いてきた場合に当てはまります。これは、1回は問題なく動作するはずですが、エラーはありません。



なんで? 2010年には、ロシア連邦のすべての分野の50万人と別の1万人のITユーザーが、全ロシアの人口調査に参加しました。 スキャナーは毎分150枚の用紙を受け取ります。 ほぼ同じ速度でのリアルタイム認識。 国内のスキャナーの数を掛けると、データストリームが得られます。バグがあると、すぐに膨大な数の人々の作業が台無しになります。



2番目のポイント-統計研究所と共同で、データ回復アルゴリズムの研究を行っています。



国勢調査はどうですか



これが全ロシアの人口調査である場合、約50万人(ほとんどの場合学生)が国内のすべての人々を迂回します。 課題は、全員に連絡して一連の質問をすることです。回答は紙に特別な機械可読形式で記録されます。 農業人口調査の場合-少ない人が行きますが、それでも。 ここに、例えば、彼が彼の土地を歩く農業国勢調査の国勢調査員の標準的なポートフォリオがあります:











次のステップでは、これらのフォームから数千万のテーブルを取得します。各フォームには、さまざまなレベルのサービスにとって重要な領域に関する特定のデータがあります。



つまり、手順は次のとおりです。

•調査対象サイトのリストを作成し、それらをスクライブ用のプロットに分割します。

•「徒歩で」物理的にデータを収集します。

•機械読み取り可能なドキュメントをストリーミングスキャナーにダウンロードします。

•認識されるものを認識します(ここでは、2番目の手書きの手書き)。

•認識されなかったものをいくつか修正して、オペレーターがフォームのデータを手作業で仕上げることができるようにします。

•ロジックに従って、データの整合性を再確認します(祖父は息子よりも若いことはできません)。

•全国から共通のデータベースを収集します。

•必要に応じて、このデータベースを分析システムにアップロードして、顧客が非定型のレポートを自分で作成し、そこから非現実的なレポートを削除できるようにします。

•安全なメールによる保管のための紙のフォームの安全なスキャン。

•紙のフォームの現場保管を手配します。



国勢調査の参加者の多くは、人生で初めてコンピューターを見ています(誇張しているわけではありませんが、マウスと両手が習慣から外れており、村ではもっと多くのことが起こっています)。 さらに、全員が国勢調査手順を最後まで理解しているわけではなく、多くの非自明な操作があります。 当然、これによりサポートの負荷が急激に増加しますが、これはピーク時には非常に望ましくありません。 そのため(これについては質問されませんでしたが)、40分間のトレーニングビデオを録画して、国勢調査の作成方法のすべての側面を段階的に説明しました。 2004年からの短い抜粋です(以前は海賊版ディスクに書き込まれていました-「プロのプログラマーによる声」)。







一方、農業センサスについては、元農学者と共同議長が質問した。 収集したデータを自分の仕事で繰り返し使用しているため、彼らはトピックを鮮明に理解し、結果に興味を持っています。 これらの人々と仕事をすることは非常に楽しいです。 彼らはまた、コンピューターのどこに餌をやるのか分からないこともよくありますが、質問して学ぶことを恐れません。 また、データの整合性に関して非常に重要な特性もあります。祖母の目で何頭の豚を飼っているか、また筆記者から一匹を押し出したかどうかを判断できます。 ところで、トピックの深い知識について-すべてのテスターが地域の1つで数ヘクタールのヘンプが栽培されていることを知っていたわけではありません。 それは最も価値のある戦略的な原料だからです。 医学および軽工業用。



農業のトピックに関する次のような国勢調査では、顧客は通常、紙を取り除きたいと考えています。代表者にタブレットを配布して、データがすぐに詰まるようにします。 もちろん、個人データに関する機能もあります。ルート化中であっても漏洩を防ぐソリューションを考え出す必要がありますが、これはすべて解決されています。



実装



最後から少し始めます。 データベースのサイズを考えると、適切なソリューションはMicrosoft SQL + Microsoft OLAPです。 生成のためにMS OLAPを使用し始めたとき、経験はほとんどありませんでしたが、自分自身に対する信頼と勝つ意欲がありました。 しかし、彼らは決して後悔していません。 世界のMicrosoft OLAPには、この規模のプロジェクトはわずかしかありません。 当然、私たちはレーキを歩いて、テストでは検出できないエラーにつまずきました-開発者は、そのようなボリュームの生きた基盤と、データを粉砕する強力なデータセンターがいくつかありませんでした。 ちなみに、ロススタットのデータセンター。



プライマリ全体がローカルで処理され、データの完全性と一貫性がチェックされます。 次に、データは次の2つの方法でモスクワのデータセンターに送られます。

  1. デジタル処理-オペレータワークステーションからVPN経由。
  2. 紙の原稿のスキャン-宅配便。 ディスクから、すべてがデータベースにすでにロードされています。 物理的には、これはすべて安全な場所にあり、このクラスのメールシステム自体は、極秘文書を送信するためにも設計されています。


したがって、処理用に約6 TBの生データを取得し、そこから500 GB未満のサイズのデータ​​ベースを取得します。 このレベルでは、担当者へのデータ復旧が必要です。 たとえば、この地区には、国勢調査に参加した約2,000人と、見つからなかった、または他の理由で連絡が取れなかった15人の「難民」がいました。 統計的に(そして私たちは多数にしか興味がない)、彼らは平均して地域の他の居住者に対応すると仮定するのは論理的です。 これは、データの復元方法の非常に単純化された例です。 実際には、研究機関と一緒に、一連の実験で次の仮説を確認しました:すべてが満たされているかなり大きな配列の回答(過去の実際の人口調査データ)を取得した場合、回答の最大10%をランダムに削除し、データを復元してから、最終的なカットの結果差は1/10パーセント以下です。



多くのソリューションが使用されます-同様のプロファイルのデータベースの検索から(たとえば、調査されていない農家の性別と年齢の構造がわかっている場合)、アルゴリズムは同様の条件の地域で同様の家族を探し、それらに依存します)。 実際には、わが国にのみ、このようなアルゴリズムを使用するための既製のメカニズムがあります。 統計を扱う同じ研究所ではできません-巨大な基盤を解析するのに十分なデータセンター容量がありません。



レポート処理のもう1つの重要な要素は、ビッグデータを扱うオーストラリアの同僚の特別なBIです 。 重要な機能は、 情報の機密性の保護です 。 最初のレイヤーは、レポートをアップロードできないことです。ここでは、1人あたり特定の数に達することができます。 どんなに頑張っても、内部処理ユニットは3人です。 別の特別な分析では、同様のデータを持つ別のマトリックスに対応するマトリックスを含むレポートをアンロードできないようにします。 防衛討論のcなペンテスターは、人々に関する詳細を得るために、いくつかのマトリックスを他のものから差し引くことを学んだからです。 今、特別なメカニズムがこれに続いています。 BIはSuperStarと呼ばれます。



地域のデータ



選挙とは異なり、居住者自身が国勢調査のために投票に来た場合(そして誰かが来なければ大丈夫です)、すべての人に行き、最も完全なデータを取得する必要があります。 学生は書類を収集し、可能な限り正確に記入し、チェックして、地区センターに持ち込みました。 それから、彼らは領土統計当局への警察(警察)の保護下に置かれ、そこでは機械可読文書のスキャナーがあります。 スキャナーから、紙は保護されます。



論文はセクションに結び付けられています。 たとえば、「ここにパッケージがあり、400人がいます。これはそのような村です。」 会計単位に分割するシステムはソ連で再構築され、時計のように機能します。



さらに、データの完全性を比較することは困難な仕事であり、たとえば、3人の孫を持つ祖父のアンケートによれば、これらの孫はどこかにいる必要があり、そこにいない場合は何かがうまくいかないことがわかります。 たとえば、このような手順では、チェリャビンスク地方でラクダが1匹見つかりました。 私たちはほとんど夢中になり、彼らはバグを考え、チェックするように私たちに尋ねました-本当にラクダを持っている人がいます。 多くの場合、充填エラーなどの状況があります。2頭の牛、5頭が乳牛です。 タブレットを使用すると簡単になり、UIレベルで多くのチェックが行われます。







入力コンプレックスは興味深い部分の1つです。 最初は、写真のようにロシアの産業用スキャナーが立っていましたが、最後のセンサスでは外国のものがすでに使用されていました。 1分あたり150枚。 世界の慣例では、さらに認識マシンに、そして検証マシンにさらに与えることです。 3台の車は非常に贅沢なので、1台のPAKを収集します。ここで、オペレーターがスキャンするときに画面上のデータを確認し、システムが「噛む」ことができなかったものを編集できます。



当然のことながら、この段階での最大の困難は、異なる手書き文字によって引き起こされます。 幸いなことに、多くの参照データがあります。機械で読み取り可能なドキュメントには、テキストの方向、ページ上の位置などを正確に判断できるタグがたくさんあります。 数字があるべき場所、村の名前などがあり、仮説の数を減らします。 したがって、印刷された数字の多さだけでなく、多くの手書きサンプルも認識できるようになりました。 最初の調査では、最も一般的な手書き機能のデータベースを収集し、フォーム上の手書きテキストの大部分を正常に認識できました。





「ロボットを助ける」トレーニング画面:ループを少なくし、中断することなく可能な限り線を引き、2度目に数字を回さないで、フィールドから出ないようにします。 まだ悪い選択肢がありますが、トレーニング後ははるかに少なくなります。



その結果、かなりの割合で、1%を大幅に下回るので、手を編集する必要があります。 あまり認識されていないドキュメントの特別なデータベースが収集されており、オペレータが探しています。



その後-別のテスト、今回は物理的。 質量から判断すると、1キログラムのドキュメントが必要です。20枚の紙では不十分です。 テーブルの下で忘れてしまいましたか?



次に、正式な論理制御、データリンクの確立。



そして、その後のみ送信。



結果



ほとんどすべてのステップが自動化されているため、必要な人員が大幅に削減されました。 たとえば、同じルートシートでも自動的にコンパイルされるため、サイト内を移動する時間が最適化されます。



このようなイベントのスタッフは最も費用のかかる喜びであり、これと比較して5〜7日間のTierIIIデータセンターでも1ペニーです。



そのようなプロジェクトでのタスクの設定は非常に珍しいです。 顧客はその詳細を完全に理解しており、説明する準備はできていますが、開発の観点からは考えていません。 初めて700ページのブリックを入手しました-TKとしてのほぼ文学的なテキストで、アナリストはそれを要件に変えました。 2回目以降、顧客はすでにこれを説明する方法を理解し始め、トピックを深く理解し、専門用語を理解し始めました。 練習では、たとえば、タスクを受け取った後ではなく、一流のテスターを連れて行く価値があり、それはどこかで、彼が詳細の無知について突くということを示しています。 トピックの深い知識については、私たちは非常に高く評価されています-これはそのようなソリューションの開発の鍵です。



短時間で大量のデータを掘ります。 手順を繰り返す機会がないため、テストのために莫大な予算が費やされます。 私たちは、特別に訓練された集団農民-年金受給者も募集しています。 対応します。 国勢調査の参加者はそれぞれの分野の専門家であり、IT部門と連携しないことは完全に普通のことです。 非常にシンプルなインターフェースを作成します。 認識検証ソリューションの使いやすさを考えています。 多くの人に時間と神経を節約します。 それは難しく、非常に興味深いです。



全ロシア農業展示会の次の国勢調査は2016年に行われます。 全ロシアの人口調査-2020年に予定されています。専門的な質問については、ICherepov @ croc.ruまたはコメント欄に書いてください。



All Articles