クウェートの人口をどのように書き換えたか

この号では:



しかし、真剣に、私たちは特別な東洋の風味を持つ国の人口調査の概要を説明します。



ブログの定期的な読者が知っているように、LingvoとFineReaderだけでなく、フォームからデータを抽出するプログラムもあります。 しばらく前に、国勢調査の処理に積極的に使用されるようになりました。ギリシャ、リトアニア、サウジアラビア、タジキスタン、クウェートの国勢調査を支援しました。 クウェートでは、このプロジェクトはおそらく最も興味深いものであることが判明しました。これについては、カットの下で説明します。

*実際の写真は保存されず、レイアウトはメモリから複製されました



問題の国勢調査は2011年にクウェートで行われました。 以前は、人、建物、中小企業はクウェートで書き直されていましたが、すべてのデータ(想像することすら怖いです)がデータベースに手動で入力されました。 誰もがそれが長く高価であることを理解していたので、新しいプロジェクトの前夜、クウェート統計省の職員は近隣諸国に旅行し、成功した経験から学ぼうとしました。 サウジアラビアで成功した経験が見つかりました。サウジアラビアでは、その時点でABBYY FlexiCapture 9.0を使用して速報の処理を終了しました。



東は微妙な問題であるため、クウェートの潜在的なパートナーは私たちからプログラムを購入することはできませんでした。 彼らは私たちのモスクワ事務所に来て、ABBYYが本当に存在し、私たちが十分に大きいことを確認しました。 もちろん、ドレスコードはなく、すべてを見ましたが、長い白い服を着た人々は、私たちにとってもオフィスでは非常に珍しいように見えました。 一般に、東部のゲストはすべての質問に対する回答を受け取り、仕事が始まりました。



国勢調査プロジェクトでは、作業のかなりの部分を行います-投票の処理(下記参照)が、クウェートでは多くの興味深い点がありました。 通常、国勢調査を実施する政府機関は、すべて自分で行うか、請負業者を引き付けます。 クウェート統計省は、湾岸ビジネスサービス&募集グループの人口調査を委託しました。この会社の主な活動は...スタッフ募集です。 珍しいことに同意します。 どうして? 最初はいくつかの請負業者がいましたが、最も重要な仕事の1つは、仕事をうまくやり、間違いをほとんどしないスクライブの分隊を集めることでした。 したがって、人を見つけるための契約が最大であることが判明しました。 その後、職員は、単一のセンターからすべてのプロセスを管理する方が良いとかなり推論し、すべての作業をそれらに転送しました。



国勢調査はいくつかの段階で行われました。 最初に、今後の国勢調査の広告が全国に配置され、人々は電子的に「対応」するように求められました。 これを行うには、サイトにリクエストを残し、指定された日に再び入ってアンケートに記入する必要がありました。 手作業でアンケートに記入することはできませんでしたが、「コールバック」を注文し、電話ですべてのデータを口述します。 したがって、約32万人の住民に関する情報が収集されました。これは、全投票の約11%です。



次のステップは「紙」の国勢調査でした。 国勢調査のフォームを処理する必要があったため、フォームを開発したことは論理的です。 両面フォーム、A3形式。 フィールド名は英語だけでなく、アラビア語でも行わなければならないという事実により、タスクは複雑でしたが、これは私たちには馴染みのないものでした。 彼らはこのように見えた:





名前と姓に加えて、年齢、学歴、配偶者の有無、場所と仕事の経験、インターネットとコンピューターを使用できるかどうか、彼が住んでいるアパートの所有者に属している人、および(パスポートからの)識別番号を尋ねました。 ところで、パスポートは次のようになります。





国勢調査票には固有の番号はありませんでした。シートの主な識別子は、居住者が現在コピーされている家(アパート)の住所でした。 家のすべての住民は1枚のシートにあり、他の家は別のシートです。

アドレスは13桁の数字で指定されました。 地区、地区、通り、世帯ごとに独自のコードがあり、筆記者は紀要に書きました。





国勢調査の実施者が記入済みのフォームを引き渡す113のセンターが組織されました。 毎晩、紙のフォームは中央処理センターに送られ、そこでスキャンされて認識されました。 毎日14から17千のフォームが集まっていました。 2つのスキャニングステーションが編成され、ほぼ24時間稼働していました( 富士通fi-6800スキャナーが使用され、スループット-1日あたり20〜60千ページ)。 スキャン時に、ドキュメントのパッケージは、日付、それが入ったボックスの番号、および送信元のセンター番号で構成される一意の番号を受け取りました。

スキャンされたドキュメントは、ABBYY FlexiCapture 9.0を使用して認識および検証されました(30の検証ステーションが編成されました)。 ここで、このプロジェクトのために製品が大幅に変更されたと言わなければなりません。 クライアントは作業プロセス中にこれまたはその機能を既に必要としていたため、従業員はブルカの暑さと女性に疲れた約1.5ヶ月をクウェート過ごしました。



そのため、ある時点で、スクリプトによってドキュメントのパッケージを収集できるようにする必要がありました。 この場合の「パッケージ」とは何ですか? パケットは、同じアドレスに関連する一連のアンケートです。 8人が1枚のシートに置かれましたが、クウェートでは山間部に住んでおり、多くの家には8人以上の住民がいました-筆記者は新しいシートを取りました。 そのため、スキャンセンターの従業員がドキュメントのスタックをスキャナーに運び、突然ドロップする状況を想像してください。 フロアから戻ると、ドキュメントは最初の順序で収集されることはなく、もちろん、ランダムにスキャンされます。 国勢調査の顧客は、このような場合、検証者はシステム内の1つの家に関連するすべてのシートを手動で正しく収集する能力がないと考えていました。 したがって、コード化されたアドレスを使用して自動的にパケットを収集するようシステムに「教え」ました(覚えているように、これは国勢調査フォームの主要な識別子でした)。 FlexiCaptureの現在の10番目のバージョンでは、この関数はデフォルトで実装されていますが、クウェートの国勢調査の時点では「10」はまだリリースされていないため、プロセスに追加する必要がありました。



2段階で承認された投票。 なぜ2つですか? 統計部は、他のすべてのデータを確認するまで待たずに、家(アパート)の数と居住者の数に関する情報を迅速に収集する必要がありました。 したがって、最初の段階で、人口調査票から、記入日、住所、およびこの住所に住んでいる人々の数に関する情報が抽​​出されました。 これはすべて検証され(検証は、スキャンされた画像を認識されたデータと比較し、エラーが突然存在する場合にエラーを修正するときに行われます)、データベースに送信されます-このようにして、国勢調査の進行速度と残された量を監視することができました。 次に、ドキュメントパッケージが特別なフォルダーにエクスポートされ、シートをロードするための正しいシーケンスを指定するxml記述が生成されました。 第2段階では、この説明を使用して、ドキュメントが正しい順序で認識され、最初のパスで触れられなかったすべてのフィールドから情報が抽出されました。 次に、ドキュメントが検証され、データが同じデータベースにアップロードされました。 SQL Server 2008 R2を使用して情報を保存し、SharePoint 2010を使用して結果を公開しました。



特にこのプロジェクトの前に行ったもう1つの機能は、ルールへの準拠の自動検証です。 明らかな論理エラーを回避するためのルールが必要でした。 ルールはこのようなものでした。たとえば、子供には子供を持たせず、特定の年齢未満の子供や定年年齢の人には「仕事」フィールドを記入しないでください。家の所有者は息子より18歳以上でなければなりません。 そのため、アンケートでトラック運転手として働いている6歳の少年に突然出くわした場合、システムはルールに違反していると判断し、エラーを出しました。 次に、オペレータは、認識されたデータをシートのスキャン画像と比較することにより、このエラーを修正できるかどうかを判断する必要がありました。 たとえば、ペンが筆記者によってうまく書かれておらず、6歳になる前にシステムがデュースを認識しなかった場合、エラーは修正されました。 うまくいかなかった場合は、エラーにクリティカルステータスが割り当てられ、システムは自動的に世帯の電話番号とエラーの本質に関するデータをコールセンターに送信し、そこでオペレーターは家の所有者に連絡し、情報を明確にしました。



予備的な調査結果は、フォームの収集が完了してから2週間後に省に提出されました。 合計75万件の両面国勢調査フォームが処理されました。これにより、(手動入力と比較して)何回も行われ、国勢調査データの処理時間が短縮されました。 しかし、数字は数字であり、私たちにとってこのプロジェクトは重要でした。ITに関係のない会社の結果として、教育を受けたパートナーを育て、クウェートでの製品の宣伝を手伝うことができたからです。



スベトラーナ・ルズギナ、

ABBYY 3Aでサポート(3A =アジア、アフリカ、ラテンアメリカ)



All Articles