バングラデシュ共和国での国勢調査の実施を支援した方法





バングラデシュは東南アジアの州であり、人口の面で世界で8位(ロシア、 ウィキペディアによる 、現在9位)、インドとビルマとの国境にあります。 バングラデシュ人の大多数は農村居住者であり(160人中1億3500万人)、彼らの生活環境は穏やかに言えば理想からはほど遠い。 すべての世帯が飲料水にアクセスできるわけではありません;衛生状態は望まれるために多く残します。



今日の資料は、 ABBYY FlexiCaptureの助けを借りて、バングラデシュ保健省が医療調査の結果をどのように処理したかに関するものです。このような調査は、健康分野で正しい戦略的決定を下すために必要です。





バングラデシュの1億6千万人の人口は、わずか14.7万平方キロメートルの面積に住んでいます。つまり、人口密度は非常に高いです。 私たちが住んでいる地域とどの地域-バングラデシュを比較します(そして人口のプラスとマイナスは同じです)。











バングラデシュ人は最近、医療分野で大きな進歩を遂げました。 世界保健機関は、多くの重要な分野における国の顕著な進歩について報告しています-国は5歳未満の新生児と子供の死亡率を減らし、平均寿命を延ばし、ワクチン接種がより利用しやすくなり、結核との戦いがより成功しています。







1961年以来、バングラデシュ保健家族福祉省の保健サービス総局(GUZ)。 国の農村住民の健康状態に関するデータを収集するために、人口の定期的な調査を実施します-最も一般的な慢性疾患、死亡率とその原因、ならびに国内および経済的生活条件。 これらのデータは、ヘルスケアの分野で適切な戦略的決定を下すために必要です-それらに基づいて、特定の医療支援プログラムを開発しますが、それらを収集することは高価で困難です。



国勢調査自体は、バシュグラディシュ保健省が独自に実施しています。 施設には従業員(コミュニティヘルスワーカーと呼ばれます)のスタッフ全員がいます。彼らは定期的に農村部の家庭を訪問し、状況や助けが必要かどうかを理解しています。 データを収集し、アンケートに記入したのは彼らです。



プロファイルは常に手動で処理されました。 データを電子システムに転送するのに2年かかりました-3000万ページを処理するのは冗談でしょうか? 収集された情報の重要性を考えると、長すぎます。 2011年、バングラデシュ統計局は、世界中でこのような調査と国勢調査を実施した経験を調査し、インテリジェント文字認識-インテリジェント文字認識(ICR)の技術を使用してアンケートの処理を自動化することを決定しました。



非常に簡単に-ICRとOCR(光学式文字認識)の違いは何ですか。
OCR-印刷された文字の認識。 ICR-この場合:ブロック文字で手書きされた文字の認識(「手書き」文字を書き込むこともあります)。



そのため、バングラデシュ政府は医療センサスアンケートの処理のための入札を発表しました。これは当社のパートナーであるDevnetが当社のソリューションABBYY FlexiCaptureで獲得しました 。 しかし、勝者が選ばれるずっと前に、入札の主催者は、入札に参加した企業の助けを借りて、機械が読み取れるアンケートを作成しました。







プロファイルはバイリンガルです。 フィールドおよびチェックボックスの署名のほとんどは、バングラデシュ共和国の公用語であるベンガル語で作成されています(地元の人々は「バングラ」と呼んでいます)。 バングラデシュでは、もちろん、彼らは学校で英語を教えていますが、誰もがそれを知っているわけではないので、彼らは完全に英語でアンケートを始めませんでした-彼らは筆記者をspareしまなかった。 フォームの主要な要素への署名は英語で複製されます-データの処理で問題が発生した場合、当社のテクニカルサポートはそれが何であるかを方向付けて理解できるようにします。



ベンガル語-特定のやや複雑な言語-まだ認識されていないため、認識されるすべてのフィールド(空のセル)で、筆記者は英語を入力する必要がありました。



確かに読者は、実際にどのような情報が収集されることに興味を持っています。 私たちも興味を持ち、パートナーにこの記事のアンケートの翻訳を依頼しました。







最初の質問-地域、地区、世帯のコード-アンケートの主要な識別子です。 家のすべての住民が1枚のシートに収まらない場合、このコードは、誰もが失われないようにすべてのシートをまとめて「収集」するためにアンケートを処理するときに役立ちます。



2番目の質問では、回答者に飲料水の供給源を示すように依頼しました。ここでは、多くの微妙な点が明らかになりました。 バングラデシュの地下水(および一部の近隣地域)は、ヒ素で汚染されていることが多いことが判明しました。これは大きな問題です。 井戸の水に含まれるヒ素の量を調べるプログラム全体があり、その後井戸にマークが付けられます。 緑-安全(チューブは緑)、赤-危険(チューブは赤)、一部の井戸は探索する時間がありません(または、所属する住民が勉強を拒否しました)-これが3番目の答えです。 ラベル付きプロジェクトの詳細については、部分的にオンラインで入手できる書籍Arsenic Exposure and Health Effectsを参照してください。



3番目の質問はトイレのタイプを尋ね、4番目は家族の経済状況です。



質問6から、列挙者は世帯のすべての居住者をリストし、慢性疾患を患っているかどうかを示す必要があります。 前回の国勢調査以降に家で誰かが死亡した場合、彼はまた、日付と死因とともにアンケートに記入しなければなりませんでした。



アンケートが作成されると、パートナーは筆記者に指示を出しました。「機械可読フォーム」とは何か、そのようなフォームに記入する規則については簡単な説明がありました。 たとえば、黒または濃い青のペンで書き、大文字の英字を使用し、ボックスを超えないようにし、各単語の後に空白のボックスを残します-正しい例と間違った例 ここにあります。









指示に加えて、国勢調査の受験者は特別な訓練を受け、彼らの仕事の全過程(訓練から始まり、完了したアンケートの提供で終わる)は約10ヶ月かかりました。 徹底的な説明にもかかわらず、充填中にかなりの数のエラーがありました。 平均して、テキストの約10%がセルの境界を超えており、筆記者はしばしば、1つの回答しかできない質問に応えて複数のチェックボックスに回答しました。また、書きにくい手書きがしばしばありました。 さらに、アンケートを処理するパートナーを選択するための入札が遅延し(これは入札で頻繁に発生することがわかっています)、収集されたアンケートは劣悪な条件で保管され、それらの一部は水と虐待によって損なわれました。 これはすべて、アンケートの処理を複雑にしました。



アンケート処理スキームは次のようになります。







最初に、プロファイルがスキャンされます。 このために、10台のKodak i1420およびKodak i3400スキャナーが使用されました。 i3400モデルの帯域幅は1分あたり50ページ、1日あたり15,000ページ、i1420モデルでは1分あたり45ページ、1日あたり13,000ページです。











細心の注意を払った読者は、アンケートの背景、フレーム、およびいくつかの説明情報が赤であることに気付いていたに違いありません。 もちろん、ここでは赤に理由がないわけではありません。 スキャンの段階で色が削除されるようにスキャナーを構成できます(ドロップアウト色)。 スキャン後、ベンチマーク(隅の黒い四角)と入力済みのフィールドを除き、すべての要素がフォームから消えます。







これは、認識の品質を向上させるために必要です。 たとえば、アンケートに記入する際に書記官がセルの外で「クロールアウト」するだけでなく、文字や数字の一部が赤いテキスト(行名など)になった場合、プログラムが文字を認識するのは困難になります。 赤い色が除去されると、この問題は解決されます。 以前は、このような操作はスキャナーでしか行えませんでした;最新のFlexiCaptureリリースでは、必要に応じて、ソフトウェアレベルで色付きの背景を削除できます。



スキャンが完了すると、FlexiCaptureはスキャンされた画像を処理し(破片を除去し、歪みを修正し)、フォーム内のデータを認識します。



システム内のアンケートは「パッケージ」にまとめられます。 パケットは、同じアドレスに関連する一連のアンケートです。 12人が1枚のシートに置かれましたが、バングラデシュでは山間部に住んでおり、多くの家には12人以上の住民がいました-筆記者は新しいシートを取りました。 そのため、スキャンセンターの従業員がドキュメントのスタックをスキャナーに運び、突然ドロップする状況を想像してください。 フロアから戻ると、ドキュメントは最初の順序で収集されることはなく、もちろん、ランダムにスキャンされます。 国勢調査の顧客は、このような場合、検証者はシステム内の1つの家に関連するすべてのシートを手動で正しく収集する能力がないと考えていました。 そのため、システムは、エンコードされたアドレス(覚えているように、国勢調査フォームの主要な識別子)と国勢調査担当者の名前を使用して、パッケージを自動的に収集しました。



プログラムが誤っている可能性があるため、すべてのデータを検証する必要があります-人は認識された文字をスキャン上の画像と目で比較する必要があります。 2つの大きな検証センターが編成され、120人が2つのシフトで働いていました。 このように見えた:







チェックボックスからのデータは検証されませんでした-情報はルールを使用してチェックされました-たとえば、いくつかの質問では答えが1つだけである可能性があります



残りのフィールドのデータを確認して人々を支援するために、一部のフィールドでエラーを検出するスクリプトが開発されました。 たとえば、電話番号には11文字しか含めることができません。 家族関係、家番号、市外局番などのコードを使用する場合、特定のルールがありました。 エラーがある場合、プログラムはボックスをチェックして、オペレーターがこの場所に注意を払うようにしました。 次に、オペレータは、認識されたデータをシートのスキャン画像と比較することにより、このエラーを修正できるかどうかを判断する必要がありました。 たとえば、ペンが筆記者によってうまく書かれておらず、システムが文字を認識しなかった場合、エラーは修正されました。 修正が失敗した場合、エラーにはクリティカルステータスが割り当てられました。



検証中、オペレーターはシート全体を表示することも、別のフィールドのみを表示することもできます(他のオペレーターは別のフィールドを表示できます)。 原則として、2番目の方法はより効果的であり、プロジェクトで使用されました。 検証後、データはデータベース-MS SQL Enterprise 2012にアップロードされました。名前の英語-ベンガル語辞書がシステムに統合されました-すべての名前がす​​ぐにベンガル語でエクスポートされました。



実際、ここにバングラデシュの国勢調査に関する全体像があります。 結論として、いつものように、小さな統計:1日平均で、オペレーターは10万ページを少し処理し、約9か月で3000万ページが処理されました。



スベトラーナ・ルズギナ

ABBYY 3A(3 A =アジア、アフリカ、ラテンアメリカ)のサポートを受けたコーポレートコミュニケーションサービス。



All Articles