ブラジルの気象観測の昔の歴史をデジタル化するのにどのように貢献したか

画像



1909年以来、ブラジル国立気象研究所の科学者は、国の気象条件と気候変動に関するすべての情報を記録しています。 研究者はこのデータを分析し、それに基づいて予測を行います。 専門家は、100年以上にわたり、蒸し暑いリオデジャネイロ、ガラガラのイグアスの滝、アマゾンの暗い森、霧のサンパウロで、300万ページ以上の気象記録を収集しました。 しかし、すべての情報は紙の形式で保存されていました。 毎年それはますます蓄積し、古い記録は価値がなくなりました。 研究者がドキュメントを扱うことはますます難しくなっています。



今日は、ブラジル国立気象研究所がABBYY FlexiCapture Engineテクノロジーを使用して、科学者が100年以上にわたって収集してきた気象観測アーカイブをデジタル化した方法について説明します。



「しかし、日当たりの良いブラジルでは、私のブラジル...」



ブラジルは南アメリカで最大の国です。 領土には、赤道、亜熱帯、熱帯の3種類の気候があります。 ブラジル経済のほぼすべてのセクター、特に農業の発展は、さまざまな気象条件に依存しています。 したがって、専門家にとっては、気象条件の変化を分析して正確に予測することが重要です。 予測 、航空機、パイロット、乗客の安全を確保し、船と船員を保護し、漁業を適切に組織し、観光を発展させるために必要です。



気象履歴は、気候変動の可能性を予測し、国の農業および産業政策の調整に関する決定を下すのに役立ちます。 1909年に設立されたブラジル国立気象研究所(INMET、国立気象研究所)は、100年以上にわたってこの作業に取り組んできました。 農業家畜省に報告します。 20世紀初頭以来、研究所は、降水量、風、相対湿度、気圧などに関するデータを入念に収集しています。 何十年もの間、専門家は日々この情報を記録し、それを観察日記に入力しました-そのような資料は大きな科学的価値があります。 写真には、1961年7月のアマゾナス州の都市の1つでの気象観測の日記があります。



画像



画像



最近まで、貴重な文書は紙の形で保管されていました。 記録のあるアーカイブは、ブラジルのさまざまな都市に散在しています。リオデジャネイロ、サンパウロ、マナウス、ベレン、サルバドール、ポルトアレグレ、クイアバ、ゴイアニア、レシフェ、ベロオリゾンテ、ブラジリア。 したがって、ドキュメントを分析したり、ドキュメントを操作したりすることはほとんど不可能でした。



画像



さらに、本やノートは、歴史的な文書を慎重に保管するのに適した条件のない倉庫に置かれていました。 ブラジルの3つの都市は、特に高温多湿の気候です。 たとえば、マナウスとベレンは熱帯林の真ん中のアマゾンにあり、一年中高温多湿です。 または、パンタナールに広がるクイアバ-地球上で最大の沼地。 湿度の高い空気と害虫が豊富なため、紙は劣化し、研究所は貴重な記録の一部を失う危険性がありました。 一方、ブラジルが帝国だった19世紀にいくつかの観察が行われました。



画像



2010年代初頭、INMETは、気象観測のアーカイブ全体(ノートブック、書籍、さらにはマイクロフィルム)をデジタル化することを決定しました。 これは300万ページ、つまり40億文字です。 ただし、このためには、異なる都市に保存されているすべてのレコードをまとめて整理する必要がありました。



画像



2011年、研究所の従業員は文書をブラジリアに輸送し、INMETビルの新しいアーカイブに入れました。 保管エリアは1,500平方メートルです。 その後、研究所の専門家が記録の処理と復元を開始しましたが、それ以前は常に良好な状態で保存されていませんでした。



画像



大きな紙のアーカイブを作成する最後のステップは、すべての記録のカタログ化でした-そのおかげで、必要な気象観測日記をリポジトリで簡単に見つけることができます。 これで、ドキュメントのデジタル化を開始できました。



画像



デジタル化に進む



2012年に、研究所はブラジルの会社Flexdocと協力し始めました。Flexdocは 、ドキュメントを処理および保存するためのソフトウェアを開発しています。 気象観測を電子形式に変換するために、Flexdocは光学式文字認識(OCR)テクノロジーを使用せず、厳しい「手動OCR」を使用しました 。 会社はテンプレートを開発し、スキャンしたドキュメントのどのデータをシステムに入力するかを示しました。 Flexdocは、インドに拠点を置く勤勉なオペレーターのグループに検査のためのスキャンを送信しました。 彼らは画像を受け取り、テンプレートに従って貴重なデータを手動で入力しました。



アーカイブには、20種類以上のパンフレットと天気データが保存されています。 それぞれに少なくとも6種類のページがあり、一部には150を超えるフィールドが含まれています。 検証者の作業を大幅に簡素化するために、2014年にFlexdocはABBYY FlexiCapture Engineを使用してアーカイブをデジタル化しました。



12台のスキャナーと1つのプログラム



最初、Flexdocの従業員は、気象観測日記からページをスキャンしました。 このために、12台のATIZ BookDrive PRおよびPlustek OpticPro A360スキャナーが使用されました。



画像



A4およびA3形式および非標準形式のドキュメントをデジタル化しました。



画像



画像



IT会社の従業員、そしてINMETの専門家がスキャンされた画像の品質をチェックしました。 次に、スキャンがABBYY FlexiCapture Engineに基づいてシステムにインポートされました。 Flexdocの従業員は、ABBYY FlexiCaptureで作成されたドキュメント用のテンプレートを提供し、ABBYY OCRテクノロジーは、ドキュメント上のテンプレートの識別と重ね合わせ、テンプレート内の必要なフィールドの検索、データの抽出を支援しました。 みすぼらしいドキュメントや手書きの記録では、OCRテクノロジーは常にフィールドを認識できませんでした。この場合、Flexdocの従業員はそれらを手動でデジタル化しました。



画像



ブラジルの会社の専門家である85人の検証者によって、さらに情報が検証されました。 研究所のさらに2人の従業員の支援を受けました。気象学者は、気候指標がこの地域の正常範囲内にあることを確認する必要がありました。 その後、データがINMET情報システムに入力されました。



レコード処理スキームは次のようになります。



画像



Flexdocは、Kodak ABR 2400 \ 3000 DSVスキャナーを使用してマイクロフィルムをデジタル化しました。 ムービーを画像に分割し、それらを抽出して、TIFF形式でハードディスクに保存するのに役立ちます。



いくつかの統計



100年以上にわたって収集された気象観測アーカイブの完全なデジタル化には3年かかりました。 すべての履歴データは、紙の形でアーカイブに保存されるだけでなく、容量が870ギガフロップスの大規模で高性能で耐障害性のあるSGI Altix 4700サーバーにも保存されます。



気象観測日記のデジタル版は INMET ウェブサイトで誰でも利用できます。 データを表示するには、登録するだけです。 たとえば、1990年1月から12月のArkoverdi市の気候データのリクエストの結果は次のようになります。



画像



この情報は主に、ブラジルのさまざまな地域の気候条件を分析する必要があるINMETの研究者、学生、および企業によって使用されます。 INMETの履歴データは、気候の進化と天気予報の分析モデルを作成するための基礎になっています。これは気象研究所の科学者によって行われています。



エリザベータ・チタレンコ

ABBYY Corporate Blog Editor



All Articles