ボリショむ劇堎の歎史をご芧ください。 パヌト1

画像



挔劇プログラムを集めたこずがありたすか もしそうなら、あなたのコレクションにはおそらく数十個、たたはおそらく100個ありたす。 12䞇のプログラム、48,000のポスタヌ、10䞇の歎史的な写真を自由に䜿甚できるず想像しおください。 ボリショむ劇堎は、19䞖玀半ばから非垞に倚くの玙の文曞を保存しおいたす。 それらの最も叀く、最も䟡倀のあるものはすでに黄色に倉色し、老朜化し​​おおり、劇堎のアヌカむブで情報を怜玢するのに䜕時間もかかりたした。 これらの宝物を保存するために、劇堎博物通のスタッフは文曞を電子圢匏に手動で翻蚳し始めたしたが、それには䜕幎もかかるこずが刀明したした。



そのため、2016幎9月、ボリショむ劇堎ず、レオトルストむのgreat孫であるテクラトルストむの積極的な支揎を受けお、囜の䞻芁劇堎の歎史をデゞタル化するクラりド゜ヌシングプロゞェクトを開始したした。 この投皿では、プロゞェクトの第1段階の詳现ずその技術的な詳现に぀いお説明したす。ABBYYFineReaderを䜿甚しお䞀意のドキュメントをデゞタル化した方法ず、ボランティアが認識結果を確認する方法を説明したす。



ちょっずした歎史



ボリショむ劇堎は、1776幎3月28日に皇垝キャサリン2䞖によっお蚭立されたした。 劇堎があった建物では、火灜が耇数回発生し、1853幎に最倧芏暡になりたした。 火は3日間燃え䞊がり、ボリショむの歎史的遺産の倧郚分が燃え尜きたした。 それ以来生き残っおいる最叀の劇堎文曞は1830幎のポスタヌです。 他のすべおのポスタヌずプログラムは、1858幎からのみ保存されおいたす。



ボリショむ劇堎のポスタヌ、1830。 写真をクリックしお詳现を衚瀺したす。











ボリショむ劇堎博物通は、最も貎重なアヌカむブをデゞタル化するこずで保存するだけでなく、パフォヌマンス、キャラクタヌ、監督、振付垫、その他倚くの人々に関する情報を誰もがアクセスできるようにしたいず考えおいたした。 ボリショむ劇堎のスタッフがプログラムやポスタヌのデヌタを手動で転茉した堎合、数十幎かかりたす。 それから、劇堎はむンテリゞェントな技術ずボランティアの助けを求めるこずにしたした。 ボランティアプロゞェクト「 ボリショむの物語を発芋する 」のむニシ゚ヌタヌは、Thekla Tolstayaでした。 「ワンクリックですべおのトルストむ」ずいうプロゞェクトですでに圌女ず協力したした。 その埌、2014幎に、 ABBYY認識サヌバヌずABBYY FineReaderの助けを借りお、 3,000人のボランティアの参加を埗お、90巻の収集されたLeo Tolstoyの䜜品の46,000ペヌゞをデゞタル化したした。 珟圚、電子圢匏のすべおの曞籍は、公匏ポヌタルtolstoy.ruで入手できたす。 プロゞェクト自䜓の詳现に぀いおは、 こちらをご芧ください 。



プロゞェクト「ビッグストヌリヌの発芋」では、ドキュメントのコレクションをデゞタル化するだけでなく、ドキュメントから貎重な情報を抜出しお電子アヌカむブを䜜成するずいう課題に盎面しおいたす。



したがっお、プロゞェクトは3぀の段階に分かれおいたす。



画像





このプロゞェクトは、ボランティアがプログラムやポスタヌのデゞタル化されたテキストのチェックを開始した2016幎10月に正匏に開始されたした。 しかし、私たちは少し前に打ち䞊げの準備を始めたした。



2016幎8月ホット



2016幎8月、 スキャナヌのチヌムがボリショむ劇堎に到着したした。 7か月間、圌らはボリショむ劇堎博物通のコレクションから䜕䞇ものプログラムず写真をスキャンしたした。 博物通はすでに独自にこれを行っおいたため、ポスタヌをスキャンする必芁はありたせんでした。



フレンドリヌなスキャナヌチヌム。 巊からニコラむ・アルトゥニン、むリヌナ・アンドリュヌキナ、ドミトリヌ・ネステロフ。



画像



パヌトナヌである富士通は 、2台のFujitsu fi-6770およびFujitsu fi-6750Sフラットベッドスキャナヌず、2台のFujitsu ScanSnap SV600近接スキャナヌをプロゞェクトに提䟛したした 。



タブレットは、バむンダヌに集められ、しっかりず぀ながれたプログラムをデゞタル化するのに圹立ちたした。 それらに぀いおは、䞡面から写真もスキャンしたした。 写真の裏には貎重な情報が含たれおいたす。䜜品の名前、アヌティストず写真家の名前です。



画像



非接觊匏ScanSnap SV600は、倧芏暡で粗末なプログラムのデゞタル化に圹立ちたした。 圌らは非垞に慎重に扱われなければなりたせんでした。



画像



ギャラリヌで、デゞタル化の段階がどのように進んだかを詳しく芋るこずができたす。



スキャンの結果、600 dpiの解像床を持぀TIFF圢匏の写真ず、300 dpiの解像床を持぀JPEG圢匏のプログラムを含むファむルを受け取りたした。



認識しお抜出する



スキャンされたすべおのドキュメントを小さな郚分「パッケヌゞ」に分割したため、参加者にずっお䜜業は難しくありたせんでした。 1぀のパッケヌゞは、1぀のプログラムたたはポスタヌです。 プログラムでは、1枚ず各30枚のシヌトがあり、それぞれ平均4枚です。 幎ごずにパッケヌゞを分割し、番号を付けたした。



次に、スキャンしたドキュメントを認識し、テキストレむダヌを含むPDFファむルを䜜成する必芁がありたした。 テキストレむダヌが必芁な理由 そのため、博物通のスタッフはデゞタル化されたポスタヌやプログラムを閲芧できるだけでなく、情報を怜玢およびコピヌするこずもできたす。 FineReaderは自動的にスキャンを認識し、スキャンした郚分にマヌクを付けたした。テキストは緑色で、画像は赀色で、衚は玫色で匷調衚瀺されたした。



画像



俳優のリストは、ポスタヌずプログラムに衚圢匏で衚瀺されたす。











プロゞェクトの第䞀段階の各参加者は、サむトopenbolshoi.ruに登録されたした。 その埌、圌は個人アカりントに入り、詳现な指瀺を読み、FineReaderの無料版をむンストヌルし、パッケヌゞzip圢匏でアヌカむブされたFineReaderドキュメントをダりンロヌドし、チェックに進みたした。 ボランティアは、゚リアのマヌクアップの正確さを確認し、テキストを読み、デゞタル化䞭に発生する可胜性のある認識の䞍正確さを修正したした。



この段階の参加者は怜蚌者ず呌ばれたす。 2016幎10月から2017幎6月たで、珟圚から始たっお埐々にXIX䞖玀に向かっおプログラムずポスタヌをチェックしたした。



プロゞェクトのWebサむトの䜜成方法に぀いお簡単に説明するず、ネタバレの䞋で読むこずができたす。



クラりド゜ヌシングプラットフォヌム
クラりド゜ヌシングプラットフォヌム



Openbolshoi.ruは、ボランティアが䞀緒に仕事をするためのプラットフォヌムです。 これは、DBMS-MySQLずずもにCMS "1C-Bitrix"の制埡䞋で䜜成されたした。 プログラミング蚀語はPHPです。 プログラムずポスタヌのリポゞトリを䜜成するために、バヌゞョン管理にGITシステムであるAmazon S3が䜿甚されたした。 ToRの準備埌、プロゞェクトはわずか1か月で技術的に実装されたした。



コンポヌネントプラットフォヌム



1.パブリック郚分すべおのナヌザヌが利甚でき、プロゞェクトに関する情報が含たれたす。

2.メンバヌの個人アカりント登録ナヌザヌが利甚でき、パッケヌゞず個人情報を確認するこずを目的ずしおいたす。 個人アカりントで、ボランティアは受け取った荷物の数、評䟡における圌らの堎所、および䞎えられたポむントを芋たした。



画像



3.管理者の個人アカりントボランティアの䜜業を怜蚌するために蚭蚈されたプラットフォヌム管理者のみが䜿甚可胜。

4.プラットフォヌムの管理郚分CMS管理者のみが利甚でき、グロヌバルプラットフォヌム管理に必芁。

5. Amazonファむルストレヌゞパッケヌゞを保存するように蚭蚈されおいたす。



48時間で乗車



各ボランティアは、1぀のパッケヌゞをチェックするために48時間䞎えられたした。 この時間内にドキュメントをチェックする時間がなかった堎合、ファむルは再び䞀般配垃に分類されたした。 そしおすでに別のボランティアが圌をチェックに連れお行っおくれたした。 参加者がパッケヌゞを慎重に時間通りにチェックした堎合、パッケヌゞは受け入れられ、5ポむントがボランティアに䞎えられたした。 参加者が文曞を䞍泚意にチェックした堎合、そのようなパッケヌゞは受け入れられず、ボランティアは10ポむントを倱いたした。



翻蚳の難しさ



ポスタヌのチェックは、校正プログラムよりも難しいこずがわかりたした。 叀いポスタヌやプログラムでは、小さくおがやけたテキスト、耇雑なレむアりト、印刷品質のため、文字が垞に正しく認識されおいたせんでした。



たずえば、1936幎、ボランティアは1日䞭、この倧きくお耇雑なポスタヌを小さな掻字でチェックしたした。 3番目ごずの姓をむンタヌネットで怜玢する必芁がありたした。









たた、このポスタヌでは、以䞋の眲名がほずんど芋えたせん。









ボランティアはしばしば叀いボロボロのポスタヌに出くわしたしたが、その䞀郚は手䜜業で入力する必芁がありたした。 この1883幎のポスタヌでは、ボランティアはタむトルず最初の2列のみを認識したした。これは、ドキュメントの䞀郚が保存されおいないためです。











FineReaderは旧ロシア語を知っおいたすが、参加者が革呜前のポスタヌやプログラムを非定型のプレれンテヌションスタむルず、忘れられおいた文字「i」、「ѣ」、「ѳ」などでチェックするこずは珍しいこずでした。 圌らはコメントにナヌモアを蟌めお曞いた 「18 **のポスタヌをチェックした埌、手が描かれ、「アクション」の代わりに「アクション」を曞く...」。



写真では-1910幎のプログラム



画像



連絡先の技術サポヌト



プロゞェクトの組織委員䌚は24時間䜓制で、ボランティアの質問にメヌル、゜ヌシャルネットワヌク、電話で回答したした。 VKontakteグルヌプでは、ボランティアが倚くの質問をし、積極的に助け合っおいたした。 このように芋えた



画像



参加者は、ナニヌクなドキュメントで芋぀かった興味深い詳现ず異垞な事実も共有したした。









ネタバレの䞋で、私たちはボランティアの他の発芋を集めたした。



最小のポスタヌ、劇堎で忘れられおいたもの、および剥奪者のスヌツを着た40人の女性


























圓遞刞



芚えおいるように、組織委員䌚は各チェック枈みパッケヌゞに察しおポむントを授䞎したした。 ボランティアの評䟡が圢成されたした。 最も掻発な5人の参加者には賞が莈られたした。ボリショむ劇堎のチケットです。 最初の堎所はベルゎロドのむゎヌルアリモフが撮圱し、4,349個の荷物をチェックしたした。 5人の受賞者には、モスクワのガリヌナザリヌナ、サンクトペテルブルクのアレクサンダヌアクセノフ、モスクワのナタリアクレメンティ゚ワ、゚カテリンブルクのラリサオゎロドニコワも含たれたす。 圌らは興味のある䜜品を遞び、ドン・キホヌテ、くるみ割り人圢、雪の乙女、むオランタ、バレ゚ロミオずゞュリ゚ットの初挔に参加したした。











プロゞェクトの最初の段階の他の受賞者のレビュヌはここずここで読むこずができたす 。



さらに、最初の10人のアクティブなボランティアにABBYY FineReaderが莈られたした。 そしお、少なくずも1぀のパッケヌゞをチェックした参加者は、特別な卒業蚌曞を受け取りたした



画像



いく぀かの統蚈



プロゞェクトの第1段階には、60か囜、アメリカ、オヌストラリア、ブラゞル、むンド、䞭囜、カザフスタン、モンゎル、ペヌロッパの倚くの囜、そしおもちろんロシアからの4000人のボランティアが参加したした。



画像






ボランティアのほずんどが䜏んでいる䞊䜍10郜垂







このプロゞェクトには、プログラマヌ、IT専門家、教垫、ミュヌゞシャン、写真家、ゞャヌナリスト、䌁業幹郚、歎史家、退職者、孊生、アヌティスト、䞻婊、アヌティスト、その他倚くの職業の人々が参加したした。











ボランティアのおかげで、わずか9か月ですべおのプログラムずポスタヌをデゞタル化しお怜蚌するこずができたした。 テキストレむダヌを含むJPEGおよびPDF圢匏のプログラムずポスタヌ、およびTIFF圢匏の写真は、すでにボリショむ劇堎博物通に転送されおいたす。











珟圚、プロゞェクトの第2フェヌズが進行䞭で、6,450人のボランティアがすでに参加しおいたす。 デゞタル化されたドキュメントからデヌタを抜出しお敎理するのに圹立ちたす。 この段階では、 ABBYY ComprenoからABBYY FlexiCaptureたで、ABBYYテクノロゞヌの党範囲が関䞎しおおり、ボランティアが人工知胜の䜜業のテストを支揎したす。 これがどのように機胜するかに぀いおは、次の蚘事で詳しく説明したす。 それたでの間、あなたもボランティアプロゞェクト「ビッグストヌリヌを発芋する」のメンバヌになるこずができたす。 今すぐ参加しよう



Elizaveta Titarenko、䌁業ブログABBYYの線集者、

マリヌナ・アントロポワ、ABBYY、特別プロゞェクト䞻任



All Articles