「ワンクリックですべおのトルストむ」どのようにそれをしたか





少し前に、90巻の収集されたレオトルストむの䜜品のデゞタル化を組織し、3000人以䞊のボランティアがこれを手䌝っおくれたした。 このクラりド゜ヌシングプロゞェクトに぀いおは倚くの出版物がありたしたが、技術的な郚分を扱ったものはありたせんでした-この蚘事で説明したす。



そのため、電子曞籍の圢匏ePub、fb2、html、mobi、およびテキストレむダヌを含むPDFトルストむの最も完党な収集䜜品に倉換する䜜業に盎面したした。 それは30幎間制䜜されたした。1928幎から1958幎たで、各巻は5000郚の発行郚数で出おきたした。 電子出版物のリリヌス前、この収集された䜜品は再版されおおらず、垌少品ぞのアクセスがすでに困難になっおいたす。 90巻には、芞術䜜品1〜45巻、日蚘ずノヌト46〜58巻、手玙59〜90巻が含たれたす。 たた、完党にむンデックスで構成された秘密の第91巻もありたした。したがっお、線集者にプロ意識を瀺すために倚くの眠れない倜を䞎えたした。 もちろん、叀兞の創造物の倚くは、以前は電子圢匏で存圚しおいたしたが、すべおではありたせんでした。



適切な技術が手元にあるずき、今日の䜕かをデゞタル化するこずは問題ではありたせんが、そのような倧量のテキストを削陀し、認識の䞍正確さを修正するこずは、無限の時間のリ゜ヌス玄氞遠たたは倚くのヘルパヌを必芁ずする巚倧な仕事です。 そのため、デゞタル化プロゞェクトの䞻な顧客であるレオトルストむ州立博物通ず䞀緒に、クラりド゜ヌシングプロゞェクトを実斜し、校正にボランティアを参加させるこずにしたした。 䟿宜䞊、りェブサむトwww.readingtolstoy.ruが䜜成されたした。



収集された䜜品は、2006幎にロシア囜立図曞通によっおスキャンされ、䜜品甚のPDFファむルテキストレむダヌなしの画像のみ、1぀のボリュヌムおよびこれは400〜600ペヌゞ-1぀のファむルを取埗したした。 ファむルを合わせお4 GBのみを占有したした。



ボランティアがテキストを確認する必芁があったため、ファむルを小さな郚分「パッケヌゞ」に分割するこずにしたした。これにより、䜜業が面倒で退屈ではなく、人々にずっお耇雑で時間がかかるようになりたせん。 20ペヌゞのパッケヌゞがこれらの条件を完党に満たしおいるように思えたした。 したがっお、すべおのPDFファむルはABBYY認識サヌバヌを䜿甚しお自動的にパヌツに「カット」され、各ボリュヌムから玄20ファむルが取埗されたした。初期ペヌゞ数に応じお、圢匏はPDFのたたです。 ペヌゞ数以倖の条件によるボリュヌムの分割に導かれたせんでした。たずえば、1぀の䜜業の終了ず別の䜜業の開始が1぀のパッケヌゞに分類される堎合がありたす。



さらに、結果のパッケヌゞを認識しなければなりたせんでした-これは、 ABBYY FineReader バヌゞョン11を䜿甚を䜿甚しお埓業員によっお行われたした。 通垞、文曞認識はいく぀かのステップで構成されたす。 最初に、ドキュメントをスキャンしたすたたは、この堎合のようにプログラムで終了したスキャンを開きたす。次に、プログラムがドキュメントを分析し、領域むメヌゞ認識されない、぀たりテキストが抜出されない、テキスト、衚、脚泚をマヌクしたす。 その埌、プログラムは認識すべきすべおを認識し、すべおが正しく行われたかどうかを確認する機䌚がありたすスキャンを認識結果ず比范したす。



そのため、埓業員はFineReaderでスキャンを「実行」し、マヌキング゚リアで䜜業したしたボランティアは認識を確認する必芁がありたした。 そしお、ここで最も難しい興味深いこずが始たりたした。 すべおのボリュヌムを分析し、テキスト、衚、脚泚、たたはフッタヌずしお認識される必芁があるものず、画像を残すために䜕を認識するかを決定し、これに埓っおマヌクアップを修正する必芁がありたした。 カバヌ画像を写真、数匏、手曞きメモ、トルストむの絵ずしお残すこずにしたした。



ボリュヌムの1぀のカバヌFineReaderの暙準レむアりト「画像」領域は赀で匷調衚瀺され、「テキスト」は緑、「テヌブル」は玫です







トルストむの手曞きメモ







たずえば、ABCの䞀郚の䜜品では、倚くの写真ず非垞に少ないテキストがありたした。ペヌゞのコンテンツのほずんどに画像が残っおいるず刀断したした。 そのため、FineReaderの領域を自動的にマヌクしたす。







そしお、それは私たちにずっおずおも䟿利でした







䞀郚のボリュヌムの出力では、䞀郚の姓がフレヌムで囲たれおいたす。このような堎所も画像ずしおマヌクされおいたす。 テキストをさらに凊理するために、ペヌゞ番号をフッタヌ領域でマヌクするず䟿利でした。 トルストむの巻の1぀では、過ぎ去った幎の物語および叀いロシア語の他の䜜品からの抜粋が䞎えられたす。 FineReaderはこの蚀語を認識しないため、このようなフラグメントが画像ずしお定矩されおいるテヌブルを最初に準備したした。







この方法でマヌクされ、認識されたペヌゞは、FineReaderドキュメントたたはパッケヌゞのネむティブ圢匏で保存されたした。 このようなドキュメントは、倚数のファむルを含むフォルダヌを衚したす。 ボランティアがサむトから1぀のファむルでパッケヌゞをダりンロヌドできるように、ドキュメントはzipでアヌカむブされたした。 パッケヌゞの準備が敎うず、特別に䜜成されたプロゞェクトサむトに投皿され、そこからボランティアがダりンロヌドしお確認できたす。 サむトの䜜成方法に぀いお簡単に説明するず、興味のある人はネタバレの䞋で読むこずができたす。



クラりド゜ヌシングプラットフォヌム
クラりド゜ヌシングプラットフォヌム



非垞に短い時間で倚数の人々ボランティアがコラボレヌションするためのプラットフォヌムを䜜成する必芁がありたした。プラットフォヌム自䜓を開発するのにたった1か月しかかかりたせんでした。



プラットフォヌムはMySQL DBMSず組み合わせおRubyで䜜成され、BitBucketシステムはリポゞトリおよび開発管理ずしお䜿甚されたした。 コンポヌネントプラットフォヌム



1.情報郚分プロゞェクト、ニュヌス、FAQなどに関する静的ペヌゞで構成されたす

2.アプリケヌションナヌザヌ、ブック、パッケヌゞ、プロセスを管理

3.゜ヌス内のファむルストレヌゞ、および本フラグメントのすべおの䞭間状態。



プロゞェクト党䜓の信頌性の高い運甚のために、スケヌラビリティを備えたAmazonクラりドベヌスのアヌキテクチャが䜿甚されたした。



プロゞェクトの結果に続いお、そのような技術統蚈が収集されたした。



•ピヌク負荷-1秒あたり6リク゚スト、平均2〜3

•ピヌク-プロゞェクトの最初の週に9600人のナニヌクビゞタヌ、3日目に3000人6月20日

•最倧出垭者12.00-18.00、午前4〜6時間。





このプロセスの仕組みは次のようになりたした。Webサむトwww.readingtolstoy.ruに登録されたボランティアは、個人アカりントにアクセスし、そこで20ペヌゞの1パッケヌゞを確認のために取埗できたした。 ボリュヌムに衚瀺される順序でパッケヌゞがナヌザヌに発行されたため、ボリュヌム党䜓がより速く収集されたす。







すべおの参加者は、2013幎末たで有効なABBYY FineReader 11 Professional Editionのラむセンスを受け取りたした。 このプログラムは、トルストむで䜿甚されおいる認識蚀語-旧ロシア語のスペル、英語、フランス語、ドむツ語、ギリシャ語などが既に構成されおいたす。



ボランティアには2぀のタスクが割り圓おられたした。 1぀は、゚リアの正しいレむアりトを確認するこずです。 泚意深い読者は蚀うだろう-結局のずころ、これは最埌の段階ですでに行われおいる。 しかし、゚リアの正しいマヌキングを認識するず成功の玄半分になるため、ボランティアはドキュメントが正しくマヌクアップされおいるこずを確認する必芁がありたした。 2぀目は、䞍正確に認識された文字を確認し、認識結果を元の゚ラヌず修正しお゚ラヌを比范するこずです。 ゚ラヌには2぀のタむプがありたした。テキストスキャンの品質が悪いず段萜の配眮で文字が正しく認識されたせんでした-段萜が時々接着されたり、逆に必芁のないずころで壊れたりしたした。







たた、ペヌゞレむアりトを調敎する必芁がありたした。あるペヌゞから別のペヌゞに単語を転送する堎合、単語を「接着」しお、ペヌゞの1぀に完党に残す必芁がありたした。 ボランティアを助けるために詳现な指瀺が䞎えられたした。



荷物は48時間以内に確認し、サむトに返送する必芁がありたした。 思い出したように、参加者はアヌカ​​むブされたファむルをダりンロヌドし、同じ圢匏でサむトにアップロヌドする必芁がありたす。 パケットが返されなかった堎合、2床目に送信されたした。 チェックされたパッケヌゞに察しおポむントが授䞎され、最も掻発な参加者が賞品を受け取りたした-Onyx電子曞籍、ABBYY FineReaderプログラム、その他のギフト。 そしお、䞻人公はダスナダポリダナ博物通敷地ぞの2日間の遠足に行き、そこで䜜家フィペクラトルストむの偉倧な孫嚘やプロゞェクトの他の䞻催者ず個人的にチャットするこずができたした。



実際、私たちのむニシアチブがトルストむの読者の間でそのような積極的な反応を受け取るずは思っおいたせんでしたが、人々はプロゞェクトのりェブサむトの開蚭に関する蚘者䌚芋ですでに登録を開始し、収集された䜜品党䜓がわずか2週間でチェックされたした。







プロゞェクトの第1フェヌズには1,600人の参加者が集たりたした。



パッケヌゞのチェックを開始したずき、䜜業の質は異質でした。 ほずんどのボランティアは責任を持っお問題に取り組みたしたが、間違いがありたした。 ほずんどのパッケヌゞをチェックした埌、2回目のラりンドが始たりたした。いわゆる「監査人」が同じパッケヌゞをチェックしたす。



審査員は、新しいボランティアだけでなく、良い仕事をした最初のラりンドの参加者でもありたす。 すべおの申請者は、テキストの怜蚌に関連する質問を含むテストを受ける必芁がありたした。 審査員は完成したパッケヌゞをチェックし、゚ラヌを修正し、最初のラりンドの参加者に远加の評䟡を䞎えたした。その埌、䞻催者はそれに泚意を向けたした。



その埌、パッケヌゞはサむト䞊の特別なデヌタベヌスに到着したした。 1぀のボリュヌムのすべおのパッケヌゞの準備が敎うず、プロゞェクト管理者はこれを芋お、サむトからすべおのボリュヌムパッケヌゞをダりンロヌドし、開発者が䜜成した特別なナヌティリティを䜿甚しお1぀のドキュメントFineReader圢匏のたたに戻したした。 次に、埓業員は、ペヌゞ番号などが壊れおいるかどうか、圌が正しく組み立おられたかどうかを確認したした。 その埌、完成したボリュヌムは管理者に戻されたした。



審査員の仕事の質は賞賛に倀するものではありたせんでしたが、私たちはそれを安党にプレむしたいず考え、3回目のテキスト怜蚌を行いたした。 ボランティアの䞭から、初期段階でよく働いおいた30人を遞びたした。圌らは「線集者」になり、この段階で少数の新しいボランティア蚀語孊者ずプロの線集者が加わりたした。



線集者はボリュヌム党䜓のみを取埗でき、怜蚌のために1週間が䞎えられた埌、その人はドキュメントをサむトにアップロヌドし盎す必芁がありたした。 線集者がボリュヌム党䜓を怜蚌する時間がない堎合、怜蚌されたペヌゞの数を瀺しお、ボリュヌムをサむトにアップロヌドしたした。 プロゞェクトのこのラりンドでは、ボランティアは非垞によく働いたため、玙の版で事実䞊の誀りを芋぀けさえしたした。たずえば、線集者のむニシャルがボリュヌムの出力で誀っお瀺されおいたした。



怜蚌の第3段階の埌、管理者はボリュヌムをMS Word圢匏に゚クスポヌトし、スタップディタヌに怜蚌のために送信したした。 ゚ディタヌはファむルを再床読み取り、WordファむルずFineReader゜ヌスパッケヌゞの䞡方で修正が行われたしたその埌のファむルから他の圢匏ぞの保存を容易にするため。



プロゞェクトの結果、次のタむプのファむルを取埗する必芁がありたした。



1.テキストレむダヌを含むPDF

2. Html、および電子曞籍甚のFB2、epub、mobi圢匏のファむルこの段階で、WEXLERのパヌトナヌが䜜業に参加し、受け取ったファむルを電子曞籍圢匏に倉換する䜜業を行いたした。この䜜業の詳现に぀いおは、センタヌ長の蚘事を参照しおください゜フトりェア開発䌚瀟WEXLER Sattara Gyulmamedova。



さお、結果に぀いお少し。 49か囜から3249人のボランティアがプロゞェクトに参加したした。 党䜓ずしお、䜜業の結果によれば、670冊の本が埗られ、そのうち91冊は元の収集䜜品のボリュヌムず同䞀であり、579䜜品はボリュヌムから「抜出」されおいたす。 合蚈で2084個のファむルがありたす。 91巻では、htmlバヌゞョンのみが䜜成されたした。このポむンタヌは電子曞籍の圢では面癜くないためです。たた、9䜜品に぀いおは、いく぀かの圢匏の制限によりfb2バヌゞョンを䜜成したせんでした。



すべおの電子曞籍は、トルストむ専甚の公匏ポヌタルで入手できたす。 たた、プロゞェクトのりェブサむトwww.readingtolstoy.ruには、Leo Tolstoyの䜜品をダりンロヌドしたすべおの人が自分自身をマヌクできるむンタラクティブなマップがありたす。その結果、ナヌザヌの間で最も人気のある䜜品ず最も掻発な読者のいる囜ず地域に぀いお興味深い統蚈が取埗されたす。







もちろん、トルストむの収集した䜜品をデゞタル化する䞻な目暙は、すべおの読者に䜜家の遺産ぞのアクセスを提䟛するこずですが、利益はそれだけではありたせん。 電子圢匏のトルストむのテキストは、蚀語研究者にずっお非垞に興味深いものです。 これらの研究の1぀に぀いお、次のいずれかの蚘事でお䌝えしたいず思いたす。






All Articles