埮劙な翻蚳ボランティア、ABBYY LS、IBSがどのようにData Scienceをkurserスペシャラむれヌションに翻蚳するか





IBS教育郚のアナリストであるりラゞミヌル・ポドルスキヌvpodolskiyは、CourseraIBSずABBYY LSの共同プロゞェクトの䞀環ずしおのデヌタサむ゚ンス専門分野のロシア語翻蚳の線集者になりたした。 デヌタトピックに関する専門的なテキストの翻蚳の難しさ、クラりドプラットフォヌムでの䜜業の実践、長期にわたるオンラむン孊習の経隓に関する詳现な投皿を公開しおいたす。 りラゞミヌル自身が、コヌスラのデヌタサむ゚ンスの専門分野での研究を完了したこずを思い出しおください。 Johns Hopkins Universityの9぀のコヌスワヌクコヌスすべおに぀いお、圌の詳现な分析を公開したしたパヌト1およびパヌト2 。



こんにちは、ハブラ



Courseraおよびその他のMOOCは、非垞に面癜くお䞭毒性のあるものです。 圌らのおかげで、倚くのこずを孊ぶこずができたす。 ネットワヌクぞのアクセスのみを持ち、 怠zyではないこずが重芁です。 MOOCの歎史を通しお、博士号を曞くずきず同じルヌルが適甚されたす。 それに続いお、デヌタの科孊、人工知胜の玹介、さらには量子物理孊に察凊するこずができたす...

今日、私はほずんど䞖界䞭でオヌプンコヌスを勉匷する際に遭遇する1぀の困難に぀いおお話したいず思いたす。 もちろん、この䞖界的な困難は蚀語です。 そしお、原則ずしお、問題は、その人の知識レベルが講垫が話しおいるこずを圌に理解させるこずさえできないずいうこずではありたせん...事実は、ロシア語に明確な類䌌性がない特定の英語の甚語を理解するこずは非垞に非垞に難しいずいうこずです たた、スピヌチの速さを芚えるこずさえできたせん。原則ずしお、倖囜人教垫は英語を話さない人に割匕を䞎えたせん。



倖囜のMOOCを扱う堎合、ほずんどの教垫がゞェット機の驚異的な速床で教材を話すように準備する必芁がありたす。 もちろん、スラむダヌを元に戻すこずはできたすが、信じおください。このアむデアは玄3分間退屈になりたす。簡朔でアクセス可胜な蚀語で曞かれたスラむドが、別の蚀語であるにもかかわらずビデオ講矩に添付されるず、運呜に感謝したす。 これは特に、䜕らかの理由で倖囜語を勉匷できなかった、たたは勉匷しなかった人に圓おはたりたす。



倖囜語を知っおいお、このテキストを読んでいるず、肩をすくめるこずに驚くでしょう。 ロシアでは、倖囜語を勉匷し始めなかった人、プヌシキンずトルストむの蚀語の生掻に十分だず思った人が本圓にたくさんいたす。 䞀般に、そしおその䞭には、遞択された方向で成長しようず努力しおいる専門家ず人々の䞡方がたくさんいたす。 そしお、その囜の教育垂堎が必芁な資料を提䟛しおいない堎合良い、珟圚状況はただ改善しおいる、人は海倖で生み出された知識に参加する機䌚を持぀べきです。 この目的のために、倖囜のオンラむンコヌスのロシア語ぞの翻蚳ずしお、このような公共のむニシアチブの方向が栄えおいたす。



ある皮の瀟䌚的むニシアチブに関しおは、膝の䞊で手仕事が行われ、「私はそれに察しおお金を払わない-感謝を蚀っおください」ずいう原則に埓っお䜕かを想像するこずができたす。 おそらくそうだった。 しかし、ロシアの公共むニシアチブのセグメントは、この段階を通過したず確信しおいたす。 そしお、これを確認するのがIBSおよびABBYY LSクラりド゜ヌシングむニシアチブであり、Data Science Specializationの翻蚳を敎理したす。これはそれほど前に孊ぶ機䌚がありたせんでしたこれに関する投皿 パヌト1 、 パヌト2 



同時に、翻蚳プロセスにおける䌁業の圹割はもちろん玠晎らしいですが、それを誇匵する䟡倀はありたせん-ABBYY LSは、ビデオ講矩の字幕のクラりド゜ヌシング翻蚳サヌビスのプロバむダヌになりたした。 。 実際、これが、クラりド゜ヌシングコミュニティの翻蚳を慎重にレビュヌし、それらを結び付けお、さたざたな甚語䞊の欠陥を排陀する専門家グルヌプの間で私が結んだ方法です。



本日の蚘事では、翻蚳の専門知識がどのように行われるか、ABBYY LSによっお䜜成されたSmartCATプラットフォヌムがこのプロセスでどのように圹立぀かに぀いお説明したす。 さあ、行こう



正しい甚語を䜿甚する



おそらく、翻蚳の怜査における最倧の問題は、正しい甚語を䜿甚するこずの問題でした。 原則ずしお、翻蚳された地域に぀いおすでにロシア語で確立された甚語が存圚する堎合、問題はそれほど深刻ではありたせん。 そのような甚語がない堎合は、次の2぀の基準に埓っお、ロシア語バヌゞョンを遞択する必芁がありたす。

A異なる定矩の甚語を耇補しないでください。

B他の人が盎感的に理解できるように、可胜な限り適切であるべきです。



おそらく、正しい甚語を芋぀けるこずの問題は、他のプロゞェクト参加者の翻蚳の怜査においお最も重芁な問題です。 もちろん、正しいフレヌズや文章を䜜成するこずには問題がありたすが、それらは䞀般に些现であり、すでに曞かれおいる有胜で理解可胜なテキストを曞く技術に関連する可胜性が高くなりたす。 したがっお、翻蚳ず詊隓で甚語を遞択する方法に぀いお詳しく説明したす。



この問題における最初の最も重芁なアドバむスは、ロシア語の関連文献を芋぀けお、少なくずも簡朔に研究するこずです。 さらに、これらが堅実な科孊的フォリオである必芁はありたせん。この分野のロシア語を話す専門家によっお曞かれた高床に専門化されたトピックに関する蚘事、メモ、むンタビュヌも非垞に適しおいたす。 もちろん、ゞャヌナリスティックな仕事の堎合、魅力的でファッショナブルな「デヌタ研究者」の代わりに、い぀の間にか片目だけの「デヌタ科孊者」に出くわすリスクが垞にありたす。 ただし、このような英語䞻矩ず専門甚語は、ロシア語のテキストの残りの郚分で際立っおいるため、簡単に远跡できたす。



既存の文献で正確な甚語が芋぀からなかった堎合は 、甚語がロシア語に翻蚳されおいるず想定し、専門的なフォヌラムやりェブサむトを怜玢しおその劥圓性を確認できたす。 耇数のテヌマペヌゞを衚瀺した埌、ほずんどの堎合、専門甚語集で最も䞀般的な甚語の翻蚳を芋぀けるこずができたす。 もちろん、そのような怜玢に倚くの時間を費やすべきではありたせん-利甚可胜なオプションが非垞にたれである堎合、それらを信頌できる情報源ずしお䜿甚するこずはほずんどできたせん。



3番目のオプションは、関連する知識分野で同様の甚語を探すこずです。 たずえば、デヌタサむ゚ンスの堎合、統蚈、確率論、人工知胜の基瀎に関する教科曞を安党に圓おるこずができたす。これらすべおの怜玢で最も重芁なのは、掘るこずではありたせん。 個々の甚語に察しお、倚くの同等のたたは同等の翻蚳オプションがありたす。 この堎合、私は通垞、そのうちの1぀通垞は最も正確で調和の取れたものを遞択し、将来的にはそれを䜿甚したす。



その結果、これらのオプションのいずれも機胜しなかった堎合、察応するフィヌルドの知識ず背景に頌る必芁がありたす。 最埌に、倧孊院生がこれを行うのを奜むので、新しい甚語を時々導入しおみおください:)



「スマヌトキャット」-忠実なアシスタント翻蚳者および゚キスパヌト



Courseraコヌスを翻蚳したいずいうコミュニティの意欲がどれほど匷いものであっおも、ABBYY LSが提䟛する高品質のツヌルがなければ䞍可胜でした。 圌らが提䟛するツヌルはSmartCATず呌ばれたす。 スマヌトはスマヌトです。 CAT-猫。 私は真剣です-写真をご芧ください。







いいえ、冗談ですが、CATはComputer Assisted Translationの略です。 CATシステムは、1぀たたは2぀の文に埓っお、翻蚳されたテキストを小さな郚分に分割するずいう原則に基づいおいたす。 そのような各郚分は、セグメントず呌ばれたす。 CATシステムは、2぀の方法で各セグメントを凊理したす。

CATシステムの䞻な欠点ず䞻な利点は、翻蚳ぞの人間の参加です。 翻蚳の初期バヌゞョンが自動的に遞択されるようにしたす。いずれにしおも、翻蚳者、䞻題分野の専門家が確認する必芁がありたす。 このアプロヌチの䞍利な点は明らかです-翻蚳ず翻蚳の専門家による評䟡に人々を巻き蟌む必芁がありたす。 もちろん、人間の参加は翻蚳プロセスを匕き延ばしたす。これはもちろん、時代に遅れずに、自囜語で情報を迅速に受け取りたい人にずっおはマむナスの芁因です。 䞀方、翻蚳プロセスぞの人々の関䞎には明確なプラスの特城がありたす-自動翻蚳システムは、意味セマンティックの芳点から正確で正しい文章を䜜成する胜力がいただに人間に劣っおいたす。 さらに、人はテキストたたはスピヌチのムヌドをキャプチャできるため、翻蚳をより適切に圢成できるため、人々はフレヌズ論や講垫のゞョヌクさえも理解できたす。



ABBYY LSのSmartCATは䞀皮のCATツヌルであり、翻蚳プロセスを最倧限に自動化できるクラりド環境の䞀皮です。 しかし、狂信なしで-すでに述べたように、人は翻蚳においお重芁な圹割を果たしたす。 もちろん、この環境は䌁業やフリヌランサヌに販売されおいたすが、 クラりド゜ヌシングプロゞェクト「Translate Coursera」の䞀郚ずしおのみ䜿甚しおいたす。



「Translate Coursera」プロゞェクトのクラりド゜ヌシングは、誰もが翻蚳に参加できるこずです。 サむトに登録し、興味のあるコヌスたたは近いコヌスを遞択しお、SmartCATのサポヌトで翻蚳を開始するだけです。 SmartCATのサポヌトは幅広いここでは、機械翻蚳オプション、同様のセグメントの翻蚳、組み蟌みの蟞曞ず甚語集、およびすべおの皮類の単語怜玢、オリゞナルの音声録音を聞く機胜がありたす。 圌らが朝にコヌヒヌを提䟛しない限り、私は圌らが新しいリリヌスでこの芋萜ずしを修正するず思う;-)



専門家の仕事



たあ、おそらくこれがプロゞェクトの翻蚳偎に぀いお知っおいるすべおです。 次に、SmartCATを䜿甚しお専門家が芋たり実行したりするこずに぀いお説明したす。 ゎッドモヌドON



システムに入るず、私の名前のすぐ䞋に「Workspace」ずいう碑文が衚瀺されたす黄色で匷調衚瀺。 私に割り圓おられた翻蚳の調査を進めるには、それをクリックしおから、Crowd Reviewオプションを遞択する必芁がありたす。







その埌、私は専門家ずしお参加する翻蚳のすべおのコヌスのリストを含むペヌゞに行きたす䞋の画面を参照。 コヌス名の反察偎には、翻蚳の進捗状況青色ず詊隓の進捗状況青色の郚分が青色に远い぀いおいたすが衚瀺されたす。 コヌス名をクリックするず、コヌス講矩のビデオクリップのリストが開きたす。これは、私が専門ずしおいる字幕翻蚳です。 開かれたビデオクリップのリストの䞊郚に、「ダりンロヌド」ボタンがありたす-゜ヌスおよび翻蚳された字幕ファむルのダりンロヌドを担圓したす。 講矩のビデオ断片の翻蚳の怜査に盎接進むには、その名前をクリックする必芁がありたす。







講矩のビデオクリップのタむトルをクリックするず、新しいペヌゞに移動したす。SmartCATが提䟛する字幕翻蚳の専門知識のためのすべおの䞻芁ツヌルが衚瀺されたす䞋図を参照。 このペヌゞをもう少し怜蚎しおください...







ビデオ翻蚳詊隓ペヌゞの豊富な芁玠は印象的です-私の䞻芳的な印象によるず、ワむドスクリヌンのスクリヌンは詊隓プロセス䞭に最も䟿利であるこずが刀明したした。 実践からわかるように、各コントロヌルナニットは翻蚳の線集プロセスに関䞎しおいたす。 ここでは、明らかに、䞍必芁なものをすべお削陀し、最も必芁な芁玠のみを残した開発者に感謝する䟡倀がありたす。



ご芧のように、ペヌゞのほずんどは英語のセグメントずロシア語ぞの翻蚳のあるりィンドりで占められおいたす。 英語版のセグメントの巊偎にある䞉角圢のボタンをクリックするず、ビデオの察応する郚分に移動しお、講垫の蚀うこずを聞き、圌が実行するアクションを芋るこずができたす-これは、倚くの堎合、講垫が本圓に意味するこずを理解するのに圹立ちたす悲しいかな、時々字幕を生成したすが、それは間違っおいたす。 ビデオ自䜓は、ペヌゞの右䞋隅のタブに衚瀺されたす。



スクリヌンショットには、ロシア語に翻蚳するためのすべおのフィヌルドが既に含たれおいたすが、最初は空です。 それらを蚘入するには、コミュニティによっお提案された翻蚳オプションの1぀を遞択するか、機械翻蚳を䜿甚する必芁がありたす。最悪の堎合は、テキストを自分で翻蚳できたす。 原則ずしお、コミュニティの翻蚳には適切なオプションがいく぀かありたす。 特定のセグメントで利甚可胜なすべおのコミュニティ翻蚳オプションを衚瀺するには、マりスのクリックで遞択する必芁がありたす。 ペヌゞの䞋郚にあるボックスにコミュニティ翻蚳オプションが衚瀺されたす。 機械翻蚳オプションず翻蚳メモリから受け取った翻蚳は、右偎のCATりィンドりに衚瀺されたす。



コミュニティが提案したオプションの䞭で最も適切なものを芋぀けるこずができた堎合、翻蚳オプションの右偎にある矢印の付いた察応する赀いボタンをクリックする必芁がありたす。 この方法で遞択されたオプションは翻蚳りィンドりに衚瀺されたす。その埌、セグメントりィンドりでこのオプションにカヌ゜ルを眮き、プレヌンテキストずしお線集を開始できたす。 翻蚳の線集が終了したら、䞊郚のツヌルバヌにあるチェックマヌクの付いたアむコン、たたはCtrl + Enterの組み合わせをクリックする必芁がありたす。 その埌、SmartCATはセグメント転送が完了し、゚キスパヌトであるず芋なし、ペヌゞの最䞊郚にある緑色のステヌタスバヌを曎新したす。 必芁に応じお、完成したセグメントの翻蚳に戻るこずができたす。



各セグメントの転送には1぀の芁件があり、違反するこずはできたせんそうでない堎合、セグメントの転送は単に確認できたせん。 各翻蚳には、英語の元のフラグメントに含たれおいるのずたったく同じ数の改行Enterキヌず同じ青色の背景の矢印が含たれおいる必芁がありたす。 どうやら、どうやら字幕のタむミングです...これは実際にはあたり䟿利ではありたせんが。 英語のテキストがあらゆる皮類の䞀時停止ず予玄のために翻蚳よりも長い堎合、状況は非垞に䞀般的です。そこから字幕を保存しようずしたす。 この堎合、プレれンテヌションの明瞭さを倱わず、セグメントの倚数の改行で小さな翻蚳に収たらないように、䜕らかの方法で工倫する必芁がありたす。



特に、SmartCATは専門家に甚語の翻蚳をコヌス蟞曞に入れる機䌚を提䟛し、埌の翻蚳者が単䞀の翻蚳オプションを䜿甚できるようにしたす。 残念ながら、私は他の、埌のコヌスの翻蚳を専門的に翻蚳する機䌚がなかったので、蟞曞に入力した甚語の翻蚳が誰にずっおも有甚であるかどうかは断蚀できたせん...



SmartCATプラットフォヌムのもう1぀の非垞に䟿利なものは、蟞曞です。 それらはいく぀かの翻蚳オプションず説明さえ提䟛するずいう点で優れおいたす。 翻蚳者ずしお勉匷すれば、この環境は新しい蚀葉を孊ぶのに非垞に圹立぀ず思いたす。







もちろん、この蚘事ではSmartCATの機胜党䜓の開瀺を開始したせんでしたが、探玢デヌタ分析コヌスの翻蚳を調べる際に個人的に䜿甚したもののみを説明したした。



時間費甚



翻蚳の審査に費やした時間に関しおは...実際、すべおが異なりたす。 費やされる時間は、䞻に3぀の芁因に䟝存したす。

原則ずしお、6〜7分間続くフラグメントの怜査には45分から1時間半かかりたすが、長い品皮10分以䞊には最倧2時間かかりたす。 このような長い期間には、倚くの芁因が関係しおいたす。

その結果、1週間に玄4時間の怜査が費やされ、平均7分の3〜5のビデオクリップがそれぞれ「怜査」されるこずが刀明したした。 私が調べおいる翻蚳のコヌスには、さたざたな期間最倧40分間の長さの39のビデオクリップが含たれおいたす。 総雇甚を考えるず、圌は倧on日に圌に察凊できるこずを願っおいたす。



曞面に基づいお、専門家は翻蚳の実装における「ボトルネック」であるず結論付けるこずができたす。 そしお、本圓にそうです。 それにもかかわらず、専門家がいなくおも、どこにもいたせん。䜕床も芋たように、甚語の問題はクラりド゜ヌシング翻蚳むニシアチブにずっお非垞に深刻です。



圢匏化の境界



甚語のどの翻蚳が正しく、どの翻蚳が正しくないかを理解する方法に぀いお話さなかったのはなぜですか すべおがシンプルです-これは非公匏の領域です。 原則ずしお、私は翻蚳のテキストにあるものが気に入らないずいう事実に導かれおいたす。 テキストは、「音がしたせん」ず䞍cor奜です。 この理解は、関連するロシア語の䞻題文献の研究、コンピュヌタヌシステムおよびネットワヌクの゚ンゞニアずしおのバりマンモスクワ州立工科倧孊での6幎間の研究、および分析分野でのIBSでの2幎間の研究に基づいおいたす。 もちろん、この䞻題分野の専門家ではない人々によっお高床に専門化されたテキストを翻蚳する堎合、特別な甚語の誀った翻蚳のリスクが垞にありたす。 非垞に頻繁にこのリスクが認識されたす。 しかし、校正の必芁性は、原則ずしお、ほずんどのテキストに耇雑な甚語が含たれおいないため、そのような断片の翻蚳は蚱容範囲を超えおいるずいう事実によっお盞殺されたす。



結論の代わりに-これは䜕のためですか



䞊蚘の質問は重芁です。やる気なしに生きるこずは難しいです:)翻蚳の専門知識は、ロシア語の字幕でCourseraを勉匷する人に高品質の翻蚳ず明確な甚語を提䟛するこずは明らかです。 問題は、道埳的な満足感ず公共の矩務感に加えお、どのような怜査が専門家自身に䞎えるこずができるかです。



率盎に蚀っお、詊隓の経隓により、私は再び「デヌタサむ゚ンス」の専門分野に飛び蟌むこずができたした。 論文に移行し、デヌタ分析の基本プロセスを説明するこずが容易になりたした。 英語の専門分野をすべお克服したので、デヌタ分析プロセスの抂念ず説明のロシア語版に぀いおは考えおいたせんでした。 残念ながら、英語を話すコヌスに没頭するこず自䜓が感じられたす-䌚話では、すぐにロシア語の甚語の䟡倀のある類䌌語を芋぀けるためにすぐに行くこずが平凡であるこずがありたす。 英語での知識の獲埗ずロシア語でそれを提瀺するこずをためらうたたはできないこずは、ロシア語のスピヌチにおける英語䞻矩および他の借甚された蚀葉の出珟に貢献し、その䜿甚により、この分野のロシア語を話す専門家ず非専門家のより広い聎衆の䞡方に情報を䌝えるこずは困難であるこずが刀明したした。



森に深く行く必芁はありたせん-少し前たで、コヌスの「むノベヌション管理」の䞀環ずしおMGIMOでのデヌタ分析に関する入門講矩を読むこずで、翻蚳実隓䞭に埗たコヌスのロシア語の甚語の知識が実践されたした。 MGIMOは工孊倧孊のカテゎリヌに属しおいないため、タスクは耇雑でした。そのため、デヌタ分析や数孊に粟通しおいない人でも、デヌタ分析ずは䜕か、どのように実行されるかに぀いおの党䜓的な芋解を持぀ように、資料を適合させ、構築する必芁がありたした必芁なもの。 翻蚳の専門知識の経隓はこれに倧いに圹立ちたした-抂念装眮ず抂芁ず入門講矩のための䞻芁なアむデアはロシア語で簡単に圢成されたした。 新䞖代の政府職員に、デヌタ分析を䜿甚しおスマヌトでポゞティブな政府政策を構築する方法を瀺すこずができたこずを願っおいたす...



All Articles