Mail.Ruメヌル䞭囜語であっおも

私たちは喜びを分かち合いたいず思っおいたす。メヌルをUTF-8に正垞に転送したした。 アラブ人、䞭囜人、日本人、ギリシャ人、グルゞア人ず簡単に連絡を取り、ヘブラむ語やむディッシュ語で手玙を曞いたり、フェニキア人の曞く知識を芋せたり、メモでメッセヌゞを暗号化するこずができたす。 同時に、受取人が正方圢や「詐欺垫」ではなく、送ったものを正確に受け取るようにしおください。



倚くの䞻芁な倉曎ず同様に、移行プロセスには真剣な準備が必芁で、倧きな「氎䞭」郚分がありたした-開発者は、1億以䞊のメヌルボックスで6ペタバむトの手玙を凊理するタスクに盎面したした。 最初の実隓は2010幎の秋に始たり、2011幎の春にすべおのボックスが新しいシステムに正垞に転送されたした。 同時に、「mail」プロゞェクトのドメむンが象城的に倉曎されたした。メむンドメむンwin.mail.ruず、適切な゚ンコヌディングでサむトを発行した歎史的なkoi.mail.ruおよびmac.mail.ruの代わりに、e.mail.ruが䜿甚され、すべおが発行されたす。 UTF-8のペヌゞ。 すべおのメヌルもUTF-8で保存、凊理、衚瀺されたす。 これは、文字では、プレヌンテキストの圢匏ず曞匏蚭定の䞡方で、生きた蚀語ず死んだ蚀語、数孊蚘号ず音楜蚘号を䜿甚できるこずを意味したす。



最近の囜際コミュニケヌションの状況を思い出させるために、゚ンコヌディングの歎史に぀いおの短い説明を甚意したした。



初めに図がありたした



驚くべきこずに、80幎代に最初のネットワヌクナヌザヌを苊しめ、90幎代に初期のRunetの惚劇であったメッセヌゞ゚ンコヌディングの問題は、コンピュヌタヌが登堎するずっず前に発生したした。 情報化時代の最初の原因の1぀は電信でしたが、電話が元々デゞタルである前から生たれた通信方法であるこずを芚えおおくず、今では倚少の努力が必芁です。



玔粋なモヌルスバむナリコヌドずは別に、暙準になる最初のコヌドはBodoコヌドでした。 この5ビットの同期コヌドにより、電信は1分あたり玄190文字その埌最倧760文字たたは1秒あたり16ビットを送信できたした。 ちなみに、最初のモデムを買った人は、速床がボヌでリストされおいたこずを芚えおいたす-コヌドず高速電信装眮の発明者゚ミヌル・ボヌドヌにちなんで名付けられた枬定単䜍。



速床の単䜍の名前に加えお、Bodoコヌド、たたはそれに基づいお䜜成されたITA2暙準は、最初のキリル文字゚ンコヌディングであるMTK-2電信コヌドの゜ヌスになったこずで泚目に倀したす。 ロシア語の文字を転送するために、コヌドに3番目のレゞスタLATおよびDigital Significance Digitに加えおRUSが远加され、各レゞスタの6桁があるため、31ビット圓時のアルファベットを5ビット暙準のProcrusteanボックスに入れる必芁があるため、すぐにトリックが開始されたしたサヌビスシンボルで忙しかった。 たずえば、文字をラテン文字でSMSのアマチュアに広く知られおいる数字4に眮き換える手法は、20䞖玀半ばにAll-Union芏栌にenられたした。 むンタヌネット時代にすでに出珟する別の興味深い点は、異なるレゞスタヌのコヌドの音順であり、文字順ではないこずです぀たり、キリル文字列ABVGDはABCDEではなくラテン語ABVGDに察応しおいたした。



すべおのコンピュヌタヌが同等に圹立぀わけではありたせん



コンピュヌタ時代が始たるずすぐに、文字゚ンコヌドは開発の新しいブランチであるバむナリ10進コヌドBCD-バむナリコヌド10進を受け取りたした。 遠い1928幎、同瀟の開発者は、19䞖玀初頭に登堎したパンチカヌドに情報を蚘録する技術を論理的なフィナヌレに持ち蟌みたした。 12行80列のグレヌベヌゞュの長方圢は、叀い䞖代の研究者党員に蚘憶されおいたす。 30幎埌、50幎代の終わりに、6ビットBCDコヌドが最初に導入され、すぐに8ビットEBCDICが導入されたした。



この瞬間から、2぀の興味深い傟向が生じたす。さたざたな゚ンコヌド方匏の爆発的な成長少なくずも6぀のバヌゞョンのEBCDICがあり、盞互に互換性がありたせんおよび「テレグラフィック」ず「コンピュヌタヌ」゚ンコヌド暙準間の競合です。 その埌、60幎代前半、より正確には1963幎にベル研究所で、Bodoコヌドに代わる新しい7ビットASCII゚ンコヌディングが開発されたした。 このむベントの重芁性は、過倧評䟡されるこずはほずんどありたせん。アメリカおよび他の英語圏の囜にずっお、これはデヌタ䌝送の暙準化の問題圓時はテレタむプによるをすべお解決したためです。



しかし、゚ンコヌドの問題を自分たちで解決したため、アメリカは意図的にかどうかにかかわらず、英語を話さない他のすべおの囜、特にラテン文字を曞かない人のためにそれを䜜成したした。 英語の発音区別笊号文字に察する䜙分なストロヌクのみが異なる蚀語の堎合、抜け穎がBSシンボルの圢で開けられたした-ステップに戻りたす。 ある文字を別の文字の䞊に印刷し、タむプ「a BS '」のシヌケンスから文字áを取埗するこずができたした。 「ナショナル」シンボルに぀いおは、「オヌプンポゞション」が予玄されおいたした-最倧10個。



「ビットの節玄」に぀ながる基本的な「通信」゚ンコヌド完党な8ビット゚ンコヌドのアむデアは議論されたず考えられおいたすが、䜙分なデヌタストリヌムを生成し、送信をより高䟡にするため拒吊されたず考えられたす 。 実際、テレタむプでは1぀の䜍眮で8ビットをパンチングするこずができ、この同じ8ビットがパリティに䜿甚されたした。 ナショナルキャラクタヌを保存するためのナショナル゚ンコヌディングの開発に関䞎したのは圌であり、グロヌバルバヌゞョンではASCIIは8ビット゚ンコヌディングになりたした。 そしお、厳密な暙準化が終了したのはこの8ビット目で、ASCIIが非垞に䟿利になりたした。



バベルバベル



パヌ゜ナルコンピュヌタヌ、ロヌカラむズされたオペレヌティングシステム、そしおグロヌバルネットワヌクの急増に䌎い、゚ンコヌディングでラテン語を1぀もできないこずが明らかになり、さたざたなメヌカヌが倚くの囜内゚ンコヌディングを䜜成し始めたした。 実際には、それほど前のこずではありたせんが、これは、手玙を受け取ったり、倱敗したWebペヌゞを開いたずきに、ブラりザヌが目的の゚ンコヌドをサポヌトしおいない堎合、テキストではなく「クラッカヌ」が衚瀺されるリスクがあるこずを意味したした。 そしお、よくあるこずですが、各倧手メヌカヌは競合他瀟を無芖しお、独自のオプションを正確に宣䌝したした。



さらに、各゚ンコヌディングには独自の利点がありたした。 たずえば、サヌバヌシステム、および重芁なこずに、電子メヌルを操䜜するための最初のプログラムでは、KOI-8゚ンコヌドが最も䞀般的でした。 UNIXに密接に関連するものの堎合によくあるように、いく぀かの非垞に成功した構造特性がありたした。 特に、ロシア語の文字のシヌケンスは、アルファベット順ではなく、音声察応が保存されおいる電信暙準MTK-2から取埗されたした。 したがっお、8ビット目が倱われるず、キリル語のテキストは音蚳に倉わり、名目䞊の読みやすさ、぀たり「Hello world」が維持されたすが、䞊䜍ビットがなければ「pRIWET、MIR」のように芋えたす。 そしお、レゞスタの反転に特別な泚意を払っおください。それはランダムではありたせんが、ビットの損倱がすぐに目立぀ように特別に䜿甚されたす。 KOI-8の䞻なラむバルであるWIN1251゚ンコヌディングで蚘​​録された有名なフレヌズで同じ操䜜を行うず、読みにくい「Ophber、lhp」が埗られたす。



そしお、電信の遺産に぀いお話しおいるので、おそらく電子メヌルを仮想電信装眮にする最も重芁な機胜がすべおのデヌタを7ビット圢匏で送信するこずであるこずは蚀うたでもありたせん。 はい、䜕らかの方法で電子メヌルを送信するためのすべおの暙準は、玔粋なASCIIテキストの圢匏でデヌタラテン文字、画像、ビデオで曞かれおいないテキストを再コヌディングしお送信したす。 最も有名なトランスポヌトコヌディング方法は、Quoted-printableずBase64です。 最初のバヌゞョンでは、ラテンASCII文字は再コヌディングされたせん。これにより、ラテン文字が優勢なメッセヌゞが条件付きで読み取り可胜になりたす。 ただし、Base64は、珟圚のトランスポヌトコヌディングの䞻な方法ずしお䜿甚されおいるデヌタ転送により適しおいたす。



空の星の数ず䞖界のすべおの蚀語の文字



しかし、囜のアルファベットの問題に戻りたす。 90幎代初頭、グロヌバリれヌションプロセスは、゚ンティティを生成する傟向に勝ち、Apple、IBM、Microsoftなどの耇数の倚囜籍䌁業が䞀緒になっおナニバヌサル゚ンコヌディングを䜜成したした。 この組織は「Unicodeコン゜ヌシアム」ず呌ばれ、その成果はUnicodeでした。これは、ほがすべおの䞖界の蚀語数孊蚀語-数匏、挔算などの蚘号-および楜譜を単䞀のシステムで衚珟する方法です。



通信チャネルの容量は、電信および最初の倧西掋暪断ケヌブル以来倧幅に増加したため、ビットを節玄しないこずはすでに可胜であり、゚ンコヌドの普遍性ず拡匵性が優先事項になりたした。 ぀たり、既存のすべおの各囜語ず蚘号象圢文字を含むを含めるだけでなく、将来のための準備金も甚意する必芁がありたした。 したがっお、Unicodeの最初のバヌゞョンでは、16ビットの固定サむズの文字が䜿甚されおいたした。



この圢匏では、暙準では最倧65,536文字の゚ンコヌドが蚱可されおおり、これは最も頻繁に䜿甚される文字を含めるのに十分であり、たれに「カスタム文字領域」が提䟛されたした。 たた、最初の段階では、最も有名な゚ンコヌディングがすべお暙準に含たれおいるため、倉換の手段ずしお䜿甚できたす。 1991幎10月にリリヌスされたUnicodeバヌゞョン1.0.0には、通垞のラテン文字ずその修正に加えお、キリル文字、アラビア文字、ギリシャ文字、ヘブラむ語、䞭囜語、日本語の文字、コプト語およびチベット文字が含たれおいたす。 その埌、文字セットが成長したしたが、蚀語が削陀されるこずもありたしたが、その埌になっお初めお新しい堎所に戻りたしたチベット語や韓囜語の文字など。



しかし、開発者は非垞に迅速に、さらに深刻な拡匵の可胜性を「築く」こずを決定し、同時にシンボルの固定サむズを攟棄したした。 その結果、可倉長文字ずコヌド倀を衚すさたざたな方法が䜿甚されるようになりたした。 2001幎、バヌゞョン3.1では、暙準は実際に16ビットのしきい倀を超え、94,205コヌドをカりントし始めたした。 このバヌゞョンでは、ペヌロッパおよびビザンチン音楜の録音に加えお、40,000人以䞊の統䞀された䞭日韓のキャラクタヌが远加されたした。 2006幎からは楔圢のWebペヌゞを発行でき、2009幎からはVedic Sanskritに察応し、2010幎からは写真圢匏の錬金術シンボルを挿入せずにホロスコヌプを入力できたす。 その結果、珟圚この芏栌には93の「蚀語」があり、109,449コヌドを䜿甚しおいたす。



珟圚、Unicode暙準にはいく぀かの圢匏の衚瀺があり、構造ず範囲の䞡方が異なりたすが、埌者の違いは埐々に滑らかになっおいたす。 グロヌバルネットワヌクおよびデヌタ転送で最も䞀般的な衚珟圢匏は、UTF-8゚ンコヌディングになりたした。 これは、可倉長文字理論䞊は1〜6バむト、実際には最倧4を䜿甚した゚ンコヌドです。 最初の128桁は1バむトで゚ンコヌドされ、䞋䜍互換性を維持するためにASCII文字ず䞀臎したす。暙準サポヌトのないプログラムでも、ラテンアルファベットずアラビア数字が正しく衚瀺されたす。 次の1920文字の゚ンコヌドには2バむトが䜿甚されたす。この領域には、発音区別笊号付きのラテン文字、ギリシャ語、キリル文字、ヘブラむ語アラビア語、およびシリア文字などがありたす。 残りのほずんどすべおのスクリプトず数孊蚘号は3バむトで゚ンコヌドされ、メモ、絶滅した蚀語、および珍しい挢字の4バむトのレコヌドが残りたす。



䞖界の支配ぞのずげを通しお



15幎以䞊もの間、Unicodeのような普遍的な暙準でさえ、ネットワヌク支配ぞの盎接の道を歩むたでにかかった。 これたでのずころ、すべおのサむトがナニコヌドをサポヌトしおいるわけではありたせん-Googleによるず、2010幎にのみ、グロヌバルネットワヌクにおけるナニコヌドペヌゞのシェアは50に近づきたした。 ただし、サヌビスをさたざたな囜の倚数のナヌザヌが䜿甚しおいる倧芏暡プロバむダヌは、この暙準の利䟿性を認識しおいたした。 珟圚、同じテクノロゞヌがMail.Ru Mailに適甚されおいたす。



あずがきの代わりに



゚ンコヌディングの開発の歎史は、仮想空間が驚くほど珟実䞖界の境界ず障壁を継承できるこずを明確に瀺しおいたす。 そしお、ナニコヌドの導入ず成功は、これらの障害をいかにうたく克服できるかずいうこずです。 同時に、情報技術の未来を決定する掻動を行っおいる䌁業による新技術の開発ずその成功した適甚は非垞に密接に関連しおいるため、原因ず堎所を特定するこずは困難です。 しかし、開発段階で暙準に定められた機胜が埐々に䜿甚されおいるこずは簡単にわかりたす。 これにより、情報の䞖界では、䞀時的な利益や地域の問題の最も簡単な解決策を匕き出すのではなく、最初から未来を目指したプロゞェクトが最倧の成功を収めるこずを期埅できたす。



よろしく

セルゲむ・マルティノフ

Mail.Ru Mailのヘッド



All Articles