むンタヌネット䞊の英語、ドむツ語、ロシア語、䞭囜語、その他の蚀語の䞖界的な重芁性デヌタマむニング





このマップの䞭心蚀語には最倧数の話者がいない堎合がありたすが、゚リヌトのコミュニケヌションの「共通」蚀語ずしお機胜したす。



ビッグデヌタの若い方向には、新星ず有望なリヌダヌがいたす。最も印象的なのは、䞖界のさたざたな囜間の貿易関係に関するデヌタを芖芚化するためのオンラむンプラットフォヌムであるMIT Media Labの教授であり、 Wired誌によるず、それは䞖界を倉えるでしょう」ずのこずです。



数幎前、シヌザヌず圌の仲間は、むンタヌネット䞊の蚀語ノヌドの関係を探求したかった。 蚀語は、技術的なものから人口統蚈的なものたで、さたざたな理由で重芁性が異なりたす。 目暙は野心的に蚭定されたした-単玔な人口統蚈および経枈指暙に䟝存しない蚀語のグロヌバルな重芁性を決定するこず。 以䞋の投皿で、その由来に぀いお読んでください。



3぀のグロヌバル蚀語ネットワヌクGLNの基本情報は英語䞭倮ず、あたり䞀般的ではないスペむン語、ドむツ語、フランス語、ロシア語、ポルトガル語、䞭囜語に含たれおいたす。 この蚀語の重芁性は、それを話す人気のある人々の数に盎接䟝存しおいたす。 GLNでの蚀語の䜍眮は、スピヌカヌず圌らが䜜り出す文化的コンテンツに泚意を匕くのにも圹立ちたす。



もちろん、最初の質問は、蚀語のグロヌバルな圱響をどのように枬定するかです。 この研究の前は、ネむティブスピヌカヌのサむズず幞犏に頌っおいたした。 しかし、歎史的に、蚀語の普及には深刻な政治的支揎が必芁でした。したがっお、そのような指暙は、そのスピヌカヌずその富が比范的小芏暡に集䞭できるため、グロヌバル蚀語に倧きな圱響を䞎えたせん。 蚀語のグロヌバルな圱響を枬定する別の方法は、話者間の関係だけでなく、誰がそのキャリアであるかを刀断するこずです。 蚀語孊者のデむビッド・クリスタルは次のように述べおいたす。「蚀語の人気は話者の数ずは䜕の関係もありたせん。 さらに重芁なのは、圌らが誰なのかです。」 過去には、ラテン語は汎ペヌロッパ蚀語でしたが、それはほずんどのペヌロッパ人の母囜語であったためではなく、ロヌマ垝囜の蚀語であり、埌にカトリック教䌚、科孊者および教垫であったためです。 ゚リヌトによるラテン語の䜿甚ずそれらの間の぀ながりは、圌女が1000幎以䞊にわたっお普遍的な蚀語ずしお持ちこたえるのを助けたした。



同時に、珟代の䞖界では、蚀語マップは次のようになりたす再び。



フルサむズ

たず、ナネスコによっお蚭蚈された220䞇件を超える本の翻蚳のコレクションを芋おみたしょう。 このデヌタセットを䜿甚するず、著者やプロの翻蚳者による曞籍翻蚳のネットワヌクを衚瀺できたす。 異なる蚀語の本に察する垂堎の需芁に基づいお構築されたした。 ある蚀語から別の蚀語ぞの翻蚳はそれぞれ接続を圢成したす。 次に、りィキペディアの線集者が䜿甚する倚蚀語ネットワヌクをマッピングしたす。 ここでは、ナヌザヌがりィキペディアのある蚀語バヌゞョンの蚘事を線集し、かなりの確率で別の蚀語バヌゞョンの蚘事を線集するず、蚀語間の接続が圢成されたす。 最埌に、Twitterで蚀語共有ネットワヌクをマップしたす。 ここで、ナヌザヌが1぀の蚀語でメッセヌゞを曞き蟌み、高い確率で別の蚀語でメッセヌゞを曞き蟌む堎合、接続が圢成されたす。



䞀郚の蚀語は䞖界の他のほずんどの蚀語間で盎接および間接の翻蚳パスを提䟛するため、蚀語には䞍均衡な圱響力がありたす。 たずえば、むギリス人がスペむン人の蚀葉を理解できるようにするには、英語ずスペむン語のバむリンガルのネむティブスピヌカヌが必芁です。 ただし、マプドゥングンのネむティブスピヌカヌは、たずえば、ベトナム語-英語、英語-スペむン語、スペむン語-マプドゥングンずいうパタヌンに埓っお、回避策を介しおのみベトナム語の単語を理解できたす。 どちらの堎合も、スペむン語ず英語はコミュニケヌションプロセスに関䞎し、グロヌバルな蚀語ずしお機胜したす。





フルサむズ

これらの図では、GLNの衚瀺に䜿甚する3぀の独立したデヌタセット間に類䌌点がありたす。 䞀番䞊の行は、3぀のデヌタセットすべおの各蚀語の匏の数の関係を瀺しおいたす。A蚀語でのWikipedia蚘事の線集ず蚀語からの本の翻蚳。 B蚀語でのツむヌトずその蚀語の本の翻蚳。 CりィキペディアのTwitterナヌザヌおよび゚ディタヌ。 䞋の行は、異なるデヌタセットの蚀語ペアの同䞀フレヌズの数の関係を瀺しおいたす。D本の翻蚳ずりィキペディアの線集者の総数。 ETwitterナヌザヌず本の翻蚳の総数。 FTwitterナヌザヌずりィキペディア線集者。 DおよびEでは、ある蚀語から別の蚀語ぞの平均翻蚳数を䜓系化したした。





グロヌバル蚀語の圱響



論理的には、ノヌドの1぀にいるむギリス人は、ネパヌルの居䜏者よりも蚀語ネットワヌクに圱響を䞎える方が簡単です。 蚀語がグロヌバルになればなるほど、その䞊にコンテンツを䜜成し、あたり人気のない蚀語の情報をそれに倉換するむンセンティブが増えたす。 たずえば、䞖界䞭の䞻芁なむベントに関する蚀葉を広めたいレポヌタヌは、グロヌバルな蚀語でそれを行いたす。





フルサむズ

GLNでの蚀語の䜍眮ずネむティブスピヌカヌのグロヌバルな圱響が瀺されおいたす。 䞀番䞊の行は、AGLN Twitter、BGLN Wikipedia、およびCGLNの蚀語の固有ベクトルの䞭心性の関数ずしお、少なくずも26蚀語バヌゞョンのりィキペディアで蚘事が曞かれたネむティブスピヌカヌ1800-1950幎生たれの数を瀺しおいたす本の翻蚳。 䞋の行は、DGLN Twitter、EGLN Wikipedia、およびFGLN book translationsの蚀語自身のベクトルの䞭心性の関数ずしおHuman Accomplishmentasで蚀及されおいるネむティブスピヌカヌ1800-1950幎生たれの数を瀺しおいたす。 サむズは、各蚀語の話者の数、および䞀人圓たりGDPの色の匷さによっお異なりたす。



Caesarは2011幎12月6日から2012幎2月13日たでに公開された10億を超えるツむヌトからTwitterデヌタを収集したした。各ツむヌトの蚀語は、ハッシュタグ、リンク、および絵文字をクリアした埌、Chromium Compact Language Detectorを䜿甚しお怜出されたした。 誀怜知の可胜性が10未満のメッセヌゞのみが䜿甚されたした。 最終的なデヌタセットは、1700䞇人以䞊のナニヌクナヌザヌによっお䜜成された73蚀語の5億5,000䞇件近くのツむヌトで構成されおいたす。 ナヌザヌが1぀の蚀語でツむヌトし、別の蚀語で曞く可胜性が高い堎合、2぀の蚀語は関連しおいるず芋なされたす。



Wikipediaのデヌタセットは、2011幎末に䜜成されたすべおのWikipedia蚀語セクションの履歎を線集するずきにコンパむルされたした。 ボットから情報を削陀しおフィルタヌを適甚するず、250䞇人のナニヌクな゚ディタヌから238蚀語で3億8200䞇件の線集が行われたした。 ここで、ナヌザヌが1぀の蚀語で蚘事を線集し、おそらく別の蚀語で同じこずを行った堎合、2぀の蚀語は関連しおいるこずが刀明したした。



Translation IndexIPデヌタセットは、1979幎から2011幎の間に150か囜で1,000以䞊の蚀語で出版された220䞇件の翻蚳本で構成されおいたす。 デヌタセットには、翻蚳された本のリストではなく、翻蚳のリストが含たれおいたす。 その䞭の各翻蚳は、䟋えばロシア語から英語ぞの「Anna Karenina」トルストむの22の独立した翻蚳など、別々に考慮されたす。 ネットワヌクマッピングでは、各転送を個別に考慮したす。この堎合、1぀ではなく22の翻蚳が考慮されたした。 たた、翻蚳の゜ヌスが本の元の蚀語ず異なる堎合があるこずに泚意しおください。 たずえば、IPにはTom Sawyerの15の翻蚳に関するデヌタが含たれおおり、そのうち13は英語から盎接䜜成され、2はスペむン語ずガリシア語から䜜成されたした。 デヌタセットのこの特性により、翻蚳甚の䞭間蚀語を定矩できたす。



3぀のケヌスすべおで、ISO 639-310に埓っお類䌌の蚀語を描写したした。 たずえば、むンドネシア語ずマレヌシア語はマレヌ語ずしお゚ンコヌドされ、アラビア語のすべおの方蚀はアラビア語ずしお゚ンコヌドされたす。



結果





フルサむズ

この図は、Wikipediaによるず、各蚀語のGLNの有名人の集䞭床ず数を瀺しおいたす。 A1人あたりのGDP、人口芏暡、各GLNのベクタヌの䞭心性に応じお、少なくずも26のりィキペディア蚀語バヌゞョンの蚘事がある各蚀語の人数1800-1950幎生たれ。 文化的生産物の評䟡B囜およびCりィキペディアの少なくずも26の蚀語バヌゞョンに蚘事がある最倧人数の蚀語。 GLN独自の蚀語評䟡DTwitter、EWikipedia、およびFBook Translation Networkの䞊䜍7蚀語。



結果からわかるように、1぀のGLNに倚数のリンクがある蚀語では、別のネットワヌクに倚くのリンクがありたす。 蚀語ペアの衚珟ず関係の正の盞関は、3぀のGLNすべおが特定のグルヌプの接続の匷さおよび代衚者の数に関しお類䌌しおいるこずを瀺唆しおいたす。 3぀のGLNで芋られる共通の特城が、明らかに、これらのネットワヌクのそれぞれに参加するための特定の文孊スキルの必芁性によっお決定されるこずは興味深いです。 本の翻蚳のネットワヌクは、この芁玠の䞭で最も芁求が厳しいです著者ずプロの翻蚳者が含たれおいるため。Twitterは、最も芁求の厳しいものですむンタヌネットにアクセスできる人なら誰でも公開できる短いメッセヌゞで構成されおいるため。 りィキペディアは、必芁な文孊スキルの芳点からは本の翻蚳ずツむッタヌの䞭間であり、そのGLNは類䌌性の芳点からも䞭間です。



人は情報に泚意を向ける䟡倀があるため、情報を䞭倮蚀語から母囜語に翻蚳するずいう仮説がありたす。あるいは、䞭倮蚀語を持぀囜で生たれた人は䞖界的な名声を獲埗する可胜性が高いずいう仮説がありたす。



GLNのヒンディヌ語、䞭囜語、アラビア語の呚蟺の䜍眮は、これらの蚀語ずそれらに接続する他のいく぀かの蚀語の䞖界での衚珟が䞍十分であるためであるず䞻匵するこずができたす。 これらの蚀語はさたざたなメディアの䞭心に䜍眮する可胜性がありたすが、3぀のグロヌバルネットワヌクTwitter、Wikipedia、曞籍翻蚳ネットワヌクでの圹割が匱いため、グロヌバルな圱響力に察する䞻匵が匱たりたす。 さらに、䞭囜語、アラビア語、ヒンディヌ語は、デヌタベヌスが異なる地域蚀語ずの接続をより適切に瀺す堎合でも、䞭倮蚀語はロヌカル蚀語だけでなく、非垞に遠い蚀語でも接続する必芁があるため、䞭倮蚀語になりたせん。



レクチャヌ



シヌザヌ・むダルゎは、ビッグデヌタを扱うこずの重芁性に぀いお倚くを語るこずができたす。 圌は、いかなる経枈成長も宇宙における情報成長の特別なケヌスであるず信じおいたす。 さらに、経枈における情報の成長は、人々が゜ヌシャルネットワヌクを圢成する胜力によっお制限されたす。



Caesarは4月22日のDigital Octoberで公開講座 テレビ䌚議で講挔する予定です。「なぜ情報量が増え続けおいるのですか」 蚀語は英語で、さらに各参加者はロシア語ぞの同時通蚳デバむスを受け取るため、理解に問題はありたせん。 むベントに登録しお蚪問しおください、それは興味深いでしょう。



All Articles