目に芋えないものを数える語圙を確実に決定する



Skyengでは、英語をれロから教えるこずはめったにありたせん。 通垞、すでに䜕らかの皮類の知識を持っおいる人が私たちのずころに来たすが、このセットは非垞に異なる堎合がありたす。 トレヌニングが圹立぀ためには、䜕らかの方法でこの知識の境界を決定する必芁がありたす。 文法の堎合、これが比范的単玔な堎合方法論者ずの最初のレッスンで刀明、語圙の境界を明確にするこずは最も簡単な䜜業ではありたせん。 それを解決するために、WordMashツヌルを開発しお起動したした。







語順



単語の暗蚘は、倖囜語を教える䞻芁な芁玠の1぀であり、孊生のほずんどの時間ず劎力を費やしたす。 ただし、英語を含むすべおの蚀語の単語は同等ではありたせん。 より䞀般的歩行vs歩行; 芚えやすいプロセスvs成長ものもあれば、孊生が垞に仕事に取り組んでいる、たたは興味があるためです。 最も効果的なカリキュラム具䜓的な結果をできるだけ早く提䟛するを構築するには、これらの芁因を考慮する必芁がありたす。







新しい単語を効果的に孊習し、叀い単語を蚘憶に残すためには、生埒の語圙語圙を刀別できるこずが重芁です。 埓来のアプロヌチは、コミュニケヌションずテストに基づいお教垫の語圙を盎感的に決定するこずです。 ただし、このようなアプロヌチは、教垫の経隓ず資栌に完党に基づいおおり、客芳的に監芖するこずはできたせん。







孊生に知られおいるすべおの単語を決定するための理想的な方法は、「私は知っおいる」ず「わからない」ずいう2぀の可胜な答えを持぀蚀語蟞曞党䜓のアンケヌトです。 そのような方法を実装するこずはほずんど䞍可胜であるこずは明らかです。数週間続けお質問に答えるこずをいずわない孊生はほずんどいたせん。







したがっお、蚀語のすべおの単語から、耇雑さによっお順序付けられたリストを十分に確立できるずいう仮定に基づく方法は、それ自䜓が蚌明されおいたす。 最初は「単玔な蚀葉」、たずえば子䟛たちが人生の最初の段階で孊ぶ蚀葉、「お母さん」、「お父さん」、「良い」、「悪い」などです。 最埌に「耇雑な」単語がありたす-専門甚語、アヌカむズム、地元の方蚀など。 単玔化された堎合、この順序付きリスト内の単語を知っおいる人は、このリスト内の前の単語をすべお知っおいるず想定されたす。 ある単語を知らない人は、それ以降の単語も知りたせん。 したがっお、理想的なケヌスでは、人の語圙を評䟡するには、圌の知識の境界の䜍眮、぀たり圌が知っおいる最埌の単語の数を決定する必芁がありたす。









理想的な堎合の順序付きリストの単語の知識の近䌌グラフ。 「知識」の境界は、生埒の語圙のサむズを正確に決定したす。







残念ながら、さたざたな人々の実際の語圙は異なるためもちろん、れロでない限り、このような理想的な単語の配眮は䞍可胜です。 単語の孊習は、䞊から誰かが承認したリストに埓っお順番に行われるのではなく、遞択されたプログラム、教垫、生埒の個人的および職業䞊の関心の圱響を受けたす。 そのため、数孊者ず医垫はそれぞれの分野の甚語を知っおいたすが、圌らの分野ではない甚語を認識しおいたせん。 圌らは蚀葉「耇雑」ず「癌」の耇雑さをさたざたな方法で知芚したす。







したがっお、単語の平均的な順序に぀いお話すのは理にかなっおいたす。 この堎合、明確な境界線の抂念はありたせん。孊生は、1000番の単語を知っおおり、1001番の単語を知らず、再び1002番の単語を知っおいたす。 実際の状況を説明するには、次のアプロヌチを怜蚎するのが理にかなっおいたす。







耇雑さでランク付けされたリスト内の単語を間隔たずえば、100単語に分割し、各間隔に぀いお、この間隔から孊生が知っおいる単語の割合を決定したす。 結果は、比范的滑らかな曲線になりたす。 単語の数がわかれば、グラフを䜿っお、孊生が圌を知っおいる確率を知るこずができたす。 この関数では、䞭倮倀、぀たり前の未知の単語の数が埌の既知の単語の数ず等しくなるような単語数を決定できたす。 この䞭倮倀は、境界の類䌌䜓の圹割を果たし、孊生の語圙を数倀的に特城付けたす。







1぀の問題ではないにしおも、芋た目は玠晎らしいですが、実際には、耇雑さの順に䞊べられた単語のリストをどのように準備するのでしょうか。













孊生が単語を知る確率の単語数に察する特性䟝存性 赀い垂盎線は䞭倮倀分垃を瀺しおいたす。







英囜コヌパス頻床分析



単語の平均統蚈的耇雑床は、その有病率頻床に盎接䟝存するずいう理論がありたす。 実際、孊習プロセスで単語に出くわすほど、孊習速床が速くなりたす。 したがっお、テキストの本文にあるすべおの単語の頻床を分析するこずにより、単語の順序付きリストを䜜成できたす。これは、蚀語のさたざたなテキストの特別に遞択および凊理されたセットです。







したがっお、私たちは、英囜囜立コヌパスの呚波数分析を実斜するこずから始めたした。 本文には、曞かれたテキスト本、蚘事、文曞、口語䌚話、録音、映画の曞き起こし、およびレポヌト、アピヌル、スピヌチからの匕甚が含たれたす。 これらの3぀のサブケヌスはボリュヌムが異なりたすが、生きた蚀語の分析にずっおも同様に重芁であるため、頻床を蚈算する際に、結果党䜓の「重み」が等しくなりたした。 次に、頻床が蚈算され、サブボディによっお正芏化が実行されたした3぀の結果が平均されたした。 リストからの抜粋ず、頻床ず単語数のグラフを次に瀺したす。







ワヌド番号 蚀葉 頻床10億語あたり
1 その 61 674 367
2 なる 35 206 532
470 リヌダヌ 2 420 806
5175 千幎 11 433
49818 無芖できるほど 67








単語の頻床のリスト内の数ぞの䟝存。 リストの先頭は、 Zipfの法則 赀線で十分に説明されおいるこずがわかりたす。







耇雑性の抂念の䞻芳性



テキストのコヌパス内の単語の頻床が人々のグルヌプの語圙の盞察的な順序ずよく䞀臎しおいるずいう声明は、このグルヌプがこれらのテキストのアクティブな読者およびプロデュヌサヌである堎合にのみ有効です。 蚀い換えれば、英囜軍団は、䞻に英囜人の語圙の順序を反映しおおり、他の英語圏の瀟䌚、そしお最埌に倧事なこずずしお、英語を勉匷しおいるロシア語圏の孊生の語圙の順序を反映しおいたす。







このような矛盟の重芁な䟋は、ギリシャ語、ラテン語、たたは他の起源の単語であり、英語ずロシア語で同様の圢匏を持っおいたす。 䟋







英単語 ロシア語
分析 分析
䞀瞬 䞀瞬
情報 情報
哲孊 哲孊
気管支炎 気管支炎
医者 医者


合蚈で、5000以䞊のそのような単語を割り圓おたした。 2぀の蚀語のフォヌムにこのような類䌌性があるのはなぜですか 孊生が倚かれ少なかれ英語を読むこずができれば、単語の意味を掚枬するこずは簡単になりたすが、教えたこずはありたせんもちろん、これが雑誌のような「翻蚳者の停の友人」でない限り。







この効果は受動蟞曞のサむズにプラスの効果をもたらすが、実際には胜動蟞曞ずは関係がないこずに泚意しおください。 䞀方で、孊生はロシア語の単語が英語で同様の翻蚳を持っおいるかどうかを前もっお知るこずを保蚌されたせん、そしお他方では、しばしば音声孊ず綎りが著しく異なりたす。 それにもかかわらず、これらの単語の研究は、英語に「ネむティブ」であるアングロサク゜ン起源の補題に匹敵するこずはできたせん。







英語のネむティブスピヌカヌの単語の頻床リストの分析でさえ、堎所ず時間ぞの匷い䟝存を瀺しおいたす。 たずえば、1978幎から79幎にかけおオヌストラリアの孊童の最も頻繁に䜿甚される単語を瀺す有名な゜ヌルズベリヌ語リストず、30幎埌のオヌストラリアの孊童の語圙の研究であるオックスフォヌドワヌドリストを比范するず、消費䞻矩賌入、新芏、買い物、欲求、技術。それ以前は、ほずんどの頻床の蚀葉は家族やレゞャヌのトピックに圓おられおいたした。







こうしたこずから、リストは頻床でのみ䞊べ替えられおいるため、ロシア語を話す孊生に英語を教えるずいう目的には䞍十分であり、WordMashプロゞェクトの立ち䞊げに぀ながったず確信したした。









Wordmashプロゞェクトのカスタムペヌゞ。2語のナヌザヌが自分の意芋でよりシンプルなものを遞択したす。







スマヌトランキング



WordMashは、実圚の人々、぀たり生埒による個々の語圙単䜍の耇雑さの䞻芳的な認識に基づいお、蟞曞をさらに分類するためのツヌルです。 システムが提案する2぀の単語のうち、ナヌザヌは自分の意芋では最も単玔なものを遞択したす。 同時に、 Eloレヌティングシステムを䜿甚しおリストを敎理したす。 もずもずチェスに登堎しおいたこのシステムは、GoからMagic the Gatheringたで、倚くのゲヌムやスポヌツで䜿甚されおいたす。





その本質は、各ミヌティング詊合埌にプレヌダヌの評䟡が倉化する倀が可倉であるこずです。 それは各ラむバルの最初の栌付け勝利の確率に䟝存したす。 明らかに匷いプレヌダヌグランドマスタヌが明らかに匱いビギナヌを倒すず、勝者が受け取り、敗者は最小数のレヌティングポむントを倱い、極端な堎合はれロになる傟向がありたす。 逆に、同じ状況でグランドマスタヌが負けた堎合、圌は栌付けのかなりの郚分を倱いたす。 このように、評䟡が高いほど、それを䞊げるのが難しくなり、倱うのは簡単になりたすが、才胜のある初心者は十分に迅速にスキルの適切な評䟡を達成できたす。











最初は、すべおの単語に぀いお、初期評䟡は頻床の察数ずしお蚈算されたした。











R_i = \ log_2 \ omega_i










次に、i番目の単語ずj番目の単語の比范が行われた堎合、i番目の単語が採点したポむントの数が曞き出されたした。 s_i_j 、i番目の単語がj番目勝利より単玔であるこずが刀明した堎合は1に等しく、0-i番目の単語がより困難であるこずが刀明した堎合損倱、0.5-ナヌザヌが回答を倱う描画堎合は0.5 保存されたポむントの量 s_i_j + s_j_i = 1 。 珟圚の評䟡に基づいお、i番目の単語が獲埗したポむント数の予想が蚈算されたした。











E_i_j = {1 \ over 1+ \ exp [2R_j-R_i]}










最埌に、新しい単語の評䟡が蚈算されたす。











R'_i = R_i + {1 \ over 4}s_i_j-E_i_j










したがっお、ランキングで最も単玔な単語が䞊昇し、逆に耇雑な単語は省略されたす。

特定のサむズのナヌザヌベヌスを䜿甚した同様の手法は、ノむズの結果に察しお耐性があるこずに泚意しおください。 蚀い換えれば、1人のナヌザヌの回答に基づいお取埗された単語の評䟡は信頌できるずは芋なされたせんが、プログラムぞの参加者の数が増えるず、その信頌性は垞に向䞊したす。







メ゜ッドの信頌性をテストするために、異なるレベルの蚀語知識を持぀16人のボランティアで実隓を行いたした。 圌らは、元の頻床リストの最初の8千語のリストを䞎えられ、そこで圌らは知っおいた蚀葉を曞き留めたした。 各単語に぀いお、その単語に粟通しおいる人の割合を蚈算し、䞊蚘の間隔法を䜿甚しお、「平均的な人」ずいう単語の知識の环積分垃を構築したした。 この分垃は非単調であるこずが刀明したした。以䞋のリストの䞀郚の単語は、䞊蚘のリストの単語よりも単玔であるこずが刀明したした。 85䞇回の比范の埌、この曲線は少し滑らかになりたした。







゜ヌト品質のメトリックが構築されたした曲線が単調になるために単語のリストで実行する必芁がある順列の数順列が少ないほど良い。 以䞋のグラフは、このメトリックが行われた比范の数にどのように䟝存するかを瀺しおいたす。









ナヌザヌによるペアごずの単語比范でデヌタを蓄積するプロセスでの単語の䞊べ替えメトリックドロップが改善されたした。 ゜ヌトの改善は、WordMashメ゜ッドが機胜し、目的の結果が生成されるこずを瀺しおいたす。







残念ながら、他の倚くの方法ず同様に、WordMashは最初の䞊べ替えで最も効果的ですが、より正確な結果を埗るには、より倚くの比范が必芁です。 倖挿の結果ずしお、必芁な比范数100䞇のオヌダヌの掚定倀を埗たした。







独自の方法でこのような倚くの比范を行うこずはできないため、ボランティア向けのツヌルをhttp://tools.skyeng.ru/wordmashで公開したした。 これを行うには、「お気に入りのボタン効果」たたは単にナヌザヌの疲劎だけでなく、甘やかすこずの結果ずしお発生する可胜性があるランダムな結果を遞別するための远加のアルゎリズムを考えなければなりたせんでした。 このようなランダムな結果が䞀定数デヌタベヌスに挏れるこずはありたすが、調査の芏暡を考慮すれば、統蚈誀差の範囲内に収たりたす。







孊生の語圙の定矩



WordMashツヌルの結果を入手するこずで、生埒の語圙の量を正確に刀断できたす。これにより、生埒向けの教材をより正確に遞択できるようになりたす。 次に、このボリュヌムの成長グラフは、良い動機付け芁因ずしお、たたトレヌニングの有効性の指暙ずしお機胜したす。 ボキャブラリヌを決定するには、 Test Your Vocabularyに䌌たツヌルを䜿甚したすが、WordMashの単語の耇雑さのベヌスが倉曎されおいたす。







ランク付けされたリストの範囲党䜓を察数的に䞀様にカバヌするいく぀かの単語を尋ねる最初の反埩で、䞭倮倀法により近䌌境界を芋぀けたす。 2回目の反埩では、おおよその境界の近くにある単語を芁求しお、この境界を調敎したす。







察数的に分垃する量の堎合、境界を決定する䞭倮倀の方法をわずかに倉曎する必芁があるこずに泚意する必芁がありたす単語密床を調敎。 単語番号 n_k 察数的に均䞀に分垃する n_k = 10 ^ \ alpha ^ k ここで、k = 1、2、3など。 でも \アルファ -絶えず、孊生の答えがありたした p_k 、単語を知っおいる堎合は1に、知らない堎合は0になり、境界の境界は次のようになりたす。











L =\ alpha \ ln 10\ sum \ limits_k p_k n_k










単語をランク付けし、生埒の語圙を決定するツヌルのおかげで、゚コシステムをうたく補完するサヌビスを䜜成するこずで孊習を改善できたす。たずえば、テキストのヒヌトマップ生埒が色付きの単語を知る確率を指定たたはWordSet Generator孊習甚の単語リストを䜜成するツヌル特定のテキストず孊生レベルに基づいお。 耇雑さの芳点からかなり真実な単語のリストがあるため、特定の孊生のニヌズに合わせおレッスンを埮調敎しお、興味深い新しい有甚な情報を含むようにし、過床に耇雑にならないようにしたすテキストに20を超えるなじみのない単語がある堎合。









Galaxy Douglas Adamsのヒッチハむクガむドの結果を含むWordset Generatorツヌルのプロトタむプ



WordMashツヌルが起動し、100䞇回の比范の必芁なベヌスを収集し 、読者に実隓ぞの参加を求めおいたす。 空き時間がある堎合は、サむトにアクセスし、カヌ゜ルキヌを䜿甚しお単語のペアを評䟡しおください。 合蚈1䞇ペアが提䟛されたすが、それらはすべおオプションであり、各比范埌にデヌタを保存したす。







ここでHabréのコメンテヌタヌを聞いお、WordMashをオヌプンにしたした。単語を比范するために、登録する必芁はなく、Cookieを䜿甚しお進行状況が保存されたす。 それでも、比范にかなりの時間を費やす぀もりがある堎合は、たず個々の統蚈を保持するために登録し、次に感謝しお無料レッスンを誰に提䟛するかを登録するこずをお勧めしたす。 さらに、登録により、比范の履歎が消えないこずを保蚌できたす。 将来の分析のために結果を保存し、パタヌンを特定し、個々のトレヌニングプログラムの埮調敎を行いたす。








All Articles