テキストの言語を決定する方法は?

画像 このサイトでのユーザー入力の言語を決定する問題を一度だけ解決したいと思います。 多言語のHabrahabrをやっていると想像してみてください:-)、ユーザーに彼が書いている言語を尋ねたくありません。 コンピューターはそのような問題に対処すべきだと思います。







タスクステートメント

既存のソリューションは適切ではありません。 問題は、それらが数学者とプログラマーによって作成されたことです。 これらのソリューションは主に1つのパラメーターを分析し、テキストが何らかの言語で書かれているという奇妙な確率を与えます。 そして、確率は必要ありません。 言語を決定する必要があります:-)。 2番目の問題は、他の言語を含むテキストでは統計アルゴリズムがバラバラになることです。



多くのパラメータを順番に分析する必要があると思います。



実験のために、テキストのなじみのない言語を視覚的に特定しようとしました。 たとえば、ポルトガル語とドイツ語を区別するのは簡単ですが、どちらかはわかりません。



私の行動のアルゴリズムは次のようなものです。

失敗したアルゴリズムの例


vitali.at.tut.byは、テキスト内の2文字の組み合わせの数をカウントすることに基づく統計アルゴリズムです。 テストに失敗しました、なぜなら バイナリがサイトから削除されました。

大麦モジュール

この記事はトルコ語で書かれていると言う生きた例です。

ニューラルネットワークの分類子とセマンティック分析に関する記事がまだあります
次数nおよびベースMのポリグラムモデルでは、テキストはベクトル{f i }、i = 1..M nで表されます。ここで、f iはテキスト内のi番目のn-gramの出現頻度です。形式a 1 ... a n-1 a n ...
-ニクロムは理解しませんでした



私はこれ以上見ませんでした。





一貫性のあるアルゴリズムの例


Googleの翻訳者は言語を数語で完全に定義します。 彼は文に「外来」語を含めても混乱しません。





PS

また、JavaScriptを使用して、クライアント側でこれを行うという奇妙な欲求があります。 いくつかの単語を分析するには、Google Language APIにアクセスする必要はないと思います...



PS 2

その結果、Google Language APIを使用しました...物議を醸すケースでは、辞書検索を使用しているのではないかと疑っていますが、クライアント側でそれを買う余裕はありません。






All Articles