数の子音

背景

正直なところ、私は訓練を受けた技術者であり、言語学が好きではありませんでした。 もちろん、言語を知ることは興味深いですが、言語を学ぶのは面倒です。 とにかく、技術科学は人文科学よりも理解しやすく、興味深いように思えました。 それは、新しいドメイン名を考え出すまで必要でした。 良いアイデアや洞察力の欠如に悩まされ、多くのありふれた選択肢を拒否し、インスピレーションがないため、どこかでそれを探す必要があると考え、この問題に技術的に取り組むことにしました。 ドメイン名ジェネレーターを作成することにしました。



アイデア

ランダマイザーの優れたアイデアはすぐに現れ、RuNetにはすでに200万個のドメインがあり、良い名前と悪い名前があります。 もちろん、「良い名前」-「悪い名前」という評価は個々のものですが、両方を結びつける共通点があります。 複数の言語学者がこの一般的なことについて困惑していると思います(またはおそらくすべてが長い間知られているかもしれません)が、私は問題に技術的にアプローチすることを決めたので、良いドメインと悪いドメインは文字の組み合わせによって決定されると決定しました) :ドメイン名を音節に分割し、各ドメイン名の音節を「音節辞書」に保存します。 音節の辞書があるので、それらをランダムな順序で組み合わせて、うまくいくことができます

ドメイン名(ディクショナリがコンパイルされたソースデータベースに適切な名前があった場合)。 さらに、このアプローチを使用すると、ドメイン名だけでなく、任意の名前を生成できます。 たとえば、ニックネーム、薬物名、または名前。



問題

最初の実験では楽観的な結果が得られましたが、すべてがそれほど単純ではないことも示されました。 受け取った単語の絶対的なランダム性を考慮に入れると、ニックネームはニックネームに似ていると言え、薬の名前は薬の名前です。 しかし、良いオプションの収穫は少なかった。 さらに、耳で、男性の名前と女性の名前を簡単に区別します(例外は考慮しません)が、生成された男性の名前と生成された女性の名前を区別することは困難でした。 さらに、その言語にとって不自然な単語(たとえば、ソフトまたはハードサイン、またはmts-、nts-などの発音できないサウンドの組み合わせで始まる)は、何らかの方法で除外または表示する必要があります。



解決策

もっと考えた後、私は結末の主な問題を決定しました。 「人工」の語の終わりが「自然」の終わりに似ていたとき、その言葉自体は自然に似ていました。 エンディングが単語によって前方にcい出したとき、または逃げたときでさえ、その単語はほとんど良いとは言えませんでした。 そのため、エンディングを別の辞書で作成し、原則に従って新しい単語を作成することにしました

[単語] = [音節の任意の組み合わせ] + [任意の終了]。

私の意見では、この原則は非常に良い結果をもたらし始めました。 確かに、不自然な言葉を排除する問題は残っていました。 それを解決するために、単語を数値的に評価する関数を作成することにしました。優れた単語は100ポイントを獲得し、単語は

まったく考慮できないため、0を取得する必要があります。



ハーモニー

インターネットに登って、数値評価に必要な特性である「調和」を説明する良い言葉を見つけました。 しかし、「ハーモニーを評価するためのアルゴリズム」に関するGoogle検索では、良い結果が得られませんでした。 そのため、私は次のことをすることにしました。母音と子音が交互に並ぶ単語を「調和のとれた」に割り当て、同じ種類の文字の単語を「不協和音」に割り当てます。 次に、調和の数値評価は、母音と子音のペアの数と文字のペアの総数との比として定義できます。 完全を期すために、いくつかの追加条件を導入しました。

-禁止されている文字(ロシア語の場合はb、b、s)、もしあれば、単語の先頭に、

0ポイントを獲得します。

-単語の先頭にペアの文字が存在する場合、「人工」単語のポイントが80%減少します

-単語の先頭に2つの不対の子音または母音が存在する場合、そのポイントは4分の1減ります

このような単純な計算の結果として、人為的な単語を何らかの方法でランク付けして、悪いものを捨てたり、良いものを強調したりすることができます。



次は?

私の実験の結果として判明したことは、 http://vidumschik.ruで見ることができます。 このジェネレータは多くの人に役立つと思います。 しかし、私は誰かが言葉の調和を評価したかどうかを知りたいですか? または、誰かが良いアルゴリズムを提案できますか?



このすべては私の同志によって行われました。同志はここではよく知られた理由で書くことができません。






All Articles