海の泥の網が戻ってきて......

約1年半前、私は小さな実験を行うことにしました。 目標は、集中したニュースピークを見ることでした。 私は次のことをしました:

1)Rarsarsil bash.im(当時はまだbash.org.ru)とそこにある単語の頻度辞書を作成しました。

2)Rarsarsil Wikipediaと頻度辞書を作成しました(より正確には、そうではありませんが、その時点ですでにWikipedia辞書を持っていますが、以前はまったく別の目的で作成していました)。

3)Bashの辞書を出現順に降順でソートし、それに沿って歩き、Wikipediaで発見されたことのない単語を入力しました。



一般的に、すべての準備が完了した後、スクリプトを起動し、現代のスラングをすべての栄光で見る準備をしました。 プログラムは印刷を開始しました...

冒とくにアレルギーのない人は、リンクをたどって、受け取ったリストのトップを賞賛することができます(編集なし、プログラムの発行時に公開します)。



警告しました!



リンクをたどらなかった人のために、管理者、サーバー、コメント、Fotikなど、本当に多くのスラングがありました。 しかし、彼はさらに強制的なharfogrofichiskih ashybokとマットを得ました。

慰め-ロシアのウィキペディアでは、これらの言葉はまだ存在していませんでした!



アプリケーション



この記事はまだプログラマー向けであるため、Wikipedia頻度辞書の作成方法を説明します(ソースが見つかった場合は、記事に添付します)。

1)ロシア語版ウィキペディアのダンプをダウンロードします。最新バージョンは常にここにあります-download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2

2)すべてのタグを削除し、イタリアの同志であるmedialab.di.unipi.it/wiki/Wikipedia_Extractorによって記述されたこのPythonスクリプトを使用して、テキストをそのまま残します。

3)各フ​​ァイルについて、キリル文字でもハイフンでもないすべてのものをセパレーターとして使用して(すべての種類のロッキングチェアを分割しないように)テキストを分割し、トークンをカウントします(コレクションを使用できます。Python標準ライブラリのカウンター)

4)結果の辞書を結合します。



付録2



しかし、実際のウィキペディア辞書は、約2年前にそれを行いました。

たとえば、あらゆる種類の興味深い特性を持つ単語を探します(たとえば、「癒しにくい」-すべての文字が異なるロシア語で最も長い単語としましょう)。 または、アナグラムジェネレータを作成するとしましょう。 ただし、辞書を使った実験については別の投稿をしようとします。



All Articles