ザリツニアックのパルシムロシア語辞書アンドレイ・アナトリエヴィッチ

単数形の主格の場合、ロシア語の名詞をたくさん集めるのに何とか時間がかかりました。 彼はインターネットを検索し始めました。 手に入れたものはすべて、私にとって非常に便利な形式ではないか、アマチュアのコレクションのいずれかでした。 それでも、たとえばMySQLデータベーステーブルなどの独自の形式に変換できるように、より公式なソースデータが必要でした。



2009年9月1日、文部科学省の命令が発効し、文部科学省の下でロシア語に関する省庁間委員会が推奨する辞書、文法、参考書のリストを承認しました。 承認された4冊の本には、 A。A . Zaliznyakによるロシア語の文法辞書があります。



この辞書には、まず、たとえば完全な形の動詞だけを引き出すための単語の形態学的記述が含まれているため、この辞書に決めました。 第二に、辞書の電子版を見つけることができたからです。



別のグラブオプションwiktionary.org-Category:Russian nounsがありました 。 これら2つのベースを組み合わせるのは理にかなっているかもしれませんが、今のところはZaliznyakについて説明しましょう。



語彙



Zalizniakの辞書は、比較歴史言語学専用のバベルの塔プロジェクトのサイトで発見されました。 Ozhegov、Zaliznyak、Vasmerの辞書は、 オンラインでもダウンロードでも入手できます



2004年11月27日からdicts.exeファイルをダウンロードします。 インストール。 c:\ StarSoft \ dict \フォルダーにはファイルが含まれます。 Z_ *(Z_160からZ_239)で始まるもののみが必要です。 ファイル内の単語は最初の文字でグループ化されます。 つまり ファイルZ_160のすべての単語は、文字Aで始まり、Z_161で-文字Bで始まります。



パーサー



ファイルはOEM 866でエンコードされています。便宜上、Notepad ++を使用してUTF-8に変換しました。 その後、彼はPHPで簡単なパーサーを作成しました。 男性名詞と女性名詞だけが必要でした。 必要に応じて正規表現を変更できます。
<?php <br/> <br/> mb_internal_encoding ( 'utf-8' ) ; <br/> <br/> $dir = new DirectoryIterator ( dirname ( __FILE__ ) . '/dict/' ) ; <br/> foreach ( $dir as $file ) <br/> { <br/> if ( $file -> isDot ( ) ) { <br/> continue ; <br/> } <br/> <br/> if ( ! preg_match_all ( '/^(\\p{L}{2,})\\s+\\d+\\s+(?:||||)\\s+/um' , file_get_contents ( $file -> getPathname ( ) ) , $matches ) ) { <br/> continue ; <br/> } <br/> <br/> foreach ( $matches [ 1 ] as $word ) <br/> { <br/> // $word <br/> } <br/> }





その結果、39361名詞のテーブルができました。




All Articles