
タスクは一般に難しくはありません。唯一の深刻な問題は、処理のための素材のソースです。これはシャベルで処理できる最大のテキストです。
最初のアイデアは、IRCチャネルの一部をダンプすることでした。 残念ながら、私は言語をカットオフするアクティブなライブフレームを1つも見つけませんでした。
次のアイデア:フォーラム。
いくつかの大きなウクライナ語フォーラムが犠牲者として選ばれました。 すべての管理者は、データベースからのテキスト部分のダンプのリクエストに否定的に反応し、一部の管理者は非常に鋭く反応しました...
...彼らは責任があると私は言って、wgetを始めました。
実際、特別な問題はありませんでした。 wgetが必要なもののみ(個々のメッセージページではなく、フォーラムページのみ-被害者フォーラムにそのようなオプションがあった)を確認し、受信したページの大量をhtmlからxhtmlのどこかにオーバーロードするために少しだけ同じ名前のユーティリティが見つかりました。もう一度、目的のテキスト要素を消去するためにxsltをわずかに引き上げ、同時に引用符と繰り返し要素を切り取ります。 このケースの結果はすでに分析されている可能性があり、そのためにC#で小さなプログラムが作成されました。 一般に、1日に数分から数時間ですべて2週間かかりました。
結果について少し。
wgetを使用して、約2ギガバイトの純粋なhtmlがダウンロードされました。これには約1日半かかりました(これ以上正確には言いませんが、これ以上ファイルはありません:))
すべての補助ページ、インデックス、コンテンツ、フォーラムを切り離し、xhtmlに蒸留し、エラーを含むファイルを切り離した後、合計2.2GBの49,492個のファイルが取得されました。
xsltを実行した後、ファイルの数は変更されていませんが、ボリュームは大幅に減少しています-最大160MBですが、このボリュームの大部分はxsltの後に残ったスペースで構成されています。 二重の空白文字を削除した後のネットサイズ、処理されたテキスト自体のベースは65 525 151文字で、以前の調査の10倍以上です。
実際に結果はここで見ることができます 。 アーカイブには4つのファイルがあります:それぞれ処理された生のダイグラムとモノグラムの結果。 処理された結果から、ウクライナ語のアルファベットに厳密に関連していないものはすべて捨てられ、図表の結果は表に変換されます。 以前の結果と比較すると、トップ10ですでに違いがわかります。 このような違いの唯一の提案は、前述の研究では、語形が正規化されたことです。
以下は、発音基準によるロシア語とウクライナ語の文字頻度の比較チャートです。

未解決の質問。
1.サードパーティの言語の包含を遮断します。 主にロシア語、英語。 それらは少数ですが、まだ顕著です。 他のアルファベットからの文字の存在によって投稿をカットできるという事実に基づいても、結果の正確性を保証することはまだ不可能です。 かなり長い文字列をロシア語で書くことができます。これには、ウクライナ語のアルファベットにない単一の文字は含まれません。 これを確認するための前の4つの文。
2.まれな文字「ґ」および「 '」(アポストロフィ)。 ほとんどのキーボードではクラスとして「ґ」がなく、AltGrを介して入力する方法はほとんど不明であるため、最初はほとんど例外なく「g」に置き換えられます。 さらに、手紙自体は非常にまれであり、多くの人々はそれに慣れていません(1990年にアルファベットに戻されました)。
アポストロフィ(ロシアのハードサインの類似物)として、単一引用符「 '」が主に使用されます(これは印刷上の誤りです)が、Windowsの古いバージョンのレイアウトには存在せず、新しいバージョンではエスケープされていることが非常に明らかであるため、省略または置換されますアスタリスクなどの他の適切な(またはそうでない)文字。 分析では、単一引用符をアポストロフィとして取りましたが、表の結果は、それがアポストロフィとしてだけでなく使用されることを明確に示しています(ルールに従って、アポストロフィはb、p、c、m、f、pの後、i、u、єの前に行く必要があります、ї。表には他の多くの出現も示されています)。
おわりに
このトピックに投稿された結果が、誰かにとって必要または興味深いものになることを願っています。
...同時に、2つの未解決の問題を解決するためのアイデアを喜んでいます。