テキストアナラ​​イザー:著者名の認識(開始)



こんにちは、ハラジテリ。 GPLライセンスの下で「テキストアナラ​​イザー」( [1] )を公開したいとずっと思っていました。 最後に、手が届きました。 「テキストアナラ​​イザー」は、大学の第3、第4、第5コースで3年間開発した研究プロジェクトです。 主な目標は、ハミングまたはホップフィールドニューラルネットワークを使用して、テキスト作成者認識アルゴリズムを作成することでした。 アイデアはこれでした。これらのニューラルシステムは画像を認識し、原作者を識別するタスクは画像を認識するタスクに減らすことができます。 これを行うには、各テキストの統計を収集する必要があり、より異なる基準、より良い:文字の頻度分析、単語/文/段落の長さの分析、2文字の組み合わせの頻度分析など。 神経系は、どのテキストが最も似ているかの特徴を明らかにすることができます。 仕事がありました-シャフト。 大量のコード、トリッキーなアルゴリズム、OOP、デザインパターン。 主なタスクに加えて、「調和のカード」という別のノウハウも実装しました。 計画どおり、このようなカードには、悪い音や良い音の場所がすべて表示され、色で強調表示されます。 調和を評価するための基準は、例えば規則など、何らかの普遍的な方法で与えられるべきです。 この目的のために、特別なグラフィック言語であるRRL(Resounding Rules Language)を開発しました。 仕事がありました-シャフト。 大量のコード、トリッキーなアルゴリズム、OOP、デザインパターン。 その結果、見苦しいインターフェースを備えた大規模で複雑なプログラムが作成されました。 このプロジェクトで、私は卒業証書コンテストに勝ち、大学の会議で1位と3位になり、国際的な科学と実践の2位になりました。



2年以上が経ちましたが、どのように機能するかはほとんど覚えていません。 一緒に作者を認識するアルゴリズムの内部にあるものを把握してみましょう。 さて、次の記事のために調和カードを残しましょう。



(記事には続編エンディングがあります。)



記事の構造:

  1. 著者の分析
  2. コードを知る
  3. TAuthoringAnalyserの内部とテキストストレージ
  4. 戦略に関するステートマシンによるレベリング
  5. 周波数応答収集
  6. ハミングニューラルネットワークと著者分析


追加資料:







1.著者分析





必要性:

  1. サンプルテキストと「キー」テキスト(作成者は不明)をアップロードします。
  2. 比較可能なサンプルテキストを特定します。
    • テキストを単語、文、段落に分割し、
    • 各テキストに対して同じ長さの単語、文章、段落のブロックを作成し、
    • 「単語」、「文」、「段落」のレベルについて、同じサイズの比較可能なブロックのみを選択します。
  3. これらの3つのレベルで統計を収集します。
  4. Hamming神経系にデータをアップロードします。
  5. その助けを借りて画像認識を行います。
  6. 特性によってキーテキストに最も近い3つのレベルすべてのサンプルテキストを識別する。 これらのテキストの著者は、おそらくキーテキストを所有しています。




計画からの結論は次のとおりです。





2.コードを知る




「ウォームアップ」するために、最初にメインフォームのクラスTAuthoringAnalyserTable( [cpp][h] )を検討します。 (「ウォームアップ」が必要ない場合は、すぐに次のセクションに進むことができます。)フォーム自体はひどく使い勝手がよく、ゼロであると言えます。 しかし、私たちはボタンボタンではなくコードに興味があります。



cppファイルの最初に、クラスのインスタンス化があります。



Copy Source | Copy HTML TVCLControllersFasade VCLFasade; // 1 - VCL TAnalyserControllersFasade AnalyserFasade; // 2 - TVCLViewsContainer ViewsContainer; // 3 -



  1. Copy Source | Copy HTML TVCLControllersFasade VCLFasade; // 1 - VCL TAnalyserControllersFasade AnalyserFasade; // 2 - TVCLViewsContainer ViewsContainer; // 3 -



  2. Copy Source | Copy HTML TVCLControllersFasade VCLFasade; // 1 - VCL TAnalyserControllersFasade AnalyserFasade; // 2 - TVCLViewsContainer ViewsContainer; // 3 -



  3. Copy Source | Copy HTML TVCLControllersFasade VCLFasade; // 1 - VCL TAnalyserControllersFasade AnalyserFasade; // 2 - TVCLViewsContainer ViewsContainer; // 3 -









ここでは、(1)および(2)に対して「Facade」パターンが使用されます(Facade、 [1][2][3][4] )。 ファサードクラス(1)内には、VCLのビジュアルコンポーネントを操作するための大きなインターフェイスが隠されています。 「テキストのダウンロード」ボタンをクリックしたとき、テキストのリストを更新したとき、一般的にフォームからのイベントに対する反応が登録されます。 フォームは、何が起こるかを知らずにこれらの関数にアクセスします。 ファサードは、フォームから不要なものをすべて隠します。 しかし、実際には、VCLFasade( [cpp][h] )はフォームとアルゴリズムからのイベントのみを接続します。 これらのアルゴリズムはありませんが、別のファサードのどこかにあります-(2)、AnalyserFasade( [cpp][h] )。 クラス(1)は単に呼び出しをオブジェクト(2)にリダイレクトするだけで、リストの視覚コンポーネントに入力するなどの追加作業を行います。 はい、そのような巨大な構造:オブジェクト(1)はオブジェクト(2)とその機能を知っています。 彼はどうやって知っていますか? メインフォームのコンストラクターでは、少し下に、2番目のファサードによるパラメーター化があります。



Copy Source | Copy HTML



  1. // .......
  2. VCLFasade.SetAnalyserControllersFasade(&AnalyserFasade); //別のオブジェクトによる1つのオブジェクトのパラメーター化。
  3. // .......






現在、クラス(1)がファサードであるかどうかはわかりません。おそらく他の何か、あるいはそれだけです。 ファサードを「シングル」パターン(シングルトン、 [1][2][3][4] )に配置するとよいでしょう。 残念ながら、2年前、私はこれを考えていませんでした。 プログラムが苦しんでいるわけではなく、いや、すべてが機能するはずです。 しかし、Lonerパターンに関連する可能性のいくつかは失われています。 結局のところ、1つのサブシステムに複数のエントリポイントを作成することはできませんか? できません。 それは禁止する価値があるでしょう。



メインフォームコンストラクターで他に興味深いものは何ですか?



Copy Source | Copy HTML



  1. // .......
  2. VCLFasade.SetViewsContainer(&ViewsContainer); //ファサード(1)で、ビューのコンテナが転送されます
  3. VCLFasade.SetAuthoringAnalyserTable( this ); //およびメインフォームへのポインタ。
  4. / *注:hファイルの周期的な包含と、 場合によっては事前決定 がどこかにあると結論付けることができます もちろん、これは悪いことですが、そのようになったのです。 * /
  5. //レポートシステムによるファサード(2)のパラメーター化:
  6. AnalyserFasade.SetAuthoringAnalysisReporter(&AnalysisReporter);
  7. AnalyserFasade.SetResoundingAnalysisReporter(&AnalysisReporter);
  8. // .......




そしてさらに-視覚的なコンポーネント(コントロール)のコンテナを埋めるための大きなシート。 要素(ボタンなど)はフォームから取得され、コンテナーに入力され、独自のグループになります。



Copy Source | Copy HTML



  1. // .......
  2. TVCLViewsContainer * vc =&ViewsContainer; //名前を短くします。
  3. vc-> AddViewsGroup(cCurrentTextInfo); //コンポーネントのグループcCurrentTextInfo-グループのテキスト名を作成します。
  4. vc-> AddView(cCurrentTextInfo、LCurrentTextNumber); // LCurrentTextNumber、LCurrentTextAuthor、
  5. vc-> AddView(cCurrentTextInfo、LCurrentTextAuthor); // LCurrentTextTitleなどは、ビジュアルコンポーネントへのポインタです。
  6. vc-> AddView(cCurrentTextInfo、LCurrentTextTitle); //例:TLabel * LCurrentTextNumber;
  7. vc-> AddView(cCurrentTextInfo、CLBTextsListBox);
  8. vc-> AddView(cCurrentTextInfo、MSelectedTextPreview);
  9. vc-> AddViewsGroup(cKeyTextInfo); //別のグループを作成します。
  10. vc-> AddView(cKeyTextInfo、LKeyTextNumber);
  11. vc-> AddView(cKeyTextInfo、LKeyTextAuthor);
  12. vc-> AddView(cKeyTextInfo、LKeyTextTitle);
  13. vc-> AddView(cKeyTextInfo、CLBTextsListBox);
  14. // ...など...




かなり不思議なアプローチですが、あまり明確ではありません。 コントロールはコンテナ(3)に転送され、コンテナはファサード(1)に転送されます。 そこでは、明らかに、コントロールが何らかの形で使用されます。 クラスTVCLViewsContainer( [cpp][h] )およびTVCLView( [h] )を確認した後、コントロールで行われるすべてが更新、表示/非表示、有効化/無効化、およびグループであることが明らかになります。 名前を知っているだけで、1つのグループを完全に更新し、別のグループを非表示にすることができます。 このアプローチはカプセル化に違反します。これは、削除を含め、コントロールを使用して何でもできるためです。 それらはフォームの括弧から外され、変更されるリスクがあります。



メインフォームクラスにはこれ以上面白いものはありませんので、クラス(2)( [cpp][h] )を詳しく見てみましょう。 この2番目のファサードはジョークなしですでに本物です。ただし、名前はCではなくSで記述されていることを除きます(「ファサード」-GOF( [1][2][3 ] ))。 このクラスは、分析サブシステムとの作業を簡素化し、インターフェースの背後にある実際のクラスを隠します。 そして、3つの実際のクラスがあります。



Copy Source | Copy HTML



  1. TAnalyserControllersFasade クラス
  2. {
  3. TTextsController _TextsController;
  4. TAuthoringAnalyser _AuthoringAnalyser;
  5. TResoundingMapAnalyser _ResoundingAnalyser;
  6. // .......






TAnalyserControllersFasadeクラスの単純な関数は、3つの実際のクラスのより複雑な関数にアクセスしますが、クライアントはこの複雑さについて何も知りません。 これにより、開発と使用が簡素化されます。 テキストをロードし(関数LoadAsPrototype()、LoadAsKeyText())、アナライザー設定をロードし(LoadResoundingAnalysisRules())、分析を実行し(DoAnalysis()関数)、そこのどこかで魔法のように機能します。 DoAnalysis()関数を詳しく見ると、目的の分析がテキスト名によって呼び出されていることがわかります。 いいですね 悪いニュースは、ファサードと組み合わせると、これは非常に拡張可能なソリューションではないということです。 文法チェックなど、さらに分析を行う場合は、4番目の実際のクラスであるGrammarAnalyserを追加し、ファサードにいくつかの追加機能を記述する必要があります。 そして、万能テキスト分析ツールを作成し、そのようなアナライザーを持っている場合-闇と闇? それから私は統一されたインターフェースを考え出し、分析器よりも抽象化を上げ、実行時にアルゴリズムを変更可能にしなければなりません...それは非常に...とてもそうです。 幸いなことに、私は巨人症のマニアが少し少なくなりましたが、そのときは必要ありませんでした。



3. TAuthoringAnalyserの内部とテキストストレージ




TAuthoringAnalyser( [cpp][h] )クラス-著者の真の分析を行う実際のクラスを見てください。 h-ファイルの最初の部分では、巨大なtypedefが印象的です。



Copy Source | Copy HTML



  1. クラス TAuthoringAnalyserパブリック TAnalyser
  2. {
  3. 公開
  4. typedefマップ< TTextString 、ParSentWordFSM :: TCFCustomUnitDivisionTreeItem、 less < TTextString >> TTextsParSentWordTrees;
  5. typedefマップ< TUInt 、TRangeMapsEqualifer :: TEqualifiedMapsContainer、 less < TUInt >> TLeveledEqualifiedMaps;
  6. typedefマップ< TUIntTFrequencyTablesContainerless < TUInt >> TLeveledFrequencyContainers;
  7. typedefマップ< TUIntTTextStringless < TUInt >> TIndexToAliasAssociator ;
  8. typedefマップ< TUIntTIndexToAliasAssociatorless < TUInt >> TLeveledIndexToAliasAssociators;
  9. // <安全でないコード> //注:このコードが安全ではない理由、覚えられない可能性が高い...
  10. typedefマップ< TUIntTResultVectorless < TUInt >> TLeveledResultVectors;
  11. // </安全でないコード>
  12. // .......






これらのタイプは、すべての中間データ、計算、結果を保存するために必要です。 したがって、TTextsParSentWordTreesには明らかに構造的なテキストツリーが含まれています。「すべてのテキスト->段落->文->単語」。 TLeveledFrequencyContainersには、テキストのレベル分布頻度特性などが含まれます。 また、すべての組み込み型( [h] )が再定義されていることにも気付くことができます。 TUInt == unsigned int、TTextString == AnsiString。 いつ役立つか想像するのは難しいです。 もちろん、オーバーライドされた型は、プロジェクトファイルに変更を加えることなく、すぐに変更できますが、そのような状況はどのくらいの頻度で発生しますか? 32ビット整数が欠落していることが突然判明したときは? 突然AnsiStringが満足しなくなり、std :: stringが必要になりましたか? 状況は仮説にすぎず、これは主に不十分に設計されたプログラムで発生します。 場合によっては、タイプが再定義され、実際には干渉せず、実際に助けにならず、それに慣れる必要があります。



ファサードアナライザーの保護されたセクションで、これらのオブジェクトおよび他のタイプのオブジェクトが宣言されています。



Copy Source | Copy HTML



  1. // .......
  2. プライベート
  3. TTextsConfigurator * _AllTextsConfigurator;
  4. TTextsConfigurator _AnalysedTextsConfigurator;
  5. TTextsParSentWordTrees _Trees;
  6. TLeveledEqualifiedMaps _LeveledEqualifiedMaps;
  7. TLeveledFrequencyContainers _FrequencyContainers;
  8. TLeveledIndexToAliasAssociators _IndexToAliasAssociators;
  9. // .......




TTextsConfiguratorクラスには複雑な構造があります。 彼の仕事には、テキストのダウンロード、保存、提供があります-深いコピーなし。 パラメータで渡されたテキストが完全にコピーされた場合、プログラムは適切です。 その場合、メモリもプロセッサ時間もありません。 したがって、TTextsConfiguratorはポインターを介したアクセスを提供します。 一度読み込まれると、テキストは常に利用できると考えられています。 「Text Configurator」には追加情報も保存されます。テキストは例であるか、キーですか。 テキストがアクティブ化されているかどうか(プログラムでは分析からテキストを除外できます)、作成者、タイトルなど。 この実装方法は、クラスTTextsConfigurator( [cpp][h] )、TTextConfiguration( [cpp][h] )TLogicalTextItem && TMPLogicalTextItem( [h] )、TRawDataItem && TMPRawDataItem( [cpp][] )で見ることができます。およびTTextDataProvider( [cpp][h] )。 これらのクラスのオブジェクトが互いに埋め込まれるのはこの順序であり、一種のネストされた人形を取得します。 アイデアは、テキストの論理表現と物理表現を分離し、ソースやテキストが保存されている形式について何も知らなくても「生データ」を異なるソースからダウンロードする機能を提供することでした。 したがって、生データローダーを変更できます。 とりわけ、「マスターポインター」( [1][2] )という仮説でスマートポインターパターン(TMPRawDataItemおよびTMPLogicalTextItemクラス)を使用します。 また、テキストの物理的な表現から抽象化できるクラス階層もあります。 これはすべて私にはほとんど役に立ちませんでした。 多分私は余分な仕事をしたが、多くの経験とポジティブな感情を得た。








All Articles