こんにちはHabrahabr、

Game of ThronesのGraph Theory記事の投票に基づいて、Erik Germaniによるトレーニング資料を翻訳します。ErikGermaniは、上記の記事の基礎となったSong of Ice and Fireシリーズの最初の5冊からソーシャルリンクグラフを受け取りました。この記事には、機械学習方法の詳細な説明は含まれていませんが、実際には、既存のツールを使用してテキスト内の対話の著者を検索する方法が説明されています。注意、たくさんの手紙！行こう

このチュートリアルは、私が1年前にこのプロジェクトを始めたときのように、機械学習の初心者を対象としています。（そして、私は今でも私は誰なのか、今は緑であり、このスレッドでは明るい緑ではありません。）ジョージR.R. マーティンの「氷と火の歌」。これを行うには、CRF条件付きランダムフィールド法（近似 条件付きランダムフィールドから ）と、岡崎直明のすばらしいCRFsuiteユーティリティを使用します。テキスト処理には、Python 2.7およびNLTK（Natural Language Toolkit）を使用します。

できる限り詳細にすべてを説明しようとします。私の行動の各ステップを説明するときに、自分のプロジェクトで役立つ新しいツールとメソッドを自分で抽出できることを願っています。コードは初心者から初心者まで説明されます。初心者はPython構文を理解し、リストの抽象化については知っていますが、それ以上のことはありません。もし私のコードの説明があなたの魂を消耗させていると感じたら、それらを飛ばしてください。

重要：条件付きランダムフィールドの方法に関する理論をここで見つけたい場合は、この資料は適していません。私にとって、CRFsuiteは猿の足で触れる美しい黒い箱です。モデルの効率を上げるためにしばらく時間を費やしますが、これは誤った試みであることがわかります。これがあなたを混乱させるなら、心に留めておいてください：

箱から出してすぐにCRFsuiteで良好な結果（〜75％の精度）を達成することができました
LaTeXはありません

ゲームプランはシンプルです。他の機械学習アルゴリズムと同様に、トレーニングと検証のためにデータを準備する必要があります。次に、アルゴリズムが分類に使用するプロパティを選択します。これらのプロパティを使用してテキストを処理した後、結果をCRFsuiteにフィードし、よくできた仕事を祝福します。（または、マシンの推測を確認する骨の折れる作業を負担します）。

始めましょう。

テキストをダウンロード

まず第一に、テキストのソースのコピーを見つける必要があります。そのために鉄の代価を支払うかどうかはあなたにお任せします。

自然言語処理を初めて使用する場合、ソースコードの難しさを過小評価する可能性があります。各.txtファイルには、各文字の記述方法を決定するエンコードがあります。 Ocarina of Timeのチュートリアルを読んだASCII形式は、すべての特殊文字を処理できるUTF-8に置き換えられました。（ASCIIは128文字を表すことができます。）私のPLIP（おおよその氷と火の歌）のコピーはUTF-8であるため、多少不便になりますが、実際にはボーナスです。

このテキストをNLTKにアップロードして、操作しやすくします。 NLTKは多くのタスクを実行できます。それがPythonを学んだ方法です。もしそれがあなたにとって興味深いものであることがわかったら、すばらしいオンラインブックをご覧ください。この目的のために、このツールを使用してテキストをトークンに分割します。これは、自然言語処理プロジェクトでよく行われるように、文を単語と句読点に分割することを意味します。

import nltk nltk.word_tokenize("NLTK is ready to go.")

  ['NLTK'、 'is'、 'ready'、 'to'、 'go'、 '。']

NLTKにはシェルがプリロードされていますが、自分でアップロードする必要があります。

フォルダーを作成し、そこにPLIPテキストファイルを貼り付けます。本は非常に大きいため、公開ソーステキストはほぼ10 MBになります。テキストの検索および置換には理想的ではありません。テキストを本に分割しましたが、もっと分析する本物の専門家は、各本を章に分けて、順番に番号を付けます。

しかし、今すべてを複雑にしないでください！テキストがフォルダーに入ったら、次を実行できます。

 corpus = nltk.corpus.PlaintextCorpusReader(r'corpus', 'George.*\.txt', encoding = 'utf-8')

ここで、 rは文字列を処理しないことを示します。ここでは関係ありません私は「コーパス」フォルダに直接アクセスしますが、あなたの場合、フォルダの場所が難しい場合は、忘れないほうがいいでしょう。

2番目の引数は、名前に「George」が含まれ、拡張子が「.txt」であるフォルダー内のすべてのファイルを取得するようにNLTKに指示する正規表現です。

エンコードパラメータは非常に重要です-テキストのエンコードが指定されたものと一致しない場合、エラーが発生します。

NLTKの本文は非常に便利で、さまざまなレベルのテキストから情報を取得できます。

 corpus.words("George RR Martin - 01 - A Game Of Thrones.txt")[-5:]

[u'the '、u'music'、u'of '、u'dragons'、u '。']

 corpus.words()[0]

u'PROLOGUE '

 corpus.sents()[1][:6]

  [u '\ u201c'、u'We '、u'should'、u'start '、u'back'、u '、\ u201d']

Game of Thronesのプロローグから運命のGaredを聞き、Pythonで表現されたUnicode文字を確認します。すべてのUnicode文字列はuで始まり、特殊文字が含まれていることがわかります。 \ u201cは左引用符、\ u201dは右引用符です。 UTF-8の方がおまけだと言いましたが、それが理由です。エンコーディングを指定せずに同じファイルを開くとどうなるか見てみましょう。

 bad_corpus = nltk.corpus.PlaintextCorpusReader(r'corpus', '.*\.txt') bad_corpus.sents()[1][:9]

  ['\ xe2'、 '\ x80 \ x9c'、 'We'、 'should'、 'start'、 'back'、 '、'、 '\ xe2'、 '\ x80 \ x9d']

\ uがUnicode文字列を指すように、\ xは16進数文字列を指すので、NLTKは3つの16進数バイト（\ xe2、\ x80、\ x9c）を与え、それらを分割しようとします。彼はこれを行う方法を知らないことがわかります。

段落を扱うので、そのうちの1つを見てみましょう。

 print corpus.paras()[1]

  [[u '\ u201c'、u'We '、u'should'、u'start '、u'back'、u '、\ u201d'、u'Gared '、u'urged'、u'as '、 u'the '、u'woods'、u'began '、u'to'、u'grow '、u'dark'、u'around '、u'them'、u '。']、[u '\ u201c '、u'The'、u'wildlings '、u'are'、u'dead '、u'。\ u201d ']]

NLTKがデータを構造化する方法に気付くかもしれません。オファーはトークンのリストであり、段落はオファーのリストです。簡単！

次に、トレーニング用のデータを準備する必要がありますが、これを行うには、使用するラベルを決定する必要があります。テキストを解析するとき、アルゴリズムは、トークンが字句カテゴリに属していることを認識します。各カテゴリには独自のラベルがあります。 JJは形容詞、NNは名詞、INは前置詞です。これらのラベルは、モデルの信頼性において重要な役割を果たします。 Penn Treebank （ およそテキストラベルのプロジェクト ）は、36のそのようなラベルを強調しています 。

タグは何になりますか？最も単純なオプションはキャラクター名です。これはいくつかの理由で機能しません：

PLIPには1000文字以上が含まれています。これは私たちの貧しいモデルにとってはあまりにも多くの選択です。平凡な運に依存して正しく分類するには、できるだけ多くのタグを取り除く必要があります。
文字の扱いは異なります。 Joffreyは、「Joffrey」、「Joff」、「Prince」、または単に「彼」のいずれかです。
キャラクター名をラベルとして使用する場合、トレーニングデータで定義する必要があります。そうしないと、モデルはそれらの存在を認識しないため、それらを決定できません。
すべてのキャラクターの音は同じです。（機械学習の別の経験のおかげで、これを実現しました。そこでは、語彙に従ってキャラクターを分離しようとしました）。いくつかは、Varisの「後悔」（ 約Grievous ）やHodorの「Hodor」などのキャッチフレーズを持っていますが、これはまれです。さらに、多くの人にとって、他の人と話すのに十分な時間がありません。

キャラクターの名前による定義は非常に魅力的ですが、この考えを捨てて、同様の問題を解決するときに読者の頭の中で起こるプロセスについて考えてみましょう。

あなたに一番近い本を取り、ランダムなページを開いて、そこで誰が話しているのかを判断してください。これをどうやってやるの？ダイアログの横にある最も近い固有名を確認します。

「彼らを見るだろう」とガードは答えた。

[...]

ワイマール・ロイスirは無関心に空を見上げた。「夜は毎日同じ時間です。暗闇はあなたの勇気を奪いますか？」

ただし、ダイアログのすべての行がマークされているわけではありません。さらに見て、見てください：

「体の位置に気付いた？」

上の段落と下の段落をご覧ください。上に2つあります。

「そして武器？」

「いくつかの剣と弓。 1つは、2本の刃を持つ残酷な鉄のhadでした...残酷な鉄。彼はこの男の隣の地面に彼の手元に横たわりました。」

ヒントの一滴ではありません。以下の2つの段落：

肩をすくめます。「一人は崖の近くに座っていた。残りは地面か何かにありました。」

「または、彼らは眠った」とロイスは示唆した。

ウィルは自問しないことを知っているので、彼はこの演説の著者ではないと言うことができ、多くのダイアログはいくつかの段落に広がっているため、最初の行の著者はロイスであると仮定します。

このスキームは、モデルをマークするのに役立ちます。テキストの横に自分の名前を識別するように彼女に教えます。名前がない場合は、近くの段落を調べます。次に、タグは次のようになります。

PS±2、FN±2、NN±2、その他。

PS-スピーカーの後。段落のラベルがPS -2の場合、ダイアログの名前を話す部分が2段落上にあることを意味します。 FN 1の場合、次の段落の名。 NN 0は、少なくとも2つの名前が対話の前にあり、対話に最も近い名前が必要であることを意味します。

また、ダイアログのテキストで参照される文字について、ADR±2を決定します。

マーク

次に、トレーニングデータを準備します。このSublimeTextで役立ちます。「ゲームオブスローンズ」というテキストを開き、左側の引用符を強調表示し、[検索]-> [すべてをすばやく検索]を選択し、ホームキーを2回押しました。これで、カーソルはダイアログのある各段落の先頭近くにあります。次に、「{}」と入力しました。なぜならテキストには中括弧はありません。その後、それらを使用して、今後使用するメモを残すことができます。

正規表現（？<= \ {）（？= \}）を使用して、中括弧を飛び越えます。この設計に会っていない場合、それらは前向きな回顧的かつ主要なチェックと呼ばれます。括弧で囲まれた最初の式により、SublimeTextは先頭に開始中括弧（バックスラッシュでエスケープされた）がある行の強調表示を開始します。次の式は、右中括弧がある場合に停止を示します。ご覧のとおり、両方の式はa？= Constructで構成され、最初の式のみに<も含まれています。

F3を押すと、ブラケット間を移動できます。これは、WindowsのSublimeTextで次のブラケットを見つけるためのホットキーです。この種の最適化は重要です約1,000個のダイアログにタグを付けます。少なくとも私はそんなにやりました。思ったほど難しく、時間もかかりませんでした。（たぶん私は嘘をついていますが、たった1年後に終わったからです）。

始める前に、1つの発言をしたいと思います。位置ラベル（PS、FN、NN）を使用するか、すべて同じ文字名を使用するかを考えてください。名前を使用しないことは既に述べましたが、位置ラベルを使用する場合は、このトレーニングデータを対応するモデルに関連付けます。 Johnのダイアログに「Jon」というラベルを付けると、将来的にラベルを定位置のものに変更したり、より適切に他のラベルを使用したりすることができます。

単一の答えはないと思います。昨年、私はキャラクター名でタグ付けしました。次に、あいまいさを追加する予備的な操作を行う必要があります。 Eddardの名前が上の2つの段落と下の1つの段落に表示される場合、どちらを選択しますか？これはモデルの動作に直接影響し、それを行うとプロセスがさらに不正確になります。したがって、何をアドバイスすればよいかわかりません。手動タグの観点からは、キャラクターの名前を書く方が簡単なようですが、自動化の観点からは、位置タグを持つ方がはるかに便利です。

プロパティの取得

さて、テキストの一部にタグを付けました。自然言語処理へのコミットメントを称賛します。ここで必要なのは、段落を引数として受け取り、興味のあるプロパティでマークするいくつかの関数を書くことです。

どのプロパティを通知しますか？モデルの正確性を担当する主力は、次の機能です。PS、FN、またはNNが現在の段落または隣接する段落に存在するかどうか。

名前検索

最初の機能は、適切な名前を見つけることです。これは、品詞を定義することで実行できます。

 sentence = corpus.paras()[33][0] print " ".join(sentence) print nltk.pos_tag(sentence)

  「そのような雄弁さ、Gared」Ser Waymarは観察した。
 [（u '\ u201c'、 'NN'）、（u'Such '、' JJ '）、（u'eloquence'、 'NN'）、（u '、'、 '、'）、（u'Gared '、' NNP '）、（u'、\ u201d '、' NNP '）、（u'Ser'、 'NNP'）、（u'Waymar '、' NNP '）、（u'observed'、 'VBD '）、（u'。 '、'。 '）]

SerとWaymarに近いNPPは、これらが固有名であることを意味します。しかし、欠点もあります：

エラーが発生します。終わりの引用が適切な名前になったことに注意してください。
品詞の識別には時間がかかります。

 %timeit nltk.pos_tag(sentence)

  100ループ、ベスト3：ループあたり8.93ミリ秒

 asoiaf_sentence_count = 143669 ( asoiaf_sentence_count * 19.2 ) / 1000 / 60

  45.974079999999994

PLIPには、処理するための多くの段落があり、品詞がテストおよびリファクタリングプロセスを遅延させると判断するのに45分以上かかります。もちろん、すべてを一度分析して、何が起こったのかを引き続き確認できます。ただし、このためには、さらに別のデータ構造に対処する必要があり、そのような定義は、ソーステキストが変更されるたびにやり直す必要があります。（そしてこれは避けられません。）

幸いなことに、キャラクター名を決定するために品詞に連絡する必要はありません。これは、分析のためにPLIPを選択する利点の1つです。すでに受信したデータが大量にあります。それらのいくつかを削りましょう。

既存の情報

Wiki Songs of Ice and Fireであることがわかりました。ヒーロー名のリストを含むページを文字通りコピーすることで、キャラクター名のほぼ網羅的なリストを得ました。結果はここで見つけることができます。これで十分な場合は、記事の次の章で説明します。ページからデータを自動的に抽出する方法に興味がある人のために、他のプロジェクトで使用したいくつかの方法を紹介します。

Wget

既知のリンクをたどる必要がある場合に非常にシンプルな優れたユーティリティ。リンクをバイパスする方法について考える必要はありません。リストを含むファイルを作成し、次のように-iフラグを使用して転送するだけです。

 wget -i list_of_links.txt

必要条件

Pythonには、個々のページでの作業に適した要求ライブラリがあります。

 import requests r = requests.get("http://awoiaf.westeros.org/index.php/List_of_characters") html = r.text print html[:100]

  <！DOCTYPE html>
 <html lang = "en" dir = "ltr" class = "client-nojs">
 <head>
 <メタ文字セット= "UTF-8" />
 <タイトル

解析

htmlをダウンロードしたら、リンクにアクセスするために、不要なタグからページを剥離する必要があります。 BeautifulSoupは、面倒なことなくリンクを取得できるHTMLパーサーです。インストールと解析後、次を実行するだけですべてのリンクを見つけることができます。

 parsed_html.find_all("a")

ここでそれについてもっと読むことができます。

lxmlライブラリを使用する別の方法について説明したいと思います。このライブラリを使用すると、Xpathを操作できます。 Xpathは初めてですが、これはツリー構造をナビゲートする強力な方法です。

 import lxml.html tree = lxml.html.fromstring(html) character_names = tree.xpath("//ul/li/a[1]/@title") print character_names[:5]

  ['Abelar Hightower'、 'Addam'、 'Addam Frey'、 'Addam Marbrand'、 'Addam Osgrey']

上からXpath式を尋ねると、次のようになります。

 tree.xpath("//ul        #                 /li        #               /a[1]      #     .            /@title    #   title          ")

次に、結果の中から名前を強調表示し、名前とは関係のない名前を削除する必要があります。 PLIPページを見るだけで、「Myrのテエナ」のような要素に気付きました。モデルが「of」粒子をダイアログに一致させないようにします。

NLTKはこれに役立ちます。「悪い」単語-ストップワードを含むテキスト本文があります。テキストを特徴付ける意味がないほど一般的なもの。

 particles = ' '.join(character_names).split(" ") print len(set(particles)) stopwords = nltk.corpus.stopwords.words('english') print stopwords[:5] particles = set(particles) - set(stopwords) print len(particles) #     . .. Aegon I   ,   #  I    .    . "I" in particles

  2167
 ['i'、 'me'、 'my'、 'myself'、 'we']
 2146
本当

最後に、デニス、ブラックフィッシュ、ジョフなど、見逃したニックネームを追加する必要があります。名前のリストに満足したら、将来の使用に備えてファイルに保存します。

名前を検索します。パート2

品詞を使用して名前を見つけるという考えを捨て、名前のリストを取得しました。トークンのシーケンスを抽出し、名前のリストでそれらを見つけることができるかどうかを確認します。最後に、コードを作成します。

 import itertools from operator import itemgetter particles = [particle.rstrip('\n') for particle in open('asoiaf_name_particles.txt')] tokens = [u'\u201c', u'Such', u'eloquence', u',', u'Gared', u',\u201d', u'Ser', u'Waymar', u'observed', u'.'] def roll_call(tokens, particles):   speakers = {}   particle_indices = [i for (i, w) in enumerate(tokens) if w in particles]   for k, g in itertools.groupby(enumerate(particle_indices), lambda (i,x): ix):       index_run = map(itemgetter(1), g)       speaker_name = ' '.join(tokens[i] for i in index_run)       speakers[min(index_run)] = speaker_name   return speakers

この関数は、昨年このプロジェクトを行ったときに使用できなかったラムダ式を使用します。そのとき私が使用したスクリプトはひどく読みにくいため、あえて公開することはしませんでした。さらに、このスクリプトでは、初心者が新しいことを学ぶことができると思うので、これについてもう少し説明します。

Itertoolsは注目に値するツールです。私はよく入れ子や置換を取り除くためにそれを使用します。その中で、 groupby関数が必要です。執筆時点でこの関数の新しいバージョンがリリースされたため、私はdropwhileとtakewhileよりも完全にgroupbyを好みました。これを再帰的に使用しました。

プログラミングするとき、 roll_call関数は見つけた名前の位置を知っているべきだと思いました。そこで、名前のシリアル番号をすべて保持することにしました。これは、機能コードの3行目で確認できます。

 particle_indices = [i for (i, w) in enumerate(tokens) if w in particles]

Enumerateは、Pythonを紹介されたときに非常に役立ちました。リストを取得し、各要素に対して一連のシリアル番号と要素自体を返します。

4行目は、すべての資料の中でコードの最も扱いにくい部分であり、私はそれを書きませんでした。ライブラリのドキュメントから直接取得されます。

 for k, g in itertools.groupby(enumerate(particle_indices), lambda (i,x): ix):

Groupbyはリストを調べ、ラムダ関数の結果に応じて要素をグループ化します。ラムダは匿名関数です。 roll_callとは異なり、事前に定義する必要はありません。これは、引数を取り値を返すコードの一部にすぎません。この場合、シリアル番号から数字を引くだけです。

それがどのように機能するかを見てみましょう。

 print tokens particle_indices = [i for (i, w) in enumerate(tokens) if w in particles] print particle_indices for index, location in enumerate(particle_indices):   lambda_function = index-location   print "{} - {} = {}".format(index, location, lambda_function)

  [u '\ u201c'、u'Such '、u'eloquence'、u '、'、u'Gared '、u'、\ u201d '、u'Ser'、u'Waymar '、u'observed'、u '。']
 [4、6、7]
 0-4 = -4
 1-6 = -5
 2-7 = -5

これはgroupbyのトリックです。インデックスには順番に番号が付けられるため、リスト内の項目も次々と移動する場合、ラムダの結果は同じになります。

groupbyは-4を見て、グループに値4を割り当てます。 6番目と7番目の要素は両方とも-5を持ち、それぞれグループ化されます。

これで、複合名の場所がわかり、それらを使用する必要があります。 groupbyは何を返しますか？キー、ラムダの結果、およびグループ自体、 グルーパーオブジェクト。次に、 map関数を使用してitemgetter（1）を適用し、バンドルから要素を抽出し、グループのすべての要素に適用します。したがって、元のトークンリストに名前のリストを作成します。

groupbyの後、見つかった名前を抽出し、 スピーカーの連想配列に保存するだけです。

 roll_call(tokens, particles)

  {4：u'Gared '、6：u'Ser Waymar'}

最適化

この関数の速度を、品詞を使用した方法と比較してみましょう。

 %timeit roll_call(tokens, particles)

  100ループ、ベスト3：ループあたり3.85 ms

悪くない、5-6倍高速。しかし、 setを使用して結果を改善できます。 セットは 、アイテムがリストにあるかどうかをほぼ瞬時にチェックします。

 set_of_particles = set(particle.rstrip('\n') for particle in open('asoiaf_name_particles.txt')) %timeit roll_call(tokens, set_of_particles)

  10000ループ、最高3：ループあたり22.6 µs

ギリシア文字を高速で見ると、自分が良いことを理解します。

会話名の検索

ここで、ダイアログのテキストの前、中、後の文字の名前を見つけるために、適切な場所で上記の関数を呼び出すプログラムを作成する必要があります。これらすべてを、私たちのためにキャラクター名の完全なリストを収集できるクラスに入れ、それをプロパティを抽出するための別のアルゴリズムに渡してから、CRFsuiteに渡します。

しかし、最初に、データを整理したいと思います。

XMLパーサー

Xpathを使用した1行のコマンドが成功した後、テキストファイル用のXMLパーサーを作成することにしました。この形式を選択することには多くの意味があります。 PLIPは、パラグラフで構成される章があり、その中にはダイアログが含まれる多数の本があります。それらを慎重にマークする必要があります。テキストをXMLに翻訳していなかった場合（最初は翻訳していなかった場合）、ラベルはテキスト自体を散らかしていたでしょう。

以下のスクリプトについては黙っておく方が好きです。Pythonでの最初のステップ、巨大な関数、松葉杖、長い名前の変数を思い出させてくれます。

 from lxml import etree import codecs import re def ASOIAFtoXML(input): #   input           . root = etree.Element("root") for item in input:   title = item["title"]   current_book = etree.Element("book", title=item["title"])   root.append(current_book)   with codecs.open(item["contents"], "r", encoding="utf-8") as book_file:       #  ,      .       current_chapter = etree.Element("chapter", title="Debug")       for paragraph in book_file:           paragraph = paragraph.strip()           if paragraph != "":               title_match = re.match("\A[AZ\W ]+\Z", paragraph)               if title_match:                   current_chapter = etree.Element("chapter", title=title_match.group())                   current_book.append(current_chapter)               else:                   current_graf = etree.SubElement(current_chapter, "paragraph")                   while paragraph != "":                       current_dialogue = current_graf.xpath('./dialogue[last()]')                       speaker_match = re.search("(\{(.*?)\} )", paragraph)                       if speaker_match:                           speaker_tag = speaker_match.group(1)                           speaker_name = speaker_match.group(2)                           paragraph = paragraph.replace(speaker_tag, "")                       open_quote = paragraph.find(u"\u201c")                       if open_quote == -1:                           if current_dialogue:                               current_dialogue[0].tail = paragraph                           else:                               current_graf.text = paragraph                           paragraph = ""                       elif open_quote == 0:                           current_dialogue = etree.SubElement(current_graf, "dialogue")                           if speaker_name:                               current_dialogue.attrib["speaker"] = speaker_name                           close_quote = paragraph.find(u"\u201d") + 1                           if close_quote == 0:                               #  find  -1   ,    0                               #        .                                 #      .                               close_quote = len(paragraph)                           current_dialogue.text = paragraph[open_quote: close_quote]                           paragraph = paragraph[close_quote:]                       else:                           if current_dialogue:                               current_dialogue[0].tail = paragraph[:open_quote]                           else:                               current_graf.text = paragraph[:open_quote]                           paragraph = paragraph[open_quote:]   return root tree = ASOIAFtoXML([{"title": "AGOT", "contents": "corpus/train_asoiaf_tagged.txt"}]) #      . # et = etree.ElementTree(tree) # et.write(codecs.open("asoiaf.xml", "w", encoding="utf-8"), pretty_print=True)

上記のコードの本質：lxmlを使用してツリーを作成し、テキストを1行ずつ確認します。その行が章の名前（大文字、句読点、スペース）として認識されている場合、現在の本の上部に新しい章を追加します。章の本文を読み終えたらすぐに、別の正規表現を使用して段落を読み、だれが会話を話したかを判断し、それを会話の対応する頂点に追加します。以前は、もちろん既にラベル付けされていなければなりません。

XMLに関する興味深いメモ。これは階層構造であるため、その性質上、厳密な分岐が必要であり、最上部が最上部にあります。しかし、これは散文ではそうではありません。散文では、対話はテキスト内にあります。 lxmlはソリューションを提供します：テキストとテール。したがって、XML頂点はテキストを格納しますが、このテキストは次の頂点が追加された後に中断されます。

 markup = '''<paragraph>Worse and worse, Catelyn thought in despair. My brother is a fool. Unbidden, unwanted, tears filled her eyes. <dialogue speaker="Catelyn Stark"> “If this was an escape,”</dialogue> she said softly, <dialogue speaker="Catelyn Stark">“and not an exchange of hostages, why should the Lannisters give my daughters to Brienne?”</dialogue></paragraph>''' graf = lxml.etree.fromstring(markup) print graf.text

さらに悪いことに、カテリンは絶望的に考えました。私の兄弟はばかです。
目に見えない、不必要な涙が彼女の目を満たした。

 print graf[0].text

 「これが脱出だったなら」

残りの「彼女は穏やかに言った」はどうなりますか？変数の頂点の末尾に保存します。

 print graf[0].tail

 彼女はそっと言った、

など、ダイアログの各頂点に残りのテキストを追加します。

その結果、ダイアログ作成者の検索が必要なときに大幅に簡素化されます。そして今すぐ必要です！

 class feature_extractor_simple:   """Analyze dialogue features of a paragraph. Paragraph should be an lxml node."""   def __init__(self, paragraph_node, particles, tag_distance=0):       self.paragraph = paragraph_node       self.particles = set(particles)       self.tag_distance = tag_distance       self.raw = ''.join(t for t in self.paragraph.itertext())       self.tokens = self.tokenize(self.raw)   def tokenize(self, string):       return nltk.wordpunct_tokenize(string)   def find_speakers(self, tokens):       speakers = {}       particle_indices = [i for (i, w) in enumerate(tokens) if w in self.particles]       for k, g in itertools.groupby(enumerate(particle_indices), lambda (i,x): ix):           index_run = map(itemgetter(1), g)           speaker_name = ' '.join(tokens[i] for i in index_run)           speakers[min(index_run)] = speaker_name       return speakers   def pre_speak(self, prior_tag="FN", near_tag="NN"):       #   .       features = {}       if self.paragraph.text is not None:           speakers = self.find_speakers(self.tokenize(self.paragraph.text))           if len(speakers) > 0:               features.update({"{} {}".format(prior_tag,self.tag_distance): speakers.values()[0]})           if len(speakers) > 1:               features.update({"{} {}".format(near_tag,self.tag_distance): speakers[max(speakers.keys())]})       return features   def dur_speak(self, tag="ADR"):       #  .       features = {}       for dialogue in self.paragraph.itertext("dialogue", with_tail=False):           tokens = self.tokenize(dialogue)           named = self.find_speakers(tokens)           addressed = {k: v for (k, v) in named.items() if tokens[k-1] == "," or tokens[k + 1 + v.count(" ")].startswith(",")}           if len(addressed) > 0:               features.update({"{} {}".format(tag, self.tag_distance): addressed[max(addressed.keys())]})       return features   def post_speak(self, tag="PS"):       features = {}       #   .       tails = [line.tail for line in self.paragraph.iterfind("dialogue") if line.tail is not None]       for tail in tails:           tokens = self.tokenize(tail)           speakers = {k: v for (k, v) in self.find_speakers(tokens).items() if k <= 1}           if len(speakers) > 0:               features.update({"{} {}".format(tag, self.tag_distance): speakers[min(speakers.keys())]})               break       return features

これらの機能に関するいくつかの言葉。

Pythonを初めて使用する場合は、クラスを恐れないでください。通常の関数を作成し、selfを引数として渡すだけです。これにより、関数が現在処理しているオブジェクトがPythonに通知されます。クラスはクローンファクトリのようなものであり、オブジェクトはクローンです。すべてのクローンは同じDNAを持ち、これらは方法と変数ですが、人生の経験のために、性格は異なります。このコンテキストでは、クローンは送信されたデータです。

クラスには、オブジェクト変数を初期化できる特別な関数__init__もあります。

リラックスできるようになりましたデータは特別なクラスの手にあります。そして、あなたは彼の行動を抽象化したので、指をクリックするだけで、彼によって処理された情報を得ることができます。

 paragraph = tree.xpath(".//paragraph")[32] example_extractor = feature_extractor_simple(paragraph, particles) print example_extractor.raw print example_extractor.pre_speak() print example_extractor.dur_speak() print example_extractor.post_speak()

「そのような雄弁さ、Gared」Ser Waymarは観察した。「あなたがあなたの中にそれを持っているとは思わなかった。」
 {}
{'ADR 0'：u'Gared '}
{'PS 0'： 'Ser Waymar'}

一部の機能の動作に混乱している場合は、それらの機能について簡単に説明します。上記のすべてがあなたに受け入れられるように見えるなら、あなたは何をすべきかを知っています、次の章で会いましょう。

連想配列の扱いにくい操作があります。これは、Pythonで順序付けられていないためです。家を出るときにポケットに鍵がなく、ドアをロックしていると感じる気持ちを思い出させます。場合によっては、最初の文字を取得するか最後の文字を取得するかを常に確認する必要がありました。キーの値を見て、最小/最大を選択します。

pre_speak

上で言ったように、テキスト属性には、ダイアログの最初の行までのすべてのテキストが含まれています。その中のキャラクターの名前を見つけるだけです。

dur_speak

名前が多くの行で構成されるダイアログの本文にある場合、それらすべてを確認する必要があります。

 for dialogue in self.paragraph.itertext("dialogue", with_tail=False)

機能itertextでlxmlのは、あなたがすべてのテキストトップを取得することができます。また、フラグwith_tail = Falseを設定して、「テール」のない頂点のみを検索します。これは、ダイアログのテキストのみを意味します。

キャラクターの名前を見つけたらすぐに、コンマで区切られたキャラクターのみを選択する必要があります。これにより、アピールを見つけることができます。（たとえば、「ネッド、約束してください。」/「約束して、ネッド。」）

私は、ダイアログで見つかった姓が次の段落で答える可能性が非常に高いと内部から感じているので、記載されている姓で宛先を書き換えます。

post_speak

この機能では、ダイアログの後の最初の文字のみが必要です。したがって、サイクルが見つかるとすぐに中断します。

関数は、閉じ引用符の後の最初の2つのトークンを調べます。そのため、次のようなダイアログが表示されます。

「さようなら」とジョンは言った。

初心者プログラマー向けのヒント：リストを作成するときにフェッチ関数を呼び出すことができます。

 tails = [line.tail for line in self.paragraph.iterfind("dialogue") if line.tail is not None]

これにより、ダイアログを1行で取得できました。（条件を指定するだけで、テールなしですべての結果を削除できます）

CRFsuite

おそらく、これはあなたにとって最も興味のある部分でしょう。条件に応じてランダムなフィールドが含まれており、コマンドラインから起動されますが、内部からどのように機能するかを確認する方法はありません。

しかし実際、CRFsuiteは非常にシンプルで興味深い部分です。資料を書いているときに、彼はPythonのライブラリを持っていることがわかりましたが、今は物事を複雑にせず、コマンドラインを使用して実行可能ファイルを使用します。

（次の本「Winds of Winter」が

日の目を見ると、モデルを更新する予定です。しかし、これが起こるまであと数年あります）CRFsuiteが必要とするのは、次のようなタブ区切りのプロパティを持つテキストです。

 FN 0 Graf Sent Len = 4 FN 1 = True FN -2 = True FN 0 = True NN 1 = True

これは、トレーニングデータの形式です。最初の属性は正解です。後続のすべてのプロパティ。見た目は似ているかもしれませんが、コロンは使用しないでください-これは重み付けされたプロパティのためであるため、誤った解釈につながる可能性があります。

crfsuite.exeがある場所でコマンドラインを開き、そこに次を入力する必要があります。

 crfsuite learn -m asoiaf.model train.txt

これにより、すべての頭脳であるモデルが作成されます。あなたは彼女に好きなものを何でも呼ぶことができます、私は私のasoiafと呼びました。モデルの精度を確認するには、次を入力します。

 crfsuite tag -qt -m asoiaf.model test.txt

タグ付けのためにモデルを実際に実行するには、次を入力します

 crfsuite tag -m asoiaf.model untagged.txt

untagged.txtはのように見えるとすべきであるtrain.txtが、最初に正しい答えを属性ではない、すなわち、このようなもの：

 NN -1 = True FN 0 = True FN 2 = True FN -1 = True NN 0 = True

ここで詳細を確認できます。

モデルの精度を向上させることができる多くのプロパティをいじってみましょう。最も単純なものから始めましょう。段落内および段落の近くの位置ラベルの位置を決定するブール値を使用します。

繰り返しになりますが、プロパティを抽出するためのクラスは、最初にいくつかの新しい機能が追加されました。

 class feature_extractor:   """Analyze dialogue features of a paragraph. Paragraph should be an lxml node."""   def __init__(self, paragraph_node, particles, tag_distance=0):       self.paragraph = paragraph_node       self.particles = set(particles)       self.tag_distance = tag_distance       self.raw = ''.join(t for t in self.paragraph.itertext())       self.tokens = self.tokenize(self.raw)       self.speaker = self.xpath_find_speaker()   def features(self):       features = {}       features.update(self.pre_speak())       features.update(self.dur_speak())       features.update(self.post_speak())       return features   def local_features(self):       #               features = []       if self.tokens.count(u"\u201c") == 0:           features.append("NoQuotes=True")       prior = self.paragraph.getprevious()       try:           last_dialogue = list(prior.itertext("dialogue", with_tail=False))[-1].lower()           hits = [w for w in ['who', 'you', 'name', '?'] if w in last_dialogue]           if len(hits) > 2:               features.append("Who Are You?=True:10.0")       except (AttributeError, IndexError):           pass       try:           dialogue = list(self.paragraph.itertext("dialogue", with_tail=False))[0].lower()           for token in ['name', 'i am', u'i\u2019m']:               if token in dialogue:                   features.append("My Name=True:10.0")                   break       except (AttributeError, IndexError):           pass       if self.tokens[0] in self.particles:           features.append("FirstSpeakerIndex0=True")       if self.paragraph.text is not None:           name_precount = len(self.find_speakers(self.tokenize(self.paragraph.text)))           if name_precount > 2:               features.append("Many Names Before=True")           conjunctions = set([w.lower() for w in self.tokenize(self.paragraph.text)]).intersection(set(['and', 'but', 'while', 'then']))           if len(conjunctions) > 0 and self.paragraph.find("dialogue") is not None:               features.append("Conjunction in Head=True")       short_threshold = 10       if len(self.tokens) <= short_threshold:           features.append("Short Graf=True")       dialogue_length = sum(map(len, self.paragraph.xpath(".//dialogue/text()")))       dialogue_ratio = dialogue_length / len(self.raw)       if dialogue_ratio == 1:           features.append("All Talk=True")       elif dialogue_ratio >= 0.7:           features.append("Mostly Talk=True")       elif dialogue_ratio < 0.3 and not self.tokens < short_threshold:           features.append("Little Talk=True")       return features   def feature_booleans(self):       bool_features = []       for tag in ["PS", "FN", "NN", "ADR", ]:           label = "{} {}".format(tag, self.tag_distance)           if label in self.features().keys():               bool_features.append("{}=True".format(label))           else:               bool_features.append("{}=False".format(label))       return bool_features   def tokenize(self, string):       return nltk.wordpunct_tokenize(string)   def find_speakers(self, tokens):       speakers = {}       particle_indices = [i for (i, w) in enumerate(tokens) if w in self.particles]       for k, g in itertools.groupby(enumerate(particle_indices), lambda (i,x): ix):           index_run = map(itemgetter(1), g)           speaker_name = ' '.join(tokens[i] for i in index_run)           speakers[min(index_run)] = speaker_name       return speakers   def xpath_find_speaker(self):       speakers = self.paragraph.xpath(".//@speaker")       if speakers == []:           return "NULL"       else:           return speakers[0]   def pre_speak(self, prior_tag="FN", near_tag="NN"):       #          features = {}       if self.paragraph.text is not None:           speakers = self.find_speakers(self.tokenize(self.paragraph.text))           if len(speakers) > 0:               features.update({"{} {}".format(prior_tag,self.tag_distance): speakers.values()[0]})           if len(speakers) > 1:               features.update({"{} {}".format(near_tag,self.tag_distance): speakers[max(speakers.keys())]})       return features   def dur_speak(self, tag="ADR"):       #          features = {}       for dialogue in self.paragraph.itertext("dialogue", with_tail=False):           tokens = self.tokenize(dialogue)           named = self.find_speakers(tokens)           addressed = {k: v for (k, v) in named.items() if tokens[k-1] == "," or tokens[k + 1 + v.count(" ")].startswith(",")}           if len(addressed) > 0:               features.update({"{} {}".format(tag, self.tag_distance): addressed[max(addressed.keys())]})       return features   def post_speak(self, tag="PS"):       features = {}       #          tails = [line.tail for line in self.paragraph.iterfind("dialogue") if line.tail is not None]       for tail in tails:           tokens = self.tokenize(tail)           speakers = {k: v for (k, v) in self.find_speakers(tokens).items() if k <= 1}           if len(speakers) > 0:               features.update({"{} {}".format(tag, self.tag_distance): speakers[min(speakers.keys())]})               break       return features paragraph = tree.xpath(".//paragraph")[-1] example_extractor = feature_extractor(paragraph, particles) print example_extractor.raw print example_extractor.features() print example_extractor.local_features() print example_extractor.feature_booleans()

 そして彼らの手に、短剣。
 {}
[「NoQuotes = True」、「Short Graf = True」、「Little Talk = True」]
[「PS 0 = False」、「FN 0 = False」、「NN 0 = False」、「ADR 0 = False」]

昨夜、文書化されていない機械学習の狂気の中で、私は多くの特性を改善しようとしました。以下は、公開可能なドラフトの一部です。

オプション1：真の位置ブール値のみ

ラベルカウントリコール
PS 0  207    0.9949
FN 0   185    0.95
NULL   118    0.3492
OTHER  56     0.3939
PS - 2 44     0.5238
Item accuracy: 430 / 678 (0.6342)

さらに、このような統計の多くに会うので、それらの意味をすぐに判断しましょう。

私たちが人々を見て夕食にいると想像してください。ランダムな通行人がイルミナティかどうかを判断するように頼みました。あなたは、陰謀理論を完全に信じている人として、dump子を食べ終わらせ、通行人にタグを付け始めます。ここでは考慮されない値である

精度（およそPrecision）は、第1種のエラーの頻度を示します。言い換えれば、あなたが間違ってイルミナティの中で人をランク付けした頻度。

完全性（およそRecall）は、モデルが正しく決定した検証データのラベルの数を測定します。

F1は両方のラベルの組み合わせです。すべての人々をイルミナティとして分類すると、最大限の完全性とわずかな精度が保証されることがわかります。

なぜならすべてがマークされているので、モデルの精度にはあまり興味がありません。完全性と正確さが必要です。

プロパティの最初のバージョンでは、真のブール値のみを考慮しました。つまり上記の段落では、すべてのセットは「ADR 0 = True」および「PS 0 = True」の形式でした。精度（約アイテム精度）は63.4％でした。

63.4％はこれでいいですか？NULL、PS 0、およびFN 0がテストデータの4分の3を構成し、それらが自然に見つけやすいという事実に基づいて、私たちは間違いなくより良い結果を出すことができます。次に、残りの位置ブール値falseを追加します。

オプション2：すべての位置ブール値

ラベルカウントリコール
NULL 254 0.9048
PS 0204 0.9899
FN 0 149 0.975
その他24 0.2273
PS-2 19 0.2857
アイテムの精度：515/678（0.7596）

ここで、単純なケースを完全に定義し、適切な精度を取得します。75％は、最初の本「Game of Thrones」と「Battle of the Kings」の3分の1、および残りの4分の3を決定するためのモデル自体をマークするだけでよいことを意味します。何時間もかかりますが、当然のことです。

それでも、NULLタグを98％+の完全性で定義しない理由はないので、それを目的としたプロパティを追加しましょう。

オプション3：引用符？

ラベルカウントリコール
PS 0 218 0.9907
NULL 180 0.9119
FN 0 167 0.9118
その他63 0.3784
PS 2 25 0.5
アイテムの精度：550/710（0.7746）

段落の開始引用符の数をカウントします。

NULLがより正確になっていないことに驚いていると言いたいです。これに取り組む必要があります。さらにFN 0を改善したいと思い

ます。オプション4：名のインデックス？

ラベルカウントリコール
PS 0 218 0.9907
NULL 183 0.9057
FN 0 157 0.8971
その他68 0.4189
PS-2 23 0.5484
アイテムの精度：551/710（0.7761）

このプロパティには、名のインデックスが含まれます。

うーん...多分複雑すぎるので、もう一度ブール値に戻りましょう。

オプション5：インデックス0の名前？+冗長性

ラベルカウントリコール
PS 0 216 0.986
FN 0 166 0.9265
NULL 160 1
その他85 0.5811
PS 2 32 0.7143
アイテムの精度：578/710（0.8141）

ここにある！最初の引用符の数を正しく数えなかったため、結果が台無しになりました。

修正するとすぐにNULLが完全に決定されますが、モデルを改善する簡単な方法がなくなりました。今、私は本当に結果をさらに改善するために工夫する必要があります！それが動作するかどうかのを見てみましょう...

2 - （PS）+と話をした後：オプション6

スピーカーが2つの段落の上または電流以下であればここでは、ブール値を使用します。理論的には、これによりPS -2の結果が増加するはずです。

ラベルカウントリコール
PS 0 216 0.986
FN 0 166 0.9265
NULL 160 1
その他84 0.5676
PS 2 32 0.7143
アイテムの精度：578/710（0.8141）

効果なし！

オプション7：シーケンス??

ラベルカウントリコール
PS 0 217 0.986
FN 0 168 0.9265
NULL 160 1
その他82 0.5541
PS 2 30 0.6429
アイテムの精度：576/710（0.8113）インスタンスの精度：56/142（0.3944）

待って！CRFはシーケンスを処理できることがわかりました。実際、これがその意味です。インスタンスの精度値（約インスタンスの精度）を無視しました、なぜならこれは常に0/1でした。つまり、モデルはテキスト全体を1つの長い対話と見なしていました。

申し訳ありませんが、私は自分を平手打ちする必要があります。精度を向上させると仮定します-これは未解決の質問ですが-この機能をどのように使用しますか？5つの段落で各シーケンスの長さを示すことを試みましたが、これは正しいように思えません。

おそらく、2つの連続したNULLが一致する場合、会話が完了したと仮定して、これはシーケンスになります。

それで遊んだ後、私は会話で動作するモデルを構築することができませんでした。私が理解しているように、シーケンス内の位置に応じて、多くの特別なトランジションウェイト（およそのトランジションウェイト）が必要です。したがって、モデルは、会話の開始時、中間、または終了時に、私たちの位置に応じて異なる決定を行います。

しかし、モデルの動作には、これが起こっていることを示すものは何もありません。近い将来、他のプロパティで少し遊んでみます。はい、トレーニングデータとテストデータを生成するスクリプトを見てみましょう。最適化されていません各段落のプロパティを5回計算します。この資料についてはそのままにしておきますが、1つのサイクルを使用して段落のブールプロパティを保持し、1つを使用して既存の段落に追加すると、高速化できることに注意してください。

 tree = ASOIAFtoXML([{"title": "ASOIAF", "contents": "corpus/train_asoiaf_pos_tagged.txt"}]) paragraphs = tree.xpath(".//paragraph") In [29]: def prep_test_data(paragraphs):   max_index = len(paragraphs)   results = []   for index, paragraph in enumerate(paragraphs):       extractor = feature_extractor(paragraph, set_of_particles)       all_features = extractor.local_features() + extractor.feature_booleans()       for n in [-2, -1, 1, 2]:           if 0 <= n+index < max_index:               neighbor_features = feature_extractor(paragraphs[index + n], set_of_particles, tag_distance = n).feature_booleans()               if neighbor_features:                   all_features += neighbor_features            all_features.insert(0, extractor.speaker)       results.append("\t".join(all_features))   return results results = prep_test_data(paragraphs) In [31]: max_index = len(results) with codecs.open(r"new_test.txt", "w", "utf-8") as output:   for line in results[:int(max_index/2)]:           output.write(line + '\n') with codecs.open(r"new_train.txt", "w", "utf-8") as output:   for line in results[int(max_index/2):]:           output.write(line + '\n')

その他のプロパティ

他のいくつかのプロパティを試しました：

ダイアログの最初の行の前の名前の数を数えます。理論的には、これはNNが最も多い場所です。結果はありません。
段落の全体または一部をマークするプロパティは、ダイアログです。これはPS -2とFN -2で状況を改善するのに役立ちましたが、違いは重要ではありませんでした。
短い/長い段落。ちょっといい。
対話前のテキストの「および」または「しかし」。（無視されたNN 0に焦点を当てる試みで）

後者はかなり巧妙な動きだと思いましたが、機能せず、81％を超える精度は得られませんでした。

検証でトレーニングデータを変更しようとしたところ、84％になりました。特定のデータの多くのプロパティを改善するのに多くの時間を費やすべきではありません。これは再訓練につながります。実際、トレーニングデータとテストデータを混合することは良い考えです。私はそれらを混ぜませんでした、なぜならこれはシーケンスの損傷につながると思いましたが、もう使用しないので、なぜですか？それらを混ぜます。

少し混ざったデータ

82％を受け取りました。

わかった！ここでスキルの限界に達したと思います。

継続はありませんか？

次に何ができるかをまとめて話しましょう。

. 700 . 40000. , 1.7% 80%. ( 80%, 75%.) 10000 ? , , ADR, 700 .
CRFsuite. , .
.
.
Python. , . , …
. , OTHER. OTHER, , , , . OTHER — .
. . . , , , , «». ; «» , .

おわりに

いいね！これが誰かに役立つことを願っています。読んでくれてありがとう、そしてもしあなたが私に連絡したいなら、私はツイッターにいます。

また、ゲーム・オブ・スローンズの大規模な批判的研究のために上記のすべてが行われたことに注意したいと思います。あなたがこれらの本のファンであり、対話ラベルのおかげで可能であった分析を読みたいなら、私はすぐにすべてを公開します。

玉座のゲーム。書籍の対話著者を検索する

テキストをダウンロード

タグ

マーク

プロパティの取得

名前検索

既存の情報

Wget

必要条件

解析

名前を検索します。パート2

最適化

会話名の検索

XMLパーサー

pre_speak

dur_speak

post_speak

CRFsuite

その他のプロパティ

継続はありませんか？

おわりに

More articles:

玉座のゲーム。 書籍の対話著者を検索する

テキストをダウンロード

タグ

マーク

プロパティの取得

名前検索

既存の情報

Wget

必要条件

解析

名前を検索します。 パート2

最適化

会話名の検索

XMLパーサー

pre_speak

dur_speak

post_speak

CRFsuite

その他のプロパティ

継続はありませんか？

おわりに

More articles:

玉座のゲーム。書籍の対話著者を検索する

名前を検索します。パート2