ボットはウィキペディアの記事から教科書を生成します







ウィキブックの例( 科学記事の図



ウィキペディアが貴重な情報源であることは誰もが知っています。 トピックを何時間も学習し、あるリンクから別のリンクに移動して、関心のある主題に関するコンテキストを取得できます。 ただし、1つの共通のトピックに関するすべてのコンテンツを収集する方法が必ずしも明らかではありません。 たとえば、無機化学または中世の歴史に関するすべての記事を組み合わせて、最も重要な記事をまとめる方法はありますか? これについて、 Wikibook-Bot機械学習プログラムの開発者であるネゲブ(イスラエル)のBen-GurionのShahar Admatiと彼の同僚がこれを試みました。



ウィキペディアと教科書は異なるものです。 Wikibooksプロジェクトが作成された理由は、人々が共同でトピックで最も重要なものを要約しようとするからです。 たとえば、ニューラルネットワーク、遺伝的アルゴリズム、マシンビジョンに関するセクションが更新された、6,000ページを超える機械学習の教科書を見つけることができます。



Wikibook-Botは、いくつかの機械学習の問題を解決します。 まず、これは分類タスクです。つまり、記事が特定のウィキブックに属しているかどうかを判断する必要があります。 第二に、選択した記事を章に分ける必要があります-これはクラスタリングのタスクです。 それはよく知られたアルゴリズムによって解決されました。 最後に、2つのサブタスクを含む体系化タスク:各章の記事の順序と章自体の順序。







実際、プログラムは比較的簡単に動作します。 この原則は、ニューラルネットワークの学習に遭遇したすべての人にとって明らかです。 最初のステップは、トレーニングデータセットを作成することです。 英語版の約6,700の既存のウィキブックのうち、ビューが1,000以上、記事が10以上の書籍が選択されました。







これらのウィキブックは、トレーニングとテストの両方で一種のゴールドスタンダードを形成しているため、開発者はそれを品質基準として採用しました。 ニューラルネットワークをトレーニングした後、さらに作業をいくつかのステップに分割しました。これらのステップは、分類、クラスタリング、および体系化です。 作業は、人間が作成した教科書のタイトルから始まります。 名前は任意の概念を説明します。 たとえば、機械学習:完全なガイド。



最初のタスクは、記事のセット全体をソートし、どの記事がこのトピックに含まれるのに十分関連性があるかを判断することです。 「ウィキペディアの記事は膨大な量であり、利用可能な数百万から最も関連性の高い記事を選択する必要があるため、この作業は困難です」と著者は科学論文に書いています。 これを解決するために、ウィキペディアのネットワーク構造を使用しました。これは、一部の記事が他の記事にリンクすることが多いためです。 関連する記事もこのトピックに含まれると想定するのは理にかなっています。



そのため、作品は、タイトルに特定のタイトルが記載されている記事の小さなコアから始まります。 次に、コアから最大3つの遷移の距離にあるすべての記事が決定されます。 しかし、見つかった記事のうちどれだけが教科書に含まれていますか? この質問に対する答えは、人々によって作成されたウィキブックスによって与えられます。 それらのコンテンツの自動分析により、人間が作成した本のウィキペディアのコンテンツが教科書にどの程度含まれているかを判断できます。



各人工ウィキブックには、他の記事を指すリンクの数、ページを指す一定数のリンク、含まれている記事のランキングなどによって定義されるネットワーク構造があります。 開発されたアルゴリズムは、特定のトピックについて自動的に選択された各記事を分析し、質問に回答します。Wikibookに含めると、そのネットワーク構造は、人が作成したかどうかにかかわらずより類似したものになります。 そうでない場合、記事は省略されます。



主にトレーニングデータと既存の機械学習方法に基づいて、他のタスクも解決されます。 したがって、チームはすでに人々によって作成されたウィキブックを自動的に生成することができました。 提案された方法の有効性は、自動的に生成された本を407本のウィキブックと比較することにより評価されました。 すべてのタスクについて、比較すると高い統計的に有意な結果を得ることができたと言われています。 ただし、アルゴリズムの真の有効性は、彼が研究したトピックだけでなく、他のトピックに関するウィキブックを生成した後に推定できます。



ボットの説明は、arXiv.orgプレプリントサイトで科学記事「Wikibook-Bot-Wikipedia書籍の自動生成」として公開されました。



All Articles