百万冊の本とその読み方

人文科学のIT兄弟に対する平和と愛!



人文科学の分野でITがどのように適用されるのかについて話をすることにしました(メリットあり!)



画像



ミリオンブックは、誰もがGoogleブックスで見るGoogleの書籍デジタル化プロジェクトの名前です。 2007年に100万冊の書籍が電子形式に変換されました。 現在、Googleの新たな課題は、3,000万冊の本をデジタル化することです。



そして、人文科学に新たな疑問が生じました。この文学の海をどうするか? 最近出版された何百万もの本をどうするか?



まず、百万冊の本を読むことができないことは明らかです。

第二に、人文科学がこれを読むべきであることは明らかです。

実際、人文科学と自然科学者の根本的な違いは、フィクションの全量に遅れないようにする義務です。 Kalevalaを読んだことがないかもしれませんが、それが何であり、どのようであるかを想像する必要があります。



どうする?





もちろん、新しい技術の支援を求めてください。 まず、データマイニング。 これを行うために、ノースウェスタン大学とイリノイ大学でMONKプロジェクトが開始されました。



MONKは、テキストとテキストの繰り返しパターンを検出するデータベースとプログラムで構成されます。 MorphAdornerは、個々の単語と文、品詞、およびトークンの間のリンクを追跡します。 また、さまざまな方言も考慮されます。 このプログラムは、学習と自己学習、テキストの分類、および確率の計算が可能です(たとえば、いくつかのテキストでの単語の出現頻度により、以下のテキストの出現確率を計算します)。 したがって、このツールを使用すると、任意のテキストのDNAを取得できます。



また、1つのグループにまとめられたテキストグループの主要な言語パターンを見つけることもできます。たとえば、1790年から1900年の間に女性によって書かれたテキストのDNAは次のようになります。



画像



そして、同じ時代の男性によって書かれたテキストのDNA-このように:



画像



現在、MONKには大きな期待が寄せられています。 たとえば、彼らはその助けを借りて、疑わしいテキストの著者を特定し、そのテキストが書かれた年、さらには著者の性別を調べたいと考えています。 もちろん、何百万冊もの本を読む必要がなくなるだけで、書かれているものに遅れずについていくことができます。



執筆時には、次のソースが自由に使用されました。



All Articles