興味があれば、このテキストは人によって書かれています

「ウィスコンシン州は明らかに勝利の道を歩んでおり、試合の第3四半期後に51-10で勝利しました。 ラッセル・ウィルソンがジェイコブ・ピーターセンのパスを見つけたとき、チームはその優位性を高め、彼は7メートルのジャークの後にタッチダウンを行い、スコア44-3 "を作った。



これらの言葉で、 ニュース記事の断片が始まり、ウィスコンシンとネバダの大学チーム間のサッカーの試合の第3四半期の終了後60秒で公開されました。 一見理解するのは難しいですが、このメモは完全にコンピュータープログラムによって書かれています。



人工知能の分野で開発中の会社Narrative Scienceで作成されたジャーナリスティックテキストのジェネレーター。



このプログラムは、スポーツ統計、企業の財務諸表、不動産販売に関するデータなどのデータを取得し、新聞記事に変換します。 何年もの間、プログラマーはスポーツ報道のためにそのようなジャーナリスティックロボットを作成しようとしましたが、結果は素晴らしいものではありませんでした。 ジャーナリズムの教授イリノイ州ノースウエスタン大学のインテリジェントシステム研究所のクリスハモンド教授とコンピューターサイエンス教授のラリーバーンバウムは、この分野で10年間働いており、質的に優れた結果を達成しています。 そこで昨年、Narrative Scienceのスタートアップが登場しました。



「私には魔法のように思えた」と、 ベンチャー企業に600万ドルの投資を集めたBattery VenturesのパートナーであるRoger Leeは語った。 「人が書いたようです。」



人工知能の専門家も、ナラティブサイエンスの成功に感銘を受けています。 彼らの意見では、ナラティブサイエンスは「自動認識の複雑さの増加、そして現在、構文構造の生成」を実証しています。



Narrative Scienceの革新的な仕事は、そのようなAIプログラムが仕事でプロのジャーナリストを助けることができるのか、それとも置き換えることができるのかについて、幅広い疑問を提起します。 オンライン広告によりオンライン印刷収入が減少したとき、ハイテクはすでにメディアの経済的現実に影響を与えています。 ロボットジャーナリストは、伝統的なジャーナリズムのcoの別の釘になるのでしょうか?



ナラティブサイエンスのリーダーは、物事を冷静に見て、プログラムを時間に制約のある環境での低予算の仕事のためのツールとしてのみ位置付けます。 現時点では、同社の顧客はわずか20人で、一部の顧客は奇抜な斬新さを試しているだけです。 クライアントの中には、地元企業の財務結果に関するニュースノートや若者リーグのスポーツ試合のより完全な報道のためにコンテンツの世代を増やしたい伝統的なメディアがあります。



「このようにして、そうでなければまったく書かれていなかったであろう記事を書くのを手伝います」とナラティブサイエンスのディレクターは言います。



たとえば、前述の会社The Big Ten Network (BTN)は、2010年春に野球とソフトボールゲームの短いメモにテキストジェネレーターの使用を開始しました。 彼らはゲームの終了から1〜2分後にサイトに現れました。 テキストを生成するために、試合の最終的な統計と、すべてのアメリカのスポーツリーグでリアルタイムに行われるゲームの進行状況の1分ごとのオンライントランスクリプトが使用されました。 このプログラムは、プロのBTNエディターの助けにより、時間の経過とともに改善されました。



ナラティブサイエンスの開発は、過去のデータ、および以前のゲームのシーケンスと結果に基づいて論理的な結論を導き出すことができます。 意味のあるデザインを生成するために、プログラムは「個人の貢献」、「チームの努力」、「強い意志による勝利」(アカウントの遅れの後の獲得)、「失われた利点」、「シーズンの記録結果」、「上昇中のプレーヤー」の概念を使用します連続した複数の試合)、スポーツ統計のさまざまなセクションの「チームの位置」。 次に、プログラムは特定の一致で最も重要な要素を決定し、記事の最初の段落に選択されます。 収集されたデータにより、単語の選択が決まります。 たとえば、アカウントに大きな利点がある場合、プログラムは「勝利」ではなく「敗北」という言葉を選択する場合があります。



「主なものは作文であり、テキストの構成です」とクリス・ハモンドは言います。 「数字だけを受け取って単語に変換することはできません。」



昨秋、BTNはこのプログラムの使用をサッカーやバスケットボールの試合にも拡大しました。 このサイトでは、ゲームに関するレポートが競合他社よりも早く表示され、Googleはホットトピックに関するオンラインコンテンツを高く評価しているため、このコンテンツを使用すると、キーワードでGoogleに膨大なトラフィックを集めることができます。 昨年、BTNサッカーセクションへのトラフィックは2009年と比較して40%増加しました。



別のナラティブサイエンスのクライアントは、出版および不動産会社のHanley Woodです。HanleyWoodは、ロボットの助けを借りて、 builderonline.comの Webサイトで350近くの町および地域の不動産市場の状況に関する月次レポートを発行しています。 価格が上昇または下降している場所、取引量に変化がある場所をすぐに確認できます。 これらの傾向を追跡するために人を雇うのは費用がかかりすぎ、情報が求められています。



この顧客は、特定のデータ構造に合わせてプログラムをカスタマイズするために数か月間Narrative Scienceと協力しましたが、結果はすべての期待を超えていました。 トムソン・ロイターの元プロのジャーナリストであるハンリー・ウッドの幹部の一人は、記事の品質に驚くことを認めました。 「彼らは大きな言語の壁を越えました」と彼は指摘します。 「記事は決して似ていない。」



顧客は20人しかいませんが、ナラティブサイエンスはすでに良い利益を上げています。 同社は、顧客のHanley Woodからの500ワード(このテキストでは881ワード)のボリュームごとに10ドル、つまり1か月あたり約3,500ドルを受け取ります。 同時に、これはメディアサイトにとって非常に有益な取引であり、デマンドメディアのようなコンテンツ工場からの記事のコストよりもさらに安価です。



間違いなく、将来、ナラティブサイエンスのテキストの品質が向上するだけで、コストは徐々に低下するでしょう。 将来、誰でもそのようなプログラムを使用できます。 専門家によると、プロの記者がデータマイニングのための強力なツールを手に入れることで、ジャーナリズムの新たな視野が開かれます。 あらゆる側面からトピックを研究し、想像すらできないような関係を見つけることができます。



さて、クリス・ハモンド自身は、20年以内にコンピューターがジャーナリズムのピューリッツァー賞を受賞できると記して、新聞を笑顔で引用しています。 教授はこれはそうではないと考えています。 コンピュータは20年ではなく5年で賞を受け取ります。賞はプログラムの作者に授与されます。



All Articles