モデレーターなしの自動テキスト分析

最近Habréに記事の自動抽象化に関する記事がありました 。 偶然にも私はテキストの自動分析に携わっており、これである程度の成功を収めました。



重複する類似のコンテンツテキストを見つけるアルゴリズムを取得できました。 また、特定のトピックへのテキストの近接度を自動的に決定し、主流を構成するテキストを総質量から抽出します。 つまり、読者は主要なことを理解するためにすべての情報をふるいにかける必要はありません。 分析されたテキストの量が増えると、低品質、面白くない、わいせつな、無関係なものなどはすべて自動的に削除されます。



アルゴリズムの考え方は、テキストがチェーンに分割され、その比較分析が実行され、どの決定が行われるかに基づいて特別なマーカーが選択されるということです。



分析は、主任のモデレーターと編集者なしで完全に自動的に実行されます。 このため、アルゴリズムが誤っている場合があり、テキストを間違ったセクションに配置する場合がありますが、その理由は、テキストの元のセットが通常、さらに徹底的にグループ化されるためです。 時間の経過とともに、十分な統計情報が蓄積されるにつれて、アルゴリズムはますます正確になります。



それだけではありません。 アルゴリズムはユーモアを理解できます。 テキストが一般的なマスからノックアウトされ、不条理に輝く場合、アルゴリズムはそれを選択し、「ユーモア」としてマークします。 アルゴリズムはジョークを非常に定性的に発見し、何かがおかしくない場合は、アルゴリズムが数週間しか動作しない可能性が高くなります。 つまり、彼は何かがおかしくないことをまだ理解していない。



また、自動モードでは、新しいアイデアを見つけることができます。 たとえば、コペイスク市では、産科病院がインターネットに接続されていたため、父親が窓の下に立ったり、遠くから子供の顔を見ようとする妻を叫んだりせず、スカイプで彼を見ました。 または、ヤルタリゾートの住民は、市内で盗難や強盗の季節が開いているため、whiを着用し、ガス缶で身を固めることをお勧めします。 しかし、ポーランドはロシアのリンゴをEUのお金で宣伝します。



アイデアは必ずしも興味深いものではありませんが、「経験」が蓄積されているため、修正する必要があります。 希望する人は、すでに探しているものの中から適切なアイデアを見つけることができます。



現在のアルゴリズムとその操作は、 nfos.ru Webサイトで確認できます。 このサイトは、いくつかのソースからニュースを収集し、公開する必要があると考えるすべてを分析して公開することを約束しています。 今、私は緊張せずにすべての主要なニュースを知っていることを自慢できます。 私もあなたにお願いします。



たとえば、彼らが襲撃の疑いでNavalnyの事件を始めたことをすでに知っていますか? または、パキスタンで記録的な数のオサマの肖像画が売られたと聞いたことがありますか?



このアルゴリズムは、テキストの分析だけでなく、画像やその他の構造化されていないデータや構造が明らかでないデータの分析にも適合すると思います。 たとえば、ノイズの除去、復号化、作業結果に基づいたアルゴリズムの分析など。 など このアルゴリズムは、株価と為替レートの予測に適している可能性がありますが、十分な時間がないため、近い将来このすべてに到達する可能性は低いです。



全体の分析アルゴリズムは、40 KBのPHPコードに加えて、ニュースリソースを設計するための約70 KBのコードに収まります。 表示される機能については、これはほんのわずかであることに同意します。 しかし、アルゴリズムが本当に大食いするのは、占有スペースです。 数週間、1.5 GBを超える情報がデータベースに蓄積されました。 そして、このボリュームは常に増加しています。



このアルゴリズムは、実際には障害の影響を受けません。 ある時点で不正確、歪んだ、誤った、不正な情報がデータベースに侵入した場合、それ以上の分析に影響を与えないか、その影響が時間の経過とともに無視できるようになります。



最後に、分析には強力なホスティングは必要ありませんでした。 約150のソースからのすべてのニュースは、249r /月の費用がかかる安価なホスティングFirstVDS-Accelerationで分析されます。 もちろん、CPU時間だけでは十分ではありませんが、アルゴリズムを最適化することができたので、目に見える損失はありませんでした。



All Articles