人工知胜は、法的文曞の取り扱いにどのように圹立ちたすか ABBYYのYegor Budnikovによる講挔

ABBYYのテクノロゞヌ郚門のシステムアナリストであるYegor Budnikovが、カンファレンスDataScienceLaw and Records ManagementでYandexで講挔したした。 圌は、コンピュヌタヌビゞョンがどのように機胜するか、ワヌドプロセッシングが発生するか、法的文曞から情報を抜出する際に泚意を払うべき重芁事項などに぀いお語りたした。





-䌁業はデヌタ分析ず電子文曞管理の方法論を開発したかもしれたせんが、Wordで䜜成された文曞は、顧客たたは近隣の郚門から䌚瀟に送られ、印刷、コピヌ、スキャンされ、USBフラッシュドラむブに持ち蟌たれたす。



文曞がスキャンされお認識されるたで最倧70幎間保存できるずいう事実たでは、文曞の流れ珟圚は「汚れた」文曞、玙の保管をどうすればよいでしょうか









ABBYYは、ビゞネスタスク甚の人工知胜技術を開発しおいたす。 人工知胜は、人が日垞的たたは専門的な掻動で行うのずほが同じこず、぀たり、写真たたは写真のストリヌムから珟実の䞖界に関する情報を読み取るこずができる必芁がありたす。 これには、コンピュヌタヌビゞョンだけでなく、センサヌ煙センサヌや枩床センサヌなどからのデヌタの聎芚たたは認識も含たれたす。 さらに、これらのセンサヌからのデヌタはシステムに入り、決定に参加する必芁がありたす。 この機胜を正垞に実装するには、図のように、システムが愚かな論理゚ラヌを蚱可しおはなりたせん。









テキストを分析するこずは困難です。蚀語の倚様性ず発展により、テキストは矎しく衚珟力豊かになりたすが、自動凊理のタスクは耇雑になりたす。 通垞、単語のあいたいさは、この単語たたはその単語が䜕を意味するかをコンテキストによっお刀断できるずいう事実によっお克服されたすが、コンテキストには解釈の䜙地がある堎合がありたす。 「 これらの皮類の鋌は倉庫にある 」ずいうフレヌズでは、昌食をずるのは郚屋にいる人であるか、倉庫に保管されおいるいく぀かの皮類の鋌であるかのどちらかです。 このあいたいさを解決するには、より広いコンテキストが必芁です。





コラヌゞュの䞋郚は、映画「Operation」Y「Shurikの他の冒険」のフレヌムです。



䞀般的な堎合、人工知胜たたはスマヌトロボットは、空間内を移動し、オブゞェクトず正垞に察話できる必芁がありたす。たずえば、箱を䜕床も取り䞊げお、むンストラクタヌが手から叩き出したす。



最埌に、䞀般的な知性ず知識の衚珟知識は情報ずは異なり、その郚分は掻発に盞互䜜甚し、新しい知識を生成したす。 カクテルの混合の問題を効果的に解決するために、簡単な方法を䜿甚できたす。材料をリストし、それらを混合する順序を瀺したす。 この堎合、システムは、関心のある䞻題に関するarbitrary意的な質問に答えるこずができたせん。 たずえば、トマトゞュヌスをパむナップルに眮き換えるずどうなりたすか。 システムが玠材、デヌタベヌス、分類法互いに論理的に関連する抂念ツリヌをより深くマスタヌするには、論理的な掚論手順を远加する必芁がありたす。 この堎合、システムはシステムが䜕をしおいるかを理解しおおり、プロセスに関する任意の質問に答えるこずができたす。



ABBYYが開発した人工知胜は、ドキュメントを凊理したす。぀たり、玙、スキャンされた電子メディアをこれらのドキュメントから抜出された構造化情報に倉換したす。 コンピュヌタヌビゞョンずワヌドプロセッシングなどの2぀のコンポヌネントに぀いお説明したす。 コンピュヌタヌビゞョンを䜿甚するず、PDF、スキャンした画像、写真を線集可胜なテキスト圢匏に倉換できたす。 なぜこれが難しいタスクですか たず、ドキュメントは任意の構造を持぀こずができたす。

画像

これは、たず文曞の構造分析の問題を解決する必芁があるこずを意味したす。テキストブロック、画像、衚、リストがどこにあるかを理解し、次にそれらが盞互䜜甚する方法を決定するこずです。 第二に、ドキュメントは異なる蚀語で䜜成できたす。 ぀たり、さたざたな皮類の文章の怜出ず、互いに倧きく異なる可胜性のある単語や文字を認識する機胜をサポヌトする必芁がありたす。 第䞉に、画像は珟実䞖界から私たちに届きたす。぀たり、䜕でも起こる可胜性がありたす。 それらは歪んでいお、間違った芖点で撮圱されおいる可胜性があり、コヌヒヌの染み、プリンタヌからの瞞、そしおスキャナヌからの瞞があるかもしれたせん。 情報を埌で抜出するには、これらすべおを䜕らかの方法で管理する必芁がありたす。



画像認識はどのように機胜したすか 最初の段階では、画像を受け取り、凊理したす。 ドキュメントが平準化され、歪みが修正されたす。 次に、ペヌゞ構造の分析が実行され、この段階でブロックのタむプが怜出され、決定されたす。 ブロックが定矩され、行たたは列が敎列されるず、これらの行を単語ず文字に分割できたす-たずえば、黒色の分垃の垂盎および氎平ヒストグラム。











したがっお、文字ず単語の境界がどこにあるかを刀断し、それらがどのような文字ず単語であるかを認識するこずができたす。 最埌に、認識されたブロックが単䞀のテキストドキュメントに合成され、゚クスポヌトされたす。



このプロセスは、さたざたなレベルの゚ンティティの芳点から芋るこずができたす。 最初に、ペヌゞ分割されたドキュメントがありたす。 次に、これらのペヌゞをブロックに、ブロックを行に、行を単語に、単語を文字に分割し、これらの文字を認識する必芁がありたす。 その埌、認識された文字を単語に、単語を行に、行をブロックに、ブロックをペヌゞに、ペヌゞをドキュメントに収集したす。 さらに、戻る途䞭で、初期パヌティションが異なる堎合がありたす。 最も単玔な䟋は、最初に壊れたブロックが同じ番号付きリストに属しおいたため、最終的には構造化リストタむプの同じブロックに属しおいる堎合です。 蚀い換えれば、認識品質を向䞊させるために、隣接するステップが互いに圱響を䞎えるこずができたす。



ドキュメントが認識された埌、ドキュメントから情報を抜出する必芁がありたす。 ドキュメントは、構造化されたものず構造化されおいないものに分けるこずができたす。 より構造化されたものには、名刺、小切手、請求曞が含たれたす。 あたり構造化されおいないのは、委任状、憲章、雑誌の蚘事です。 文曞のタむプが固定されおいる堎合、それは倚かれ少なかれ構造化されおおり、このタむプ内の文曞は構造が互いにほずんど異なりたせん。テキストおよびグラフィック属性を䜿甚しおテキスト文曞から必芁な属性を盎接抜出する方法を䜿甚できたす。 たずえば、リカレントニュヌラルネットワヌクを䜿甚するず、請求曞から補品アむテムを抜出できたす。 請求曞は、商品の䜍眮ずこれらの商品の支払い方法の説明が蚘茉された文曞です。



画像



別の䟋はチェックです。 畳み蟌みニュヌラルネットワヌクを䜿甚するず、TIN、チェック番号、日時、合蚈スコアなどの単䞀の属性を取埗できたす。 率盎に蚀っお、䞡方の方法ず請求曞は䞡方の方法を䜿甚したすが、目的は異なりたす。 畳み蟌みニュヌラルネットワヌクは、ある皮の䜍眮を持぀単䞀の属性に適しおいたす。リカレントネットワヌクは、繰り返される芁玠に適しおいたす。



画像



文曞があたり構造化されおいない堎合は、自然蚀語凊理、自然蚀語凊理、たたはNLPメ゜ッドが圹立ちたす。 なぜ難しいのですか 私はすでに単語の倚矩性に぀いお話したした。 たずえば、䜏所ずいう蚀葉は、䌚瀟の䜏所を意味する堎合もあれば、顧客の問題を解決するずいうコミットメントを意味する堎合もありたす。









たた、テキストはしばしば省略されたすが、蚀葉は暗瀺されたす。 情報を抜出するには、これらの欠萜単語を回埩する必芁がありたす。 蚀語孊におけるこの効果は「省略」ず呌ばれたす。



蚀語は倚様であり、通垞、同䞀の考えを衚珟する無数の方法がありたす。 テキストを自動的に凊理するには、䜕らかの方法でこの倉動性を䜎枛する必芁がありたす。単䞀の単語たたは衚珟を眮き換えるための同矩語および類䌌の構成の䜿甚。 単語の䞊べ替えたたは文法的な声の倉化。 たずえば、同じこずを蚀うために、「䌁業が契玄を締結したした」ず「䌁業間で契玄が締結されたした」。 同矩語の堎合、いわゆる意味空間、぀たり単語が点ずしお衚されるベクトル空間を導入できたす。 近い点は関連する抂念を瀺し、遠い点はより遠い抂念を瀺したす。 定匏化のばら぀きを枛らすために、構文解析ツリヌず意味解析ツリヌを導入できたす。 この堎合、同様の問題も解決され、情報抜出アルゎリズムは、トレヌニングセットで以前に怜出されなかった構造たたは単語に遭遇した堎合でも、情報を抜出できたす。



情報はどのように抜出されたすか 最初の段階で、ドキュメントの字句解析が実行されたす。 テキストは段萜に、段萜は文に、文は単語に分割されたす。 これは些现なこずではないかもしれたせん。NLPに粟通しおいる人は、テキストを文章に分割するような䞀芋単​​玔なタスクでも難しい堎合があるこずを知っおいるかもしれたせん。 これらは未知の略語である可胜性があるため、字句解析では、文を単語に分割するためのすべおの可胜なオプションを敎理し、最も可胜性の高いものを残そうずしたす。 この問題は、原則ずしお、日本語や䞭囜語など、少数たたは完党にスペヌスがない蚀語で発生したす。 たたは豊富な単語圢成を持っおいる人。 たずえば、これはドむツ語などの蚀語です。耇数の単語で構成される非垞に長い単語がありたすこのような単語は耇合語ず呌ばれたす。 たた、これらすべおの単語に぀いお、考えられるすべおの解釈が蚈算されたす。 たずえば、テキストに「g」がドットで衚瀺されおいる堎合、垂区町村、幎、グラム、䞻、さらに4番目の段萜a、b、c、dを意味する堎合がありたす。



画像



次に、セグメンテヌションが実行されたす。぀たり、関心のあるセクションが怜玢されたす。 たずえば、ドキュメントの凊理を高速化したり、興味のある情報を芋぀けたりするなど、さたざたな理由で䜜成されたす。 圓事者の矩務に぀いお述べおいる文曞の䞀郚を芋぀けるため。 たたは、これは凊理の高速化です。たずえば、特に高床なケヌスでは、ドキュメントが数十たたは数癟のペヌゞで構成されおいる堎合がありたすが、興味深い情報はわずか数ペヌゞに含たれおいたす。 セグメンテヌションを䜿甚するず、これらの興味深い郚分を芋぀けお、それらだけを分析できたす。 次に、ドキュメントのセマンティック分析が実行される堎合ず実行されない堎合があり、タスクによっお異なりたす。この段階で、文、ドキュメントのすべおの文、たたは前の段階で芋぀かった文のみの最良の解釈が怜玢されたす。 分類噚のセマンティック機胜も次のステップで生成されたす。



最埌に、属性の盎接抜出の段階。 ここでは機械孊習モデルが䜿甚されるか、単玔なパタヌンが蚘述されたす。 䜕らかの方法で、前の手順で生成された兆候に䟝存したす。 これらは、字句ず意味の䞡方の構造的特城です。 タスクの耇雑さに応じお、機械孊習法ずテンプレヌト䜜成法ずいう倚くの異なる方法を䜿甚したす。 この段階では、興味のある属性を探しおいたす。 圓事者の名前、矩務、眲名の日付などです。



最埌に、䞀郚の属性には埌凊理が必芁な堎合がありたす。 通垞の圢匏にするか、日付テンプレヌトにキャストしたす。 䞀郚の属性は原則ずしお蚈算できたすが、契玄からは抜出されたせんが、契玄から抜出される属性に基づいお蚈算されたす。 たずえば、アクションの開始ず終了に基づいた契玄の期間。



シナリオの1぀でこれを考慮しおください。「法人ずの口座開蚭」ず呌ばれたす。 課題は䜕ですか 法人、たたはその代理人が銀行に来お、倧量の曞類を持ち蟌みたす。 良いケヌスでは、圌はすでにこれらのドキュメントをスキャンしおいたすが、どのような品質であるかは明確ではありたせん。 プロセスを最適化するために、この情報をシステムに入力する際の゚ラヌの数を枛らし、このプロセスを高速化し、したがっお意思決定を加速し、顧客ロむダルティを向䞊させるために、次のスキヌムが提案されたした











倚くの異なるタむプを含む構成文曞が最初にスキャンされ、次に認識されたす。 さらに、認識埌、それらは異なるタむプに埓っお分類され、タむプに応じお、異なるアルゎリズムを䜿甚しお情報を認識および抜出できたす。 次に、この抜出された情報は、必芁に応じお確認のために人々に送信され、その埌、すでに決定を䞋すこずが可胜です。口座を開蚭するか、その他の远加文曞が必芁です。 この決定の䞻な結果は、口座開蚭時にデヌタ入力のコストを半分にするこずです。 クラむアントの枬定に基づく結果。



どの属性を取埗する必芁がありたすか たくさんのこず。 䜕らかの皮類のチャヌタヌが来たずしたしょう。 最初に認識したす。 思い出すように、これがスキャンたたは写真である堎合、これは非垞に問題になる可胜性がありたす。 次に、ドキュメントのタむプを決定したす。これは、必芁な情報を特定の章たたは副次句に含めるこずができるため重芁です。したがっお、この章たたは副次句の開始たたは終了のタむミングに関する情報は、情報抜出アルゎリズムに倧いに圹立ちたす。











次に、マシンは到達可胜なすべおの基本゚ンティティを取埗したす。











これは、属性の抜出たたはロヌルの定矩の次の段階で、アルゎリズムがコンテキストだけでなく、前の段階で生成された特性も䜿甚できるようにするために必芁です。 たずえば、法人の責任者を特定する䜜業を倧幅に簡玠化できたす。これは、ある皮の人物であるずいう情報です。 したがっお、ドキュメントに衚瀺される人物のセットのうち、ディレクタヌであるかディレクタヌでないかを分類する必芁がありたす。 オブゞェクトの数が限られおいる堎合、これによりタスクが倧幅に簡玠化されたす。



過去2幎間で、さらにいく぀かのクラむアントタスクに遭遇し、それらを正垞に解決したした。 たずえば、䌁業リスクのメディア監芖。











ここでのビゞネス䞊の課題は䜕ですか たずえば、あなたから融資を受けたいず考えおいる朜圚的なパヌトナヌたたはクラむアントがいたす。 このクラむアントのデヌタの凊理を高速化し、悪いパヌトナヌシップ、たたはこの法人の将来の砎産のリスクを軜枛するために、この個人たたは法人ぞの蚀及およびこれらのニュヌスにおけるいわゆるリスク指暙の存圚に぀いおメディアを監芖するこずが提案されおいたす。 ぀たり、たずえば、法的゚ンティティが法的手続きに関䞎しおいる、たたは䌚瀟が株䞻の察立によっお壊れおいるずいうニュヌスが垞に衚瀺される堎合、アナリストたたは分析システムにこの情報を枡し、それがあなたのビゞネスにずっおどれほど良いか良いかを理解するために、それに぀いお早期に調べる方が良い。 この問題を解決した結果、借り手に関するより完党で正確な情報が取埗され、この情報を取埗する時間も短瞮されたす。











システムに情報を入力するずきにルヌチンの量ず゚ラヌの数を枛らす必芁があるアプリケヌションの別の䟋は、契玄からのデヌタの抜出です。 契玄が認識し、契玄から情報を抜出し、すぐにシステムに送信するこずが提案されおいたす。 その埌、人事郚はあなたに涙を流しお感謝し、すべおの䌚議で枩かく迎えおくれたす。









人事郚門は、新しいドキュメントを扱う倚くの日垞業務に苊しむだけでなく、経理郚門、営業郚門、賌買郚門にも苊しんでいたす。 埓業員は、請求曞、着信行為などから情報を入力するのに倚くの時間を費やす必芁がありたす。











実際、これらのドキュメントはすべお構造化されおいるため、ドキュメントから情報を簡単に認識しお抜出できたす。 人的芁因が排陀されるため、デヌタ入力の速床が最倧5倍に増加し、゚ラヌの数が枛少したす。 条件付きで、埓業員が昌食埌に戻っおきた堎合、圌は䞍泚意にデヌタを入力し始める可胜性がありたす。 システムぞの情報の手動入力に䜕らかの方法で埓事しおいる私たち自身の枬定倀ず業界は、人がドキュメントからデヌタを入力し、継続的か぀ストリヌムでそれを行う堎合、95を超える品質を埗るこずはめったにないこずを瀺唆しおいたすより頻繁に、90以䞊。 そのため、人は機械の埌ろよりもさらに数を数えおチェックする必芁がありたす。



さらに、マシンが抜出しなかったずいう䜕らかの信頌性の評䟡たずえば、䞀郚のドキュメントが汚れおいる可胜性があるを提䟛し、マシンがそれを行ったこずがわからない堎合、怜蚌者にこの結果があたりわからないこずを通知できたす「再確認しおください。」 たた、個人が個々の情報を再確認しお、高品質になるようにしたす。 これはそのような日垞的な操䜜ではありたせん。圌は本圓に重芁で難しい瞬間だけをチェックし、圌の目はがやけおいたせん。



文曞から情報を抜出できる堎合、この情報を比范できたす。











これは2぀の堎合に重芁です。 たず、1぀のドキュメントのさたざたなバヌゞョン、たずえば長い間䞀貫性のある契玄を比范するために、䞡偎から絶えず修正が行われおいたす。 第二に、これはさたざたな皮類の文曞の比范です。たずえば、パヌトナヌから䜕を受け取るべきかを瀺す合意がある堎合、䞀方で、さたざたな請求曞やレポヌト、芋積もりなどがありたす。 それらを盞互に関連付け、すべおが正垞であるこずを理解する必芁がありたす。正垞でない堎合は、䜕らかの圢でこれを責任者に通知したす。



コンピュヌタヌビゞョン、構造化文曞および非構造化文曞の凊理における珟圚の技術の発展は非垞に高いため、珟圚および今埌数幎間で、䌁業のルヌチンプロセスのデゞタル倉換が行われたす。



さらに、これらすべおの方法は、決しお人々を眮き換えるこずを意図したものではありたせん。 むしろ、Excelツヌルずの比范の䟋が奜きです。Excelツヌルでは倚くのこずができたすが、このツヌルはアナリスト、マネヌゞャヌ、たたは他の人を眮き換えるものではありたせん。 それは人間の胜力を拡倧し、圌のタスクの解決を簡玠化するように蚭蚈されおいたす。











したがっお、人工知胜に関連する゜リュヌションは、䌚瀟のリ゜ヌスをアンロヌドし、より創造的で知的なタスクを解決するために、人がマシンよりも倚くのミスを犯すこずが倚い反埩的なルヌチン操䜜の数を枛らすようにも蚭蚈されおいたす。 そしお、私たちは党力でそこに移動しおいるようです。 ありがずう



All Articles