EDMS「市民の訴え」の管理者向け情報

2017年3月2日、ロシア連邦大統領管理下のワーキンググループは、市民、組織、および公的団体の訴えに関する新しい標準の全ロシアテーマ分類子を承認しました。 ファイルはPDFのリージョンに送信されました。



テキストを解析し、ほとんどreを使用しない人のために、Pythonの式を思い出します。

ソースリスト:

...

0002.0013.0140.0282科学および科学技術活動の分野における管理

0002.0013.0140.0282.0006その他のサブ質問

...

r '((([[\ d] {4} \。){3,4} [\ d] {4})([\ s \ S] +?))[\ d] {4} \。'

テキストを返します

始まりがある(質問コード):

(([[\ d] {4} \。){3,4} [\ d] {4})-ピリオドとさらに4桁の4桁の3つまたは4つのグループ



中央:

([\ s \ S] +?)-質問テキスト



そして終了:

[\ d] {4} \。 -ドット付きの4桁(次の質問コード)





match.groups()[1]-質問コード

match.groups()[3]-質問テキスト



忘れないで

reは重複して検索していません。re.findallとre.finditerは奇妙な質問のみを返します。

reはファイルの最後まで検索しません。最後の質問は消えます(間違っている場合は修正されます)。



ここで pdf-originalおよびすでに解析されたテキストを取得できます



追伸

32の質問を追加しましたが、エラーは残りました。

質問「0003.0009.0103.0613-葬儀サービス」

主題「0003.0009.0103.0000-ケータリング」に残ります



私はAVを書きました ポポフ、それを修正します。 どうやらそれは複雑です。



All Articles