2017年3月2日、ロシア連邦大統領管理下のワーキンググループは、市民、組織、および公的団体の訴えに関する新しい標準の全ロシアテーマ分類子を承認しました。 ファイルはPDFのリージョンに送信されました。
テキストを解析し、ほとんどreを使用しない人のために、Pythonの式を思い出します。
ソースリスト:
...
0002.0013.0140.0282科学および科学技術活動の分野における管理
0002.0013.0140.0282.0006その他のサブ質問
...
r '((([[\ d] {4} \。){3,4} [\ d] {4})([\ s \ S] +?))[\ d] {4} \。'
テキストを返します
始まりがある(質問コード):
(([[\ d] {4} \。){3,4} [\ d] {4})-ピリオドとさらに4桁の4桁の3つまたは4つのグループ
中央:
([\ s \ S] +?)-質問テキスト
そして終了:
[\ d] {4} \。 -ドット付きの4桁(次の質問コード)
match.groups()[1]-質問コード
match.groups()[3]-質問テキスト
忘れないで
reは重複して検索していません。re.findallとre.finditerは奇妙な質問のみを返します。
reはファイルの最後まで検索しません。最後の質問は消えます(間違っている場合は修正されます)。
ここで pdf-originalおよびすでに解析されたテキストを取得できます
追伸
32の質問を追加しましたが、エラーは残りました。
質問「0003.0009.0103.0613-葬儀サービス」
主題「0003.0009.0103.0000-ケータリング」に残ります
私はAVを書きました ポポフ、それを修正します。 どうやらそれは複雑です。