解析ライブラリのドキュメントを取得する

私はすでに、Grab(サイトの解析用ライブラリ)とSpider(解析用の非同期モジュール)について話し合いました。 Grabのドキュメントの作成がようやく完了したことを報告してうれしいです。 すべてをロシア語で書くことにしました 英語で自分の考えを表現することはより困難です。 実際、落書きは最初に見えたよりもはるかに多くのことが判明しましたが、それにもかかわらず、ライブラリのほぼすべての機能について説明しました。 ここに目次を挿入し、興味深いセクションをクリックして、Grabの機能について読むことにしました。







ちなみに、Grabを使用したスクリプトを使用して、目次用のHTMLコードを準備しました。



# coding: utf-8 from grab import Grab from lxml.html import tostring g = Grab() g.go('http://grablib.org/docs/') g.tree.make_links_absolute('http://grablib.org/docs') elem = g.xpath(u'//h3[text()=" "]/following-sibling::ul[1]') toc = tostring(elem, encoding='utf-8') print toc
      
      







公式グラブライブラリのウェブサイト: grablib.org

グラブの使用に関する質問をskype / jabberで書くのではなく、メーリングリスト: groups.google.com/group/python-grabに書くことをお勧めします

また、私たち(GrabLab)は注文するサイトの解析に従事していることを思い出させてください。データを収集して処理する必要がある場合は、ご連絡ください。



次に、非同期スパイダーモジュールのドキュメントを作成する予定です。



All Articles