- グラブの紹介
- グラブライブラリをインストールする
- グラブ設定
- クエリのデバッグ
- 設定の完全なリスト
- HTTPヘッダーを構成する
- HTTPリクエストメソッド
- その他の機能
- ドキュメントエンコーディング
- クッキー
- ネットワークエラー処理、タイムアウト
- プロキシを使用する
- 回答作業
- 技術的な詳細をつかむ
- フォームを操作する
- DOMツリーを操作する
- ドキュメントのテキストで検索する
- その他の拡張機能
- ネットワークトランスポート
- 便利なユーティリティ
ちなみに、Grabを使用したスクリプトを使用して、目次用のHTMLコードを準備しました。
# coding: utf-8 from grab import Grab from lxml.html import tostring g = Grab() g.go('http://grablib.org/docs/') g.tree.make_links_absolute('http://grablib.org/docs') elem = g.xpath(u'//h3[text()=" "]/following-sibling::ul[1]') toc = tostring(elem, encoding='utf-8') print toc
公式グラブライブラリのウェブサイト: grablib.org
グラブの使用に関する質問をskype / jabberで書くのではなく、メーリングリスト: groups.google.com/group/python-grabに書くことをお勧めします
また、私たち(GrabLab)は注文するサイトの解析に従事していることを思い出させてください。データを収集して処理する必要がある場合は、ご連絡ください。
次に、非同期スパイダーモジュールのドキュメントを作成する予定です。