長い紹介は嫌い
したがって、私はネタバレの下でもそれらを書きません。
- なんで?
- リーダーでのオフライン表示用。
- 私のリーダーはFB2をサポートしていません!
- 欲しい!
- Python 2.7+をご覧ください 。 Python 2.7.3でテスト済み。
- ライブラリBeautifulSoup 4 を配置します。簡単なオプション:
apt-get install python-beautifulsoup4
-
easy_install beautifulsoup4
-
pip install beautifulsoup4
- ソースと
python setup.py install
- リポジトリからコードをダウンロードします (最新バージョンへの直接リンク )。
-
habrafav.py
ファイルを開き、username = ...
行でusername = ...
指定します。 -
python habrafav.py
(またはWindowsではhabrafav.py
のみ) - 待っています。 キャッシュされたデータでは、最大150件の記事をエクスポートするには約6分と600 MBのRAMが必要です。
-
habrahabr_favorites.fb2
を取得しhabrahabr_favorites.fb2
。 私は約62 MBかかります。
- すでにされています。
- 知ってるよ。 のみ
- PDFはどこにでも正常に表示されません。
- そのコードを実行できませんでした。
- 知ってるよ。 のみ
- コメントはありますか?
- いや 解析は行われますが、エクスポートは行われません。 ねじ込むのは難しいことではありませんが、結果のファイルは2、3回ごとに膨張します。
- FB2を選ぶ理由
- 変換は正しいですか?
- そうでもない。 結果のファイルは検証に合格しません。
- お気に入りの検証結果
-
This element is not expected.
-
<empty-line>
-287回 -
<code>
-83回 -
<emphasis>
-19回 -
<strong>
-7回 -
<subtitle>
-5回 -
<cite>
-4回 -
<a>
-3回 -
<image>
-2回 -
<sup>
-1回
-
-
Character content other than whitespace is not allowed because the content type is 'element-only'.
タグは<cite>
、245回です。 -
empty tag
。 タグ-<td>
、19回。
-
- ただし、Kindleの結果ファイル(.mobiに変換後)は完全に表示されます。
- そして、非公式の観点から?
- UPD:修正されました。 バグがありました。 リポジトリからバージョンをダウンロードします。
テキスト内のタグの周囲のスペースが消えるという奇妙なバグがあります。 つまり、yet another bicycle
HTMLコードがyet another bicycle
変わります。 これはおそらくBeautifulSoupのバグですが、どこかにバグがあるのかもしれません。
- UPD:修正されました。 バグがありました。 リポジトリからバージョンをダウンロードします。
- 実装で興味深いことはありますか?
- そうでもない。 すべての解析は、適切なライブラリ呼び出しになります。 その後、すべての写真を取り出してタグを交換します
<image l:href="#image_id"/>
。 次に、松葉杖の小さなセットを使用して、解析ツリーを再構築します。 いくつかのタグを削除し、他のタグを置き換え、3番目のタグを挿入します。 最後に、すべてをまとめて、ヘッダーと地下室を追加し、ファイルに書き込みます。 完全に些細なことではないが、<br>
タグをに置き換えるだけ. - . - conversion.py ,
make_paragraphs
.
. - . - conversion.py
,make_paragraphs
.
はい、 govnokod.ruへの同じ直接道路です!
- 可能です。 私はBeautifulSoupの可能性のみを調査しているので、確かにいくつかのことはいつものようにはできませんでした。 コメントであなたの視点を書いて、私たちは議論します。
別のバグを見つけました!
- BitBucketはforkをサポートしています。
- そうでもない。 すべての解析は、適切なライブラリ呼び出しになります。 その後、すべての写真を取り出してタグを交換します