ℹ️ ☺️ 🐝 文字列で検索します。 CPythonの実装 🚛 🚖 ▪️

かなり前に、いわゆるITアカデミーの卒業生のプレゼンテーションの1つで、講演者は、Javaのtoli文字列、.Netのtoli文字列での部分文字列検索の実装の詳細について質問されました。もちろん、卒業生はわかりやすいものに答えることはできませんでしたが、すでに長いtodoリストに質問を置いておきました。

時間が経つにつれて、Pythonはエンタープライズプラットフォームよりも関連性が高くなりました。そのため、Pythonのサブストリング検索アルゴリズムの分析に注目してください。

文字列オブジェクトの実装は、 Objects / stringobject.cにあります。さまざまなタイプの検索（ find 、 rfind 、 __contains__ ）を担当する関数の定義は、 Objects / stringlib / find.hです。これらすべての関数は（ split 、 replaceなどとともに） Objects / stringlib / fastsearch.hで実装された検索を使用します。それらに対処します。

アルゴリズム自体は、作者（ Fredrik Lundh ）によって（ The stringlib Library ）ボイヤー・ムーアとHorspoolアルゴリズムの組み合わせと呼ばれ、いくつかの改善と単純化が行われています。アルゴリズムはブルームフィルターも使用します。

それでは、行きましょう。関数ヘッダー：

fastsearch(const STRINGLIB_CHAR* s, Py_ssize_t n, const STRINGLIB_CHAR* p, Py_ssize_t m, Py_ssize_t maxcount, int mode) /* s - ,   , n -  , p - ,   (  ), m -  , maxcount -    ,       , mode -  /  /    */

すべてが明らかなようです。 defineステートメントを見てみましょう：

 /*      mode */ #define FAST_COUNT 0 #define FAST_SEARCH 1 #define FAST_RSEARCH 2 /* STRINGLIB_BLOOM_WIDTH    \(   )    32, 64, 128 */ #define STRINGLIB_BLOOM_ADD(mask, ch) ((mask |= (1UL << ((ch) & (STRINGLIB_BLOOM_WIDTH -1))))) #define STRINGLIB_BLOOM(mask, ch) ((mask & (1UL << ((ch) & (STRINGLIB_BLOOM_WIDTH -1)))))

このブルームフィルターの実装はどのように機能しますか？最後のログ（STRINGLIB_BLOOM_WIDTH）ビットに基づいた各文字には番号が割り当てられます。たとえば、 itの場合は1です。

 >>> ord('a') & 31 1

q - 17の場合 ：

 >>> ord('q') & 31 17

論理 "OR" STRINGLIB_BLOOM_ADDを使用すると、フィルターマスクに表示される文字に関する情報が蓄積されます。後で、 STRINGLIB_BLOOMを使用して、フィルターに文字が追加されたかどうかを確認できます。もちろん、このチェックでは誤検知が発生する可能性があります（ STRINGLIB_BLOOMは0 以外を返しますが、実際には文字は文字列\フィルターにありません）。

 >>> ord(']') & 31 29 >>> ord('}') & 31 29

しかし、それは非常に安価であり、比較の回数を減らすのに役立ちます。

これで、アルゴリズム自体に進むことができます。 m> nおよびm <= 1の場合の明らかなロジック：

  w = n - m; if (w < 0 || (mode == FAST_COUNT && maxcount == 0)) return -1;

および（コードの一部は、記事を破らないように省略されています）：

  if (m <= 1) { if (m <= 0) return -1; if (mode == FAST_COUNT) { /* ... */ } else if (mode == FAST_SEARCH) { for (i = 0; i < n; i++) if (s[i] == p[0]) return i; } else { /* FAST_RSEARCH */ /* ... */ } return -1; }

その後、いくつかの新しい変数が表示され、必要なサブストリングのマスクが埋められます。

  mlast = m - 1; skip = mlast - 1; mask = 0; for (i = 0; i < mlast; i++) { STRINGLIB_BLOOM_ADD(mask, p[i]); if (p[i] == p[mlast]) skip = mlast - i - 1; } STRINGLIB_BLOOM_ADD(mask, p[mlast]);

skipは数値で、デフォルトでは検索文字列の最後の文字のインデックスから1を引いたものです。文字列に最後の文字と等しい文字が含まれる場合、 skipは文字列の最後の文字と最後の文字のインデックスの差です。

ウィキペディアの主要なアルゴリズムのアイデアの説明：

左から右にスキャンし、右から左に比較します。 テキスト（行）の先頭とテンプレートが結合され、チェックはテンプレートの最後の文字から始まります。 文字が一致する場合、パターンの最後から2番目の文字が比較されます。パターンのすべての文字が文字列のスーパーインポーズ文字と一致する場合、部分文字列が見つかり、検索が終了します。

パターンの一部の文字が文字列の対応する文字と一致しない場合、パターンは右に数文字シフトされ、最後の文字からチェックが再開されます。

実際には、この説明の実装（上記のw = n-m ）：

  for (i = 0; i <= w; i++) { if (s[i+m-1] == p[m-1]) { /* ,      */ for (j = 0; j < mlast; j++) if (s[i+j] != p[j]) break; if (j == mlast) { /*  ! */ if (mode != FAST_COUNT) /*       - ,     */ return i; /*     */ count++; if (count == maxcount) return maxcount; i = i + mlast; continue; } /*         ,      */ /*      ,        */ if (!STRINGLIB_BLOOM(mask, s[i+m])) /*  ,           */ i = i + m; else /*  ,        'skip' */ i = i + skip; } else { /*     .      ,        */ if (!STRINGLIB_BLOOM(mask, s[i+m])) /*  ,           */ i = i + m; /*   , i++ */ } }

視覚化のビット。文字列「drum」を操作して、部分文字列「aba」を探しましょう。

     skip = 1 i = 0: ______________ |||||||| | -  , i++ _______ |||| i = 1: ______________ |||||||| | -  ,   _______ |||| ______________ |||||||| | -  .    ""  ""   ,   skip,   for   i += 2 _______ |||| i = 3: ______________ |||||||| | -  ,   _______ |||| ______________ |||||||| | -  ,   _______ |||| ______________ |||||||| | -  ,   _______ ||||

まあ、それだけです。

気に入ったとしても、Pythonソースには掘り下げるのに興味深い場所がまだたくさんあります。たとえば、 Objects / dictobject.cのlist.sortまたはObjects / dictobject.cのdict.getの実装。

頑張って！:)

文字列で検索します。 CPythonの実装

More articles: