文字列で検索します。 CPythonの実装

かなり前に、いわゆるITアカデミーの卒業生のプレゼンテーションの1つで、講演者は、Javaのtoli文字列、.Netのtoli文字列での部分文字列検索の実装の詳細について質問されました。 もちろん、卒業生はわかりやすいものに答えることはできませんでしたが、すでに長いtodoリストに質問を置いておきました。



時間が経つにつれて、Pythonはエンタープライズプラットフォームよりも関連性が高くなりました。そのため、Pythonのサブストリング検索アルゴリズムの分析に注目してください。



文字列オブジェクトの実装は、 Objects / stringobject.cにあります。 さまざまなタイプの検索( findrfind__contains__ )を担当する関数の定義は、 Objects / stringlib / find.hです。 これらすべての関数は( splitreplaceなどとともに) Objects / stringlib / fastsearch.hで実装された検索を使用します。 それらに対処します。



アルゴリズム自体は、作者( Fredrik Lundh )によって( The stringlib Libraryボイヤー・ムーアHorspoolアルゴリズムの組み合わせと呼ばれ、いくつかの改善と単純化が行われています。 アルゴリズムはブルームフィルターも使用します



それでは、行きましょう。 関数ヘッダー:

fastsearch(const STRINGLIB_CHAR* s, Py_ssize_t n, const STRINGLIB_CHAR* p, Py_ssize_t m, Py_ssize_t maxcount, int mode) /* s - ,   , n -  , p - ,   (  ), m -  , maxcount -    ,       , mode -  /  /    */
      
      





すべてが明らかなようです。 defineステートメントを見てみましょう:

 /*      mode */ #define FAST_COUNT 0 #define FAST_SEARCH 1 #define FAST_RSEARCH 2 /* STRINGLIB_BLOOM_WIDTH    \(   )    32, 64, 128 */ #define STRINGLIB_BLOOM_ADD(mask, ch) ((mask |= (1UL << ((ch) & (STRINGLIB_BLOOM_WIDTH -1))))) #define STRINGLIB_BLOOM(mask, ch) ((mask & (1UL << ((ch) & (STRINGLIB_BLOOM_WIDTH -1)))))
      
      





このブルームフィルターの実装はどのように機能しますか? 最後のログ(STRINGLIB_BLOOM_WIDTH)ビットに基づいた各文字には番号が割り当てられます。 たとえば itの場合は1です。

 >>> ord('a') & 31 1
      
      





q - 17の場合

 >>> ord('q') & 31 17
      
      





論理 "OR" STRINGLIB_BLOOM_ADDを使用すると、フィルターマスクに表示される文字に関する情報が蓄積されます。 後で、 STRINGLIB_BLOOMを使用して、フィルターに文字が追加されたかどうかを確認できます。 もちろん、このチェックでは誤検知発生する可能性があります( STRINGLIB_BLOOMは0 以外を返しますが、実際には文字は文字列\フィルターにありません)。

 >>> ord(']') & 31 29 >>> ord('}') & 31 29
      
      





しかし、それは非常に安価であり、比較の回数を減らすのに役立ちます。



これで、アルゴリズム自体に進むことができます。 m> nおよびm <= 1の場合の明らかなロジック:

  w = n - m; if (w < 0 || (mode == FAST_COUNT && maxcount == 0)) return -1;
      
      





および(コードの一部は、記事を破らないように省略されています):

  if (m <= 1) { if (m <= 0) return -1; if (mode == FAST_COUNT) { /* ... */ } else if (mode == FAST_SEARCH) { for (i = 0; i < n; i++) if (s[i] == p[0]) return i; } else { /* FAST_RSEARCH */ /* ... */ } return -1; }
      
      





その後、いくつかの新しい変数が表示され、必要なサブストリングのマスクが埋められます。

  mlast = m - 1; skip = mlast - 1; mask = 0; for (i = 0; i < mlast; i++) { STRINGLIB_BLOOM_ADD(mask, p[i]); if (p[i] == p[mlast]) skip = mlast - i - 1; } STRINGLIB_BLOOM_ADD(mask, p[mlast]);
      
      





skipは数値で、デフォルトでは検索文字列の最後の文字のインデックスから1を引いたものです。文字列に最後の文字と等しい文字が含まれる場合、 skipは文字列の最後の文字と最後の文字のインデックスの差です。



ウィキペディアの主要なアルゴリズムのアイデアの説明:



左から右にスキャンし、右から左に比較します。 テキスト(行)の先頭とテンプレートが結合され、チェックはテンプレートの最後の文字から始まります。 文字が一致する場合、パターンの最後から2番目の文字が比較されます。パターンのすべての文字が文字列のスーパーインポーズ文字と一致する場合、部分文字列が見つかり、検索が終了します。



パターンの一部の文字が文字列の対応する文字と一致しない場合、パターンは右に数文字シフトされ、最後の文字からチェックが再開されます。



実際には、この説明の実装(上記のw = n-m ):

  for (i = 0; i <= w; i++) { if (s[i+m-1] == p[m-1]) { /* ,      */ for (j = 0; j < mlast; j++) if (s[i+j] != p[j]) break; if (j == mlast) { /*  ! */ if (mode != FAST_COUNT) /*       - ,     */ return i; /*     */ count++; if (count == maxcount) return maxcount; i = i + mlast; continue; } /*         ,      */ /*      ,        */ if (!STRINGLIB_BLOOM(mask, s[i+m])) /*  ,           */ i = i + m; else /*  ,        'skip' */ i = i + skip; } else { /*     .      ,        */ if (!STRINGLIB_BLOOM(mask, s[i+m])) /*  ,           */ i = i + m; /*   , i++ */ } }
      
      





視覚化のビット。 文字列「drum」を操作して、部分文字列「aba」を探しましょう。

     skip = 1 i = 0: ______________ |||||||| | -  , i++ _______ |||| i = 1: ______________ |||||||| | -  ,   _______ |||| ______________ |||||||| | -  .    ""  ""   ,   skip,   for   i += 2 _______ |||| i = 3: ______________ |||||||| | -  ,   _______ |||| ______________ |||||||| | -  ,   _______ |||| ______________ |||||||| | -  ,   _______ ||||
      
      





まあ、それだけです。



気に入ったとしても、Pythonソースには掘り下げるのに興味深い場所がまだたくさんあります。 たとえば、 Objects / dictobject.cのlist.sortまたはObjects / dictobject.cのdict.getの実装



頑張って!:)



All Articles