👨🏻‍🌾 👴🏼 🐌 便利なオープンソースとZxingに別の言語を話すように教えた方法 🧔🏽 👰🏿 🅾️

記事の1つで、SharePoint 2010の受信トレイ機能を使用して、スキャンされたクーポンを含むドキュメントを受信および処理する方法について説明しました。このプロジェクトを実施するにあたって、いくつかの興味深い問題を解決する必要がありました。そして今、私たちはより詳細に1つの点に焦点を当てたいと思います。

そのため、タスクの1つは、クーポンスキャンシートの数字を認識することでした。いくつかのクーポンがある場合があり、それらが垂直および水平の両方でシートに配置できることに注意する価値があります。

クーポンスキャンで見たものは、他のプロジェクトで既に遭遇したCodabarバーコードと非常に似ていました。

Codabarは線形バーコードです。 各文字は、4つの行とそれらの間の3つのスペースの7つの要素でエンコードされます。 それらの間で、文字は追加のスペースで区切られます。 Codabarは開始文字で始まり、停止文字で終わります。 開始記号または停止記号は、原則としてABCD記号です。 参考：0-9、-、$。

したがって、このバーコードには、各文字が行とスペースの特定のシーケンスに対応するアルファベットがあります。

写真は、値「401」を含むCodabar'aの例を示しています。

Zxing

.NETでバーコードを使用する場合、移植版のZxingライブラリを使用します。ライブラリは、QRコード、PDF 417、EAN、UPC、Aztec、データマトリックスなど、あらゆる種類の1Dおよび2Dバーコードを生成および認識できます。そして最も重要なこととして、彼女はCodabarとの連携方法を知っています。通常、Zxingライブラリを使用しても問題は発生せず、さまざまなプラットフォームで使用しました。しかし、バーコードZxingはすぐに認識できませんでした。すべてがそれほど単純ではないことが判明しました...慎重に調べてみると、顧客コードは、Codabarに非常に似ていますが、まだ異なっていることがわかりました。

他の開始記号と停止記号があります。
各情報シンボルは、標準の7要素（4行と3スペース）ではなく、9（5行、4スペース）で構成されています。
開始記号と停止記号も7要素ではなく、3（2行、1スペース）で構成されています。

おそらく、この形式も「標準」ですが、詳細な説明と情報は見つかりませんでした。このコードの認識を自動化するためのライブラリ実装があるかもしれませんが、それらを見つけるのは幸運ではありませんでした...その結果、Zxingでの作業を継続し、以下を実行することにしました：ソースコードを取得し、独自のニーズに合わせて認識アルゴリズムを変更します。

アルゴリズム

Zxingでは、特定のコード（CodabarReader.csなど）の認識ロジックを実装する各クラスには、OneDReader.csクラスで宣言された独自の抽象decodeRowメソッドの実装があります。

override public List<Result> decodeRow(int rowNumber, BitArray row, Hashtable hints)

入力は、画像の行番号と、行のピクセル値を含む実際の配列です（暗い-明るい）。

次に、setCounters（BitArray row）メソッドを使用して、次のアルゴリズムに従ってint [] counters配列が開始されます。暗いピクセルから開始し、行配列で白いピクセルに遭遇するまで配列の最初の要素が増加し始めます。その後、counters配列の2番目の要素への遷移が行われ、黒いピクセルが現れるまで増分されます。そして、行末まで続きます。その結果、カウンター配列は次のようになります。

15 7 10 3 4 8 16 ...

つまり、15個の黒ピクセル、7個の白、10個の黒、3個の白などです。（この実装の最初の要素は黒いピクセルに対応しています）。

次に、開始文字に対応するシーケンスを探します（この例では、文字「A」で、元のCodabarでは文字「A」、「B」、「C」、「D」のいずれかです）。 findStartPatternメソッド（out int charOffset、int globalOffset）を使用して検索します。矛盾が見つかるまで、globalOffsetの値を増やし（画像行の現在の位置を決定します）、counters配列の次の文字に進みます。 findStartPatternメソッドは、メソッドを呼び出します。

 int toNarrowWidePattern(int position, int offset)

これは、counters配列の現在の要素の数と文字の長さ（開始文字または停止文字の場合は3、残りの文字の場合は9）を取ります。文字が見つからない場合は-1を返します。文字が見つかった場合、CHARACTER_ENCODINGS配列のこの位置を返します。

アルファベット

コードのアルファベットは、次のフィールドによって決定されます。

char [] ALPHABET_STRING-コードで使用されるすべての文字が含まれます。
int [] CHARACTER_ENCODINGS-コードの各文字のコードシーケンス特性を定義する数字が含まれます。

CHARACTER_ENCODINGS配列に保存されている値と、一般的にCodabarがどのようにエンコードされるかについてのいくつかの言葉。たとえば、数値「0」は、次の一連のストライプとスペースによってエンコードされます。

これは次のように記述されます：101010011（バーコードエンコーディング）。単一の0/1は短いスペース/ストリップをエンコードし、ダブル00/11は長いスペース/ストリップをエンコードします。さらに、このシーケンスはコード0000011（幅のエンコード）、または16進形式：0x03に変換されます。つまり単一の文字はゼロで、二重の文字は1で書き込まれます。この場合、各文字は7文字ではなく9文字でエンコードされますが、デジタルコードを作成するロジックは同じです。

クーポンの例を勉強するのに時間を費やす必要がありました。バーコードを注意深く見て、特定の文字に対応するシーケンスを書きました。結果は私たち自身のアルファベットです：

 private const String ALPHABET_STRING = "0123456789AE"; static int[] CHARACTER_ENCODINGS = { 0x014, 0x101, 0x041, 0x140, 0x011, 0x110, 0x050, 0x005, 0x104, 0x044, // 0-9 0x000, 0x004, // AE};

したがって、コードを処理するプロセスは次のとおりです。開始文字が見つかるとすぐに、同じtoNarrowWidePatternメソッドを使用して情報を探します。シーケンスの長さは固定されています。特定のステップで、シンボルが停止シンボルかどうかを確認する必要があります。はいの場合、結果を生成し、counters配列の次の要素に移動して、文字列内のバーコードの検索を続けます。

その結果、1行をスキャンすると、1つ以上のコードがあります（またはありません）。これらのコードは、結果のグローバル配列に格納されます。そして、画像の次の行に進みます。

4つの位置すべてにコードが存在するかどうかドキュメントをチェックする必要がある場合は、画像を時計回りに90度回転する機能も追加されました。 Zxingライブラリでは、処理される画像はBinaryBitmapクラスに含まれており、このクラスにはrotateCounterClockwise（）メソッドがあります。画像の回転は簡単です。

したがって、少し考えて作業した後、新しいコード形式に合わせてライブラリを変更することができました。気にする人、コードはここにあります

非表示のテキスト

 using System; using System.Collections; using System.Collections.Generic; using System.Text; using BitArray = ETR.REBT.BarcodeReader.common.BitArray; namespace ETR.REBT.BarcodeReader.oned { public sealed class MyCodeReader : OneDReader { // These values are critical for determining how permissive the decoding // will be. All stripe sizes must be within the window these define, as // compared to the average stripe size. private static readonly int MAX_ACCEPTABLE = (int)(PATTERN_MATCH_RESULT_SCALE_FACTOR * 2.0f); private static readonly int PADDING = (int)(PATTERN_MATCH_RESULT_SCALE_FACTOR * 1.5f); private static readonly int STARTEND_LENGTH = 3; private static readonly int SYMBOL_LENGTH = 9; private static readonly int DATA_LENGTH = 15; // 15 symbols + 2 start/stop symbols private static readonly int All_LENGHT = (16 + DATA_LENGTH * SYMBOL_LENGTH + 2 * STARTEND_LENGTH); private const String ALPHABET_STRING = "0123456789AE"; internal static readonly char[] ALPHABET = ALPHABET_STRING.ToCharArray(); /** * These represent the encodings of characters, as patterns of wide and narrow bars. The 7 least-significant bits of * each int correspond to the pattern of wide and narrow, with 1s representing "wide" and 0s representing narrow. */ internal static int[] CHARACTER_ENCODINGS = { 0x014, 0x101, 0x041, 0x140, 0x011, 0x110, 0x050, 0x005, 0x104, 0x044, // 0-9 0x000, 0x004, // AE }; // minimal number of characters that should be present (inclusing start and stop characters) // under normal circumstances this should be set to 3, but can be set higher // as a last-ditch attempt to reduce false positives. private const int MIN_CHARACTER_LENGTH = 3; // Start and end patterns private static readonly char[] START_ENCODING = { 'A' }; private static readonly char[] END_ENCODING = { 'E' }; private static readonly char[] DATA_ENCODING = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9' }; // some codabar generator allow the codabar string to be closed by every // character. This will cause lots of false positives! // some industries use a checksum standard but this is not part of the original codabar standard // for more information see : http://www.mecsw.com/specs/codabar.html // Keep some instance variables to avoid reallocations private readonly StringBuilder decodeRowResult; private int[] counters; private int counterLength; public MyCodeReader() { decodeRowResult = new StringBuilder(40); counters = new int[500]; counterLength = 0; } override public List<Result> decodeRow(int rowNumber, BitArray row, Hashtable hints) { List<Result> returnList = null; if (!setCounters(row)) return null; int globalOffset = 0; while (globalOffset < counterLength) { int startSymbolPos = -1; int startOffset = findStartPattern(out startSymbolPos, globalOffset); if (startOffset < 0) return returnList; // we can't find start char in the whole row -> so, exit decodeRowResult.Length = 0; decodeRowResult.Append((char)startSymbolPos); int nextStart = startOffset; nextStart += (STARTEND_LENGTH + 1/*space between symbols*/); bool findNextStart = false; do { int charOffset = toNarrowWidePattern(nextStart, SYMBOL_LENGTH); if (charOffset == -1 || !arrayContains(DATA_ENCODING, ALPHABET[charOffset])) { findNextStart = true; break; } decodeRowResult.Append((char)charOffset); nextStart += (SYMBOL_LENGTH + 1); // Stop as soon as length of data symbols equals to corresponding number if (decodeRowResult.Length == DATA_LENGTH + 1/*start symbol*/) { int endOffset = toNarrowWidePattern(nextStart, STARTEND_LENGTH); if (endOffset == -1 || !arrayContains(END_ENCODING, ALPHABET[endOffset])) { findNextStart = true; break; } globalOffset = nextStart + STARTEND_LENGTH; decodeRowResult.Append((char)endOffset); break; } } while (nextStart < counterLength); // no fixed end pattern so keep on reading while data is available if (findNextStart) { globalOffset = ++startOffset; continue; } if (!validatePattern()) { globalOffset = ++startOffset; continue; } // remove stop/start characters character decodeRowResult.Remove(decodeRowResult.Length - 1, 1); decodeRowResult.Remove(0, 1); int runningCount = 0; for (int i = 0; i < startOffset; i++) { runningCount += counters[i]; } float left = (float)runningCount; for (int i = startOffset; i < nextStart - 1; i++) { runningCount += counters[i]; } float right = (float)runningCount; Result result = new Result( decodeRowResult.ToString(), null, new ResultPoint[] { new ResultPoint(left, (float) rowNumber), new ResultPoint(right, (float) rowNumber) }, BarcodeFormat.CODABAR); if (returnList == null) returnList = new List<Result>(); returnList.Add(result); } return returnList; } private bool validatePattern() { if (decodeRowResult.Length != DATA_LENGTH + 2) { return false; } // Translate character table offsets to actual characters. for (int i = 0; i < decodeRowResult.Length; i++) { decodeRowResult[i] = ALPHABET[decodeRowResult[i]]; } // Ensure a valid start character char startchar = decodeRowResult[0]; if (!arrayContains(START_ENCODING, startchar)) { return false; } // Ensure a valid end character char endchar = decodeRowResult[decodeRowResult.Length - 1]; if (!arrayContains(END_ENCODING, endchar)) { return false; } // Ensure a valid data symbols for (int i = 1; i < decodeRowResult.Length - 1; i++) { if (!arrayContains(DATA_ENCODING, decodeRowResult[i])) { return false; } } return true; } /// <summary> /// Records the size of all runs of white and black pixels, starting with white. /// This is just like recordPattern, except it records all the counters, and /// uses our builtin "counters" member for storage. /// </summary> /// <param name="row">row to count from</param> private bool setCounters(BitArray row) { counterLength = 0; // Start from the first white bit. int i = row.getNextUnset(0); int end = row.Size; if (i >= end) { return false; } bool isWhite = true; int count = 0; for (; i < end; i++) { if (row[i] ^ isWhite) { // that is, exactly one is true count++; } else { counterAppend(count); count = 1; isWhite = !isWhite; } } counterAppend(count); return true; } private void counterAppend(int e) { counters[counterLength] = e; counterLength++; if (counterLength >= counters.Length) { int[] temp = new int[counterLength * 2]; Array.Copy(counters, 0, temp, 0, counterLength); counters = temp; } } private int findStartPattern(out int charOffset, int globalOffset) { charOffset = -1; // // Assume that first (i = 0) set of pixels is white, // so we start find symbols from second set (i = 1). // And next we step over white set ('i += 2'). // for (int i = 1 + globalOffset; i < counterLength; i += 2) { if (counters[i - 1] < counters[i] * 5) // before start char must be a long space continue; charOffset = toNarrowWidePattern(i, 3); if (charOffset != -1 && arrayContains(START_ENCODING, ALPHABET[charOffset])) { return i; } } return -1; } internal static bool arrayContains(char[] array, char key) { if (array != null) { foreach (char c in array) { if (c == key) { return true; } } } return false; } // Assumes that counters[position] is a bar. private int toNarrowWidePattern(int position, int offset) { int end = position + offset; if (end >= counterLength) return -1; // First element is for bars, second is for spaces. int[] maxes = { 0, 0 }; int[] mins = { Int32.MaxValue, Int32.MaxValue }; int[] thresholds = { 0, 0 }; for (int i = 0; i < 2; i++) { for (int j = position + i; j < end; j += 2) { if (counters[j] < mins[i]) { mins[i] = counters[j]; } if (counters[j] > maxes[i]) { maxes[i] = counters[j]; } } double tr = ((double)mins[i] + (double)maxes[i]) / 2; thresholds[i] = (int)Math.Ceiling(tr); } // There are no big spaces in the barcode -> only small spaces thresholds[1] = Int32.MaxValue; // For start and end symbols defined empirically threshold equals to 5 if (offset == STARTEND_LENGTH) thresholds[0] = 5; int bitmask = 1 << offset; int pattern = 0; for (int i = 0; i < offset; i++) { int barOrSpace = i & 1; bitmask >>= 1; if (counters[position + i] >= thresholds[barOrSpace]) { pattern |= bitmask; } } for (int i = 0; i < CHARACTER_ENCODINGS.Length; i++) { if (CHARACTER_ENCODINGS[i] == pattern) { return i; } } return -1; } } }

「最適化」Zxing

そのため、ページ上の1つ以上のコードを認識できました。しかし、私たちの問題はそこで終わりませんでした。条件に応じて、複数のコードを使用できるほか、シートの4つの異なる位置をスキャンする必要があるため、アルゴリズムは大幅に「遅く」なりました。さらに掘り下げて、次の機能が発見されました。

Zxingは、画像に基づいてRGBLuminanceSourceクラスのインスタンスを作成します。元の画像の各ピクセルの明るさに関する情報を含むバイトの配列があります。次に、この情報としきい値に基づいて、ビットマップが取得されます。

以下は、RGBLuminanceSourceクラスのコンストラクターのコード部分の例です。

  Color c; for (int y = 0; y < height; y++) { int offset = y * width; for (int x = 0; x < width; x++) { c = bitmap.GetPixel(x, y); var r = ColorUtility.GetRValue(c); var g = ColorUtility.GetGValue(c); var b = ColorUtility.GetBValue(c); luminances[offset + x] = (byte)(0.3 * r + 0.59 * g + 0.11 * b + 0.01); } }

つまり、サイクルでは、遅いビットマップ.GetPixel（x、y）が画像の各ピクセルに使用されます！解像度が200x300ピクセル（またはそれに近い）の小さな画像の場合、このアプローチは非常に適切であり、遅延は発生しません（原則として1つのコードしか認識されない場合）。ただし、この場合、画像の解像度は高く（最大3000 x 5000ピクセル）、これに方向オプションの数を乗算し、多くのページの処理を乗算する必要があります。これはすべて、許容できない遅延につながります。たとえば、上記の解像度の1ページでは、RGBLuminanceSourceクラスのオブジェクトが8秒で作成されましたが、これはもちろん非常に長いです。

このコードをさらに変更し、GetPixelを忘れて、スキャンに取り掛かる必要がありました。

  bmp = bitmap.LockBits(new Rectangle(0, 0, width, height), ImageLockMode.ReadOnly, bitmap.PixelFormat); for (var y = 0; y < bmp.Height; y++) { var row = (byte*)bmp.Scan0 + (y * bmp.Stride); int offset = y * width; for (var x = 0; x < bmp.Width; x++) { var b = row[(x * pixelSize)]; var g = row[(x * pixelSize) + 1]; var r = row[(x * pixelSize) + 2]; luminances[offset + x] = (byte)(0.3 * r + 0.59 * g + 0.11 * b + 0.01); } }

このステップにより、アルゴリズムが大幅に加速され、許容可能な処理時間を得ることができました。

PDFで作業する

前述のように、クーポンスキャンは画像ファイルの形式またはPDFドキュメントで行うことができます。 pdfページを画像に変換するために、itextsharpライブラリを使用しました。

このライブラリを操作するためのメインクラスはPdfReaderです。このクラスのインスタンスは、たとえば次のようにして取得できます。

ネタバレの下でコードを探します。

非表示のテキスト

 var reader = new PdfReader(filePath)

その後、コードで使用できます。

 for (var pageNumber = 1; pageNumber <= reader.NumberOfPages; pageNumber++) { var page = reader.GetPageN(pageNumber); List<ImageRenderInfo> images; try { images = FindImageInPDFDictionary(page); } catch (Exception) { //     PDF  continue; } finally { reader.ReleasePage(pageNumber); } foreach (var img in images) { var image = RenderImage(img); var result = ImageDecoder.Decode(image, allRotations); if (result != null && result.Count > 0) { //  ,     } } }

この関数を使用して、PDFドキュメントページで画像を検索します

 private static List<ImageRenderInfo> FindImageInPDFDictionary(PdfDictionary pg) { var result = new List<ImageRenderInfo>(); var res = (PdfDictionary)PdfReader.GetPdfObject(pg.Get(PdfName.RESOURCES)); var xobj = (PdfDictionary)PdfReader.GetPdfObject(res.Get(PdfName.XOBJECT)); if (xobj == null) return null; foreach (var name in xobj.Keys) { var obj = xobj.Get(name); if (!obj.IsIndirect()) continue; var tg = (PdfDictionary)PdfReader.GetPdfObject(obj); var type = (PdfName)PdfReader.GetPdfObject(tg.Get(PdfName.SUBTYPE)); if (PdfName.IMAGE.Equals(type)) { var width = float.Parse(tg.Get(PdfName.WIDTH).ToString()); var height = float.Parse(tg.Get(PdfName.HEIGHT).ToString()); if (width > ImageDecoder.MinimalSideResolution || height >= ImageDecoder.MinimalSideResolution) { var imgRi = ImageRenderInfo.CreateForXObject(new Matrix(width, height), (PRIndirectReference)obj, tg); result.Add(imgRi); } } if (PdfName.FORM.Equals(type)) { result.AddRange(FindImageInPDFDictionary(tg)); } if (PdfName.GROUP.Equals(type)) { result.AddRange(FindImageInPDFDictionary(tg)); } } return result; }

ImageRenderInfoクラスのオブジェクトからBitmap型のオブジェクトを取得します

 private static Bitmap RenderImage(ImageRenderInfo renderInfo) { try { var image = renderInfo.GetImage(); using (var dotnetImg = image.GetDrawingImage()) { if (dotnetImg != null) { using (var ms = new MemoryStream()) { dotnetImg.Save(ms, ImageFormat.Png); return new Bitmap(dotnetImg); } } } } catch (Exception) { } return null; }

ImageDecoder.Decodeメソッドは、画像内のコードを検索するロジックを実装します。

世界には今、多くの種類のバーコードがあります。それらのほとんどの認識と生成は、開発者が利用できるライブラリに実装されています。ただし、元のタイプのバーコードにつまずくと、すぐに認識できなくなることがあります。

そして、慎重にピアリングし、適切に設計されたオープンソースライブラリを使用する方法は、すぐに結果を得るのに役立ちます。

便利なオープンソースとZxingに別の言語を話すように教えた方法

Zxing

アルゴリズム

アルファベット

「最適化」Zxing

PDFで作業する

More articles: