「5P」:データの品質とコレクションの一般的なエラーについて



多くの企業は、データに基づいて作業し、意思決定を行うと考えていますが、そうではないことがよくあります。 実際、管理がデータに基づいて実行されるためには、これらの統計、これらの統計を収集してコンパイルするだけでは十分ではありません。



正しい分析を実施することがはるかに重要であり、そのためには「クリーン」でなければなりません。

データの純度と主要な品質パラメーターを理解するために、この記事から始めます。

信頼性の高い分析を行うには、すべての「P」データを観察する必要があります。正しい、正しく収集された、正しい形式で適切な場所で適切なタイミングで収集されます。

パラメーターの1つに違反すると、すべての分析の信頼性に影響する可能性があります。つまり、データを操作する際に注意することが重要なことを理解する必要があります。



データ品質の重要な側面



在庫状況

アナリストは必要なデータにアクセスできる必要がありますが、さらに、分析で使用されるツールにもアクセスできる必要があります。



精度

すべてのデータは信頼できるものでなければならず、許容されるエラーが示されています。

正確な温度は良いデータであり、古い住所、電話、または電子メールは悪いデータです。



相互接続性

あるデータを別のデータに関連付けることは常に可能でなければなりません。 たとえば、顧客に関する情報、住所、連絡先、支払い情報を注文番号に添付する必要があります。



完全性

データは「太字」で、すべての部分を含む必要があります。 情報の一部が欠落している「無効」は、品質分析の取得を妨げる可能性があります。



一貫性

データに一貫性がなく、互いに矛盾している場合は、どこかにエラーが入り込んでいます。

したがって、クライアントアドレスが2つのデータベースに存在する場合、一致する必要があります。 それ以外の場合は、信頼できるソースを1つ選択し、エラーが修正されるまで残りを無視する必要があります。



あいまいさ

各情報フィールドには、あいまいな値を許可しない完全な説明が必要です。



関連性

データは分析の性質と一致している必要があります。

たとえば、レミングスの季節的移動の統計は、為替レートの季節的変動をわずかに指します。



同じレミング、為替レートには影響しません。



信頼性

信頼できるデータは、完全かつ正確な情報です。



適時性

ロシアのビジネスの惨劇-タイミングの悪いデータ。

多くの場合、データにはまだ処理と分析の時間がありませんが、すでに古くなっています。



短期戦略を構築する際に古いデータを使用することは不可能であり、それらは長期的な戦略計画と予測の基礎としてのみ使用できます。



古くなったデータのもう1つの欠点は、データがほとんど役に立たなくなり、そのストレージと処理にコストがかかることです。



段落のいずれかに誤りがあると、使用するデータが部分的または完全に不適格になり、さらに悪いことに、誤ったデータに基づいて誤った結論が出される可能性があります。



エラーデータ





バシリスク-彼の説明には誤りがあります。



データの操作のどの段階でもエラーが発生します。これらの専門家は材料の操作における最後のリンクであり、情報の収集と処理を制御できないため、多くの場合、アナリストは修正に影響を与えません。



エラーの主な原因と、それらを回避する方法を見てみましょう。



データ生成

エラーの最も一般的で明白な原因:技術的な理由と人的要因の影響の両方があります。



技術的な理由と障害の場合、すべては情報収集ツールのキャリブレーションと適切な構成によって決定されます。



修理とキャリブレーションが問題の解決に役立たず、データの信頼性が低い場合、考えられる理由の1つは機器の信頼性の低さです。



そのため、地形のマッピング時に最も近い壁までの距離を測定するIRセンサーは、1メートル以上の誤差を与えたり、収集されたデータをリセットしたりする可能性があります。 そのような信頼できないセンサーの測定値を信頼することは不可能です。



人的要因は、さまざまな形で現れることもあります。 たとえば、従業員はデータを適切に収集する方法を知らないか、ツールを使用できない、不注意または疲れている、指示を知らない、または誤解している可能性があります。



most最も信頼性が高く、最も簡単なソリューションは、データ収集プロセスのできるだけ多くのステップを標準化することです。



データ入力

手動のデータ生成中に、それらを修正する必要があります;この段階では、多くのエラーが発生します。

電子文書フローがどのように拡張されても、多くのデータは紙媒体を通過してからコンピューターに入力されます。



多くの場合、インクデータを復号化するときにエラーが発生します。 わずかな不正確さのために、患者の健康と生命が危険にさらされるため、解読エラーを解決するためのほとんどの研究は医療分野で行われます。



そのため、この研究では 、医療ミスの46%が手書きデータのデコードの不正確さに起因することが示されました。 また、医療データベースのエラー率は26%達しました。これは、スタッフが手書きで書いたものをスタッフが誤解したか、理解できなかったという事実によるものであるという仮定があります。



したがって、例えば、人口の医学的調査の結果は、大人の成長が53 cmまたは112 cmである可能性があることを示しています。善悪両方。 調査には、多くの場合、「窓のアレルギー」や56 kgではなく156 kgの体重などの流産エラーが含まれます。



エラーは、平均して4つのタイプに分けられます。



  1. 記録

    データが最初に誤って書き込まれたエラー。

  2. 挿入

    追加キャラクターの外観。

    例:53.247►523.247。

  3. 削除する

    1つ以上の文字の損失。

    例:53.247►53.27。

  4. 座席の変更

    ちょうど2つ以上の文字を取り、場所を交換します。

    例:53.247►52.437。



それとは別に、ディトグラフィー(キャラクターのランダムな繰り返し)とハプログラフィー(繰り返しキャラクターのスキップ)を検討する価値があります。 これらのエラーは、破損したまたは手書きの古代テキストの復元に関与する科学者によってしばしば遭遇します。 そして、これは標準以下のデータに関連する別の問題です。



多くの場合、日付の記述でエラーが見つかります。また、アメリカ(月/日/年)やヨーロッパ(日/月/年)など、異なる標準が衝突する場合もあります。

また、これが間違いであることが明らかな場合(3月23日-3/25)、他のケースでは気付かない場合があります(4月3日-3/5または5/3?)。



エラーを減らす方法





ヒッポグリフは、グリフィンの一種である誇り高き神話上の動物です。 はい、彼も刻まれていますが、説明に誤りがあります。



最初のステップは、入力する前にデータを生成するためのステップ数を減らすことです。 伝送リンクとしての紙の参加を回避できる場合は、除外します。

値の検証は、電子形式で導入する必要があります。これは、構造化データを入力するときに特に重要です。インデックス、電話番号と都市コード、BIC、SNILS、r / s。



多くのデータには、エラーを減らすのに役立つ明確な構造があります。これは、文字数、グループへの内訳、およびその他のタイプのフォーマットです。



possible可能であれば、手動のデータ入力を除外し、オペレータまたはユーザーにドロップダウンリストから値を選択するように依頼します。



オプションの数が多い場合は、質問と回答のフォームを使用して、入力したデータの正確性を最終的に確認できます。



理想-データ入力中に人的要因を排除し、プロセスを自動化する。

データを復号化するとき、「二重記録の原則」でしっかりと確立されています。

この方法を使用する場合、2人の従業員が互いに独立して解読し、結果の後に、矛盾が見つかったデータが比較され、二重チェックされます。



データをデジタル形式で送信する場合、興味深いデータ検証方法が使用されます。

そのため、たとえば、銀行口座番号では小切手番号(金額)が使用されます。

制御番号は、送信された番号の後に番号が追加されるときに使用され、データの検証とエラーの検出に使用されます。



したがって、番号94121の場合、コントロール番号は8になります。番号を順番に追加すると、合計は17になり、17 = 1 + 7 = 8を追加し続けます。



941218を送信し、受信時にシステムが逆計算を実行します。金額が一致しない場合、番号はエラーとしてマークされます。



番号のブロックごとに1つずつ、複数の制御番号が存在する場合があります。

この方法には文字置換エラーに関連する欠点がありますが、何もしないよりはましです。






これで、データ収集と品質管理に関する私の紹介記事は終わりです。 情報があなたにとって有用であれば、私はフィードバックを喜んでいます。



おそらくあなたは何かに同意しないか、あなたの方法とベストプラクティスを共有したいと思います-私はあなたをコメントし、魅力的で有用な議論を期待しています。



ご清聴ありがとうございました。良い一日を!



情報源
カール・アンダーソンによる投稿

分析文化。 データ収集から業績まで

データ駆動型組織の作成

ISBN:978-5-00100-781-4

出版社:マン、イワノフ、ファーバー




All Articles