🎿 👶🏾 👩 DaData.ruは同じ人を見つけて破壊します ♠️ 👨🏿‍⚖️ 🐛

DaData.ruは、連絡先データ（名前、住所、電話番号、電子メール、パスポート）の自動検証、修正、重複排除のサービスです。

電話に453件の連絡先があります。それらの間には重複があります。同じ人物が「Lech」、「Alexey Megafon」、または「Zinoviev、Alexey Ivanovich」として記録されます。 LekhaにはSkypeと誕生日があり、Alexey Nikolaevichには電子メールと主要な携帯電話番号があり、Megafonにはわかりやすいオペレーターの予備の番号があります。

電話連絡先では、重複は不快ですが、特に迷惑ではありません。さらに悪いことに、そのような跳躍が会社の顧客ベースで始まるとき。

問題

顧客の連絡先情報が複数のExcelファイルまたはデータベースに広がると、生活が複雑になります。

クライアントがいくら費用がかかるかは明らかではありません 。 2003年、Viktor PetrovichはMoyTvoStrakhに目を向け、2007年には自動車、2012年には住宅に保険をかけました。その結果、彼は会計システムに3回連れてこられました。 Viktor Petrovichによれば、自動的に利益と損失を計算することは不可能であり、保険料はどれだけかかるのかは不明です。
ニュースレターは悪夢に変わります。マーケティング担当者Vikaは、多数のExcelファイルから電話とメールを手動でコピーして結合します。急いで、間違っていると誓います。急いで、2,000の連絡先を失います。これが判明すると、監督はビカに非常に不満を抱いています。
猛烈な顧客 。 Svyazintercomプロバイダーでは、顧客は3つの異なるデータベースに複製されています（同社は20年間営業しており、注目すべきIT動物園を蓄積しています）。その結果、クライアントのヒョードルは繰り返し広告レター、通話、SMSを繰り返し受け取ります。ヒョードルの忍耐が終わると、彼はグッテレコムに向かいます。

解決策

同一の顧客を見つけて破壊します。これは、DaData.ruがまさに行うことです。クライアント、住所、電話の間で重複を検出します。それらを組み合わせて、マーケティング、CRM、および分析のための「参照」クライアントベースを構築します。

誰が便利になるでしょう：

マーケティング担当者へ 。多数のExcelファイルからクライアントの単一リストを作成します-配布またはCRMへのアップロード用。
営業部 。テレマーケティング用に、いくつかのデータベースから名前と電話の登録をコンパイルします。
商社。アドレスで比較することにより、異なるディーラーから同じアウトレットを見つけます-アウトレットの利益の正しい計算のために。
そして、最終的に、 開発者に 。白髪を稼ぐことなく、人生の最高の年を殺すことなく、ビジネスの問題を解決します。

自転車を書くよりも簡単

Pfff、重複を見つける、考えます。ここでは、感謝しないでください：

address1 == address2

ああ、まだタイプミスがあります。次に、このように：

 similarity (address1, address2) > 0.95

まあ：

 > similarity ( "  11/-89", ", , 11 , 89") > 0.95 False

データは最初に正規化され、「標準的な」外観（「モスクワ時間、スクホンスク11 / -89」→「127642、モスクワ、ul。スクホンスカヤ、11、apt。そして、注意して比較してください。そうしないと、次のようになります。

 > similarity ( ", - 1-,  20", ", - 3-,  20") > 0.95 True #

重複を検索するときは忘れないでください：

いくつかのシナリオに従ってチェックします。名前+生年月日+電話、名前+住所、住所+電話+電子メール-いくつかのフィールドが入力されていない重複を逃さないようにします。
効果的なアルゴリズムを考案します。そうしないと、10万人の顧客ごとのO（n ² ）の複雑さにより、顧客同士で½1010 ^個の比較が得られます。
「保証された」（自動的に結合可能）複製と非保証（最初に手動でチェック）複製を区別します-それ以外の場合は、過剰を結合します。

簡単なことではありません。そして、ダダトでは、すべてが準備ができています。

手動でチェックするよりも正確

多くの場合、人々は住所や電話を間違えたり、同じことをさまざまな方法で書いたりします。

ノボシビルスク、セントパール、d。2

Zhmchuzhna NSC 2、入り口4

ノヴォシビルスク地方ソヴェツキー地区、

Zhemchuchnaya通り、家2、アパート98

したがって、顧客を手動で比較することは困難です。人はこのデータを同じものとして認識しません。もちろん、200人のオペレーターを雇ってベース全体を完成させることができます。彼らは長い間働くでしょう、それは高価になりますが、その結果、彼らはまだ多くのテイクを逃します。

Dadataは30分で10万件のレコードを処理し、データを3つのグループに分けます。

一意：1つのインスタンスのみにいる顧客。
類似：属性が類似しているが、自動的に結合するほど強くない人。
同じ：まったく同じ人。

同一のDadataが団結します。そして、同様のものは手動で見る方が良いです：

「Ovchinnikov Fedor、10/12/1990、Samara Kirova 12」と「Fedor ovchinnikov、Samara、fedor @ thefedor.ru」-同じ人物ですか？あなたは彼の注文の履歴を上げてそれを理解することができます;ダダタはここでは助けません。

仕組みと費用

Dadataは、エラーやタイプミスを考慮して、既製のアルゴリズムを使用して名前、住所、電話を比較します。 8年間、私たちは大企業の顧客とのプロジェクトでそれらをデバッグし、今では誰にでもアクセスできるようにしています。

Dadataが同様の顧客を集めたとき、彼は名前、住所、電話など、すべての人から最高のものを選びます。複数のアドレスまたは電話がある場合は、すべてかかります。同一-1つに結合します。

顧客が結合するほど類似していない場合、これを報告します：

そのようなクライアントを団結させます

エレナバエバ、1990年10月10日生まれ

モスクワ、Norilskaya str。、17、apt 25

エレナ・バエバ

ナリルスカヤモスクワ時間、家17 kv25、4階

しかし、これらは （父と息子）ではありません

アレクセイ・エフレーモフ、1951年6月18日

g。ノボシャフチンスク、セントレッドドーン、d 7

アレクセイ・エフレーモフ、1976年12月3日

g。ノボシャフチンスク、セントレッドドーン、d 7

ファイルで動作しますが、APIはまだです。必要に応じて（および使用方法）コメントを記入してください。

ファイルのエントリごとに25コペックかかります（10,000エントリ= 2,500ルーブル）。ファイル統計と100エントリの表示は無料です。自分で試してみてください。

DaData.ruは同じ人を見つけて破壊します

問題

解決策

自転車を書くよりも簡単

手動でチェックするよりも正確

仕組みと費用

More articles: