DaData.ruは同じ人を見つけて破壊します





DaData.ruは、連絡先データ(名前、住所、電話番号、電子メール、パスポート)の自動検証、修正、重複排除のサービスです。



電話に453件の連絡先があります。 それらの間には重複があります。同じ人物が「Lech」、「Alexey Megafon」、または「Zinoviev、Alexey Ivanovich」として記録されます。 LekhaにはSkypeと誕生日があり、Alexey Nikolaevichには電子メールと主要な携帯電話番号があり、Megafonにはわかりやすいオペレーターの予備の番号があります。



電話連絡先では、重複は不快ですが、特に迷惑ではありません。 さらに悪いことに、そのような跳躍が会社の顧客ベースで始まるとき。



問題



顧客の連絡先情報が複数のExcelファイルまたはデータベースに広がると、生活が複雑になります。





解決策



同一の顧客を見つけて破壊します。 これは、DaData.ruがまさに行うことです。クライアント、住所、電話の間で重複を検出します。 それらを組み合わせて、マーケティング、CRM、および分析のための「参照」クライアントベースを構築します。







誰が便利になるでしょう:





自転車を書くよりも簡単



Pfff、重複を見つける、考えます。 ここでは、感謝しないでください:



address1 == address2
      
      





ああ、まだタイプミスがあります。 次に、このように:



 similarity (address1, address2) > 0.95
      
      





まあ:



 > similarity ( "  11/-89", ", , 11 , 89") > 0.95 False
      
      





データは最初に正規化され、「標準的な」外観(「モスクワ時間、スクホンスク11 / -89」→「127642、モスクワ、ul。スクホンスカヤ、11、apt。 そして、注意して比較してください。そうしないと、次のようになります。



 > similarity ( ", - 1-,  20", ", - 3-,  20") > 0.95 True # 
      
      





重複を検索するときは忘れないでください:





簡単なことではありません。 そして、ダダトでは、すべてが準備ができています。



手動でチェックするよりも正確



多くの場合、人々は住所や電話を間違えたり、同じことをさまざまな方法で書いたりします。

ノボシビルスク、セント パール、d。2

Zhmchuzhna NSC 2、入り口4

ノヴォシビルスク地方ソヴェツキー地区、

Zhemchuchnaya通り、家2、アパート98



したがって、顧客を手動で比較することは困難です。人はこのデータを同じものとして認識しません。 もちろん、200人のオペレーターを雇ってベース全体を完成させることができます。 彼らは長い間働くでしょう、それは高価になりますが、その結果、彼らはまだ多くのテイクを逃します。



Dadataは30分で10万件のレコードを処理し、データを3つのグループに分けます。









同一のDadataが団結します。 そして、同様のものは手動で見る方が良いです:

「Ovchinnikov Fedor、10/12/1990、Samara Kirova 12」と「Fedor ovchinnikov、Samara、fedor @ thefedor.ru」-同じ人物ですか? あなたは彼の注文の履歴を上げてそれを理解することができます;ダダタはここでは助けません。



仕組みと費用



Dadataは、エラーやタイプミスを考慮して、既製のアルゴリズムを使用して名前、住所、電話を比較します。 8年間、私たちは大企業の顧客とのプロジェクトでそれらをデバッグし、今では誰にでもアクセスできるようにしています。



Dadataが同様の顧客を集めたとき、彼は名前、住所、電話など、すべての人から最高のものを選びます。 複数のアドレスまたは電話がある場合は、すべてかかります。 同一-1つに結合します。



顧客が結合するほど類似していない場合、これを報告します:

そのようなクライアントを団結させます

エレナバエバ、1990年10月10日生まれ

モスクワ、Norilskaya str。、17、apt 25



エレナ・バエバ

ナリルスカヤモスクワ時間、家17 kv25、4階
しかし、これらは (父と息子)ではありません

アレクセイ・エフレーモフ、1951年6月18日

g。ノボシャフチンスク、セントレッドドーン、d 7



アレクセイ・エフレーモフ、1976年12月3日

g。ノボシャフチンスク、セントレッドドーン、d 7


ファイルで動作しますが、APIはまだです。 必要に応じて(および使用方法)コメントを記入してください。



ファイルのエントリごとに25コペックかかります(10,000エントリ= 2,500ルーブル)。 ファイル統計と100エントリの表示は無料です。 自分で試してみてください



All Articles