DaData.ruは、連絡先データ(名前、住所、電話番号、電子メール、パスポート)の自動検証、修正、重複排除のサービスです。
電話に453件の連絡先があります。 それらの間には重複があります。同じ人物が「Lech」、「Alexey Megafon」、または「Zinoviev、Alexey Ivanovich」として記録されます。 LekhaにはSkypeと誕生日があり、Alexey Nikolaevichには電子メールと主要な携帯電話番号があり、Megafonにはわかりやすいオペレーターの予備の番号があります。
電話連絡先では、重複は不快ですが、特に迷惑ではありません。 さらに悪いことに、そのような跳躍が会社の顧客ベースで始まるとき。
問題
顧客の連絡先情報が複数のExcelファイルまたはデータベースに広がると、生活が複雑になります。
- クライアントがいくら費用がかかるかは明らかではありません 。 2003年、Viktor PetrovichはMoyTvoStrakhに目を向け、2007年には自動車、2012年には住宅に保険をかけました。 その結果、彼は会計システムに3回連れてこられました。 Viktor Petrovichによれば、自動的に利益と損失を計算することは不可能であり、保険料はどれだけかかるのかは不明です。
- ニュースレターは悪夢に変わります。 マーケティング担当者Vikaは、多数のExcelファイルから電話とメールを手動でコピーして結合します。 急いで、間違っていると誓います。 急いで、2,000の連絡先を失います。 これが判明すると、監督はビカに非常に不満を抱いています。
- 猛烈な顧客 。 Svyazintercomプロバイダーでは、顧客は3つの異なるデータベースに複製されています(同社は20年間営業しており、注目すべきIT動物園を蓄積しています)。 その結果、クライアントのヒョードルは繰り返し広告レター、通話、SMSを繰り返し受け取ります。 ヒョードルの忍耐が終わると、彼はグッテレコムに向かいます。
解決策
同一の顧客を見つけて
誰が便利になるでしょう:
- マーケティング担当者へ 。 多数のExcelファイルからクライアントの単一リストを作成します-配布またはCRMへのアップロード用。
- 営業部 。 テレマーケティング用に、いくつかのデータベースから名前と電話の登録をコンパイルします。
- 商社 。 アドレスで比較することにより、異なるディーラーから同じアウトレットを見つけます-アウトレットの利益の正しい計算のために。
- そして、最終的に、 開発者に 。 白髪を稼ぐことなく、人生の最高の年を殺すことなく、ビジネスの問題を解決します。
自転車を書くよりも簡単
Pfff、重複を見つける、考えます。 ここでは、感謝しないでください:
address1 == address2
ああ、まだタイプミスがあります。 次に、このように:
similarity (address1, address2) > 0.95
まあ:
> similarity ( " 11/-89", ", , 11 , 89") > 0.95 False
データは最初に正規化され、「標準的な」外観(「モスクワ時間、スクホンスク11 / -89」→「127642、モスクワ、ul。スクホンスカヤ、11、apt。 そして、注意して比較してください。そうしないと、次のようになります。
> similarity ( ", - 1-, 20", ", - 3-, 20") > 0.95 True #
重複を検索するときは忘れないでください:
- いくつかのシナリオに従ってチェックします。名前+生年月日+電話、名前+住所、住所+電話+電子メール-いくつかのフィールドが入力されていない重複を逃さないようにします。
- 効果的なアルゴリズムを考案します。そうしないと、10万人の顧客ごとのO(n 2 )の複雑さにより、顧客同士で½1010 個の比較が得られます。
- 「保証された」(自動的に結合可能)複製と非保証(最初に手動でチェック)複製を区別します-それ以外の場合は、過剰を結合します。
簡単なことではありません。 そして、ダダトでは、すべてが準備ができています。
手動でチェックするよりも正確
多くの場合、人々は住所や電話を間違えたり、同じことをさまざまな方法で書いたりします。
ノボシビルスク、セント パール、d。2
Zhmchuzhna NSC 2、入り口4
ノヴォシビルスク地方ソヴェツキー地区、
Zhemchuchnaya通り、家2、アパート98
したがって、顧客を手動で比較することは困難です。人はこのデータを同じものとして認識しません。 もちろん、200人のオペレーターを雇ってベース全体を完成させることができます。 彼らは長い間働くでしょう、それは高価になりますが、その結果、彼らはまだ多くのテイクを逃します。
Dadataは30分で10万件のレコードを処理し、データを3つのグループに分けます。
- 一意:1つのインスタンスのみにいる顧客。
- 類似:属性が類似しているが、自動的に結合するほど強くない人。
- 同じ:まったく同じ人。
同一のDadataが団結します。 そして、同様のものは手動で見る方が良いです:
「Ovchinnikov Fedor、10/12/1990、Samara Kirova 12」と「Fedor ovchinnikov、Samara、fedor @ thefedor.ru」-同じ人物ですか? あなたは彼の注文の履歴を上げてそれを理解することができます;ダダタはここでは助けません。
仕組みと費用
Dadataは、エラーやタイプミスを考慮して、既製のアルゴリズムを使用して名前、住所、電話を比較します。 8年間、私たちは大企業の顧客とのプロジェクトでそれらをデバッグし、今では誰にでもアクセスできるようにしています。
Dadataが同様の顧客を集めたとき、彼は名前、住所、電話など、すべての人から最高のものを選びます。 複数のアドレスまたは電話がある場合は、すべてかかります。 同一-1つに結合します。
顧客が結合するほど類似していない場合、これを報告します:
そのようなクライアントを団結させます
エレナバエバ、1990年10月10日生まれ モスクワ、Norilskaya str。、17、apt 25 エレナ・バエバ ナリルスカヤモスクワ時間、家17 kv25、4階 | しかし、これらは (父と息子)ではありません
アレクセイ・エフレーモフ、1951年6月18日 g。ノボシャフチンスク、セントレッドドーン、d 7 アレクセイ・エフレーモフ、1976年12月3日 g。ノボシャフチンスク、セントレッドドーン、d 7 |
ファイルで動作しますが、APIはまだです。 必要に応じて(および使用方法)コメントを記入してください。
ファイルのエントリごとに25コペックかかります(10,000エントリ= 2,500ルーブル)。 ファイル統計と100エントリの表示は無料です。 自分で試してみてください 。