マッチング問題ずその察凊方法

こんにちは 私の名前はAlexey Bulavinです。ビッグデヌタに関するSbertechの胜力の䞭心地を代衚しおいたす。 ビゞネスの代衚者、補品所有者、アナリストは、同じトピックに぀いおよく質問をしたす-マッチング。 これは䜕ですか なぜ、どのように行うのですか 「なぜ倱敗するのか」ずいう質問は特に人気がありたす。この蚘事では、それらに答えようずしたす。









家庭の䟋から始めたしょう。 私には幌い息子がいたす。 圌は最近携垯電話を習埗し、今では携垯するのが倧奜きです。そのため、倧人のずきは、誰かに電話をかけ、「非垞に重芁な」トピックに぀いお簡単に電話をかけるこずができたす。 圌はお母さん、お父さん、おばあちゃんだけを呌んでいたす。 祖母は最も倚くを取埗したす5分前に圌に䜕が起こったのかを圌女に䌝えるために1日10回電話するこずがありたす。



幌皚園では、圌には友人のデニスがいたす。デニスには携垯電話もありたす。 䌚った埌、圌らは倧人ずしお電話で枬定されたすが、お互いに電話するこずはありたせん。 私はか぀お息子に尋ねたした



「このこずに぀いお友人に電話しおチャットしお、ビゞネスに぀いお話したせんか」

-お父さん、私はこれはたったく必芁ありたせん、私たちは毎日庭で䌚っお、もしあれば、そこで話したす。 物事は埅ちたす。



どうしたの 圌もデニスも自分の電話番号を知らなかったため、亀換できなかったこずが刀明したした。 キヌが䞍足しおいるため、通信が䞍足しおいたす。



マッチングずは䜕ですか



瀟䌚における新しい盞互䜜甚の手段は、新しい機䌚を生み出し、人々をより密接に結び぀け、圌らが぀ながっおいるこずをシステムに瀺したす。 マッチングは、被隓者ず自分ずの関係を瀺す぀ながりの䞀皮です。 たずえば、同じマシンが異なる掲瀺板で販売されおおり、これらの広告をたずめおリンクしお知芚したい堎合です。



䞀臎する理由



今日の情報は、収益化できる䟡倀です。 したがっお、远加情報は、新しい機胜の開発、既存補品の定性的な倉曎、たたは䞀般的な新補品の䜜成を通じお、付加䟡倀、利益の増加、たたはコストの削枛をもたらしたす。



原則ずしお、補品は明確に知識を深めたい特定のオブゞェクトに関連付けられおいたす。 新しい゜ヌスから取埗する远加情報が倚いほど、すべおの゜ヌスからの情報を単䞀の情報スペヌスに結合するタスクの関連性が高たり、これらが1぀のシステムの属性であるかのようになりたす。



マッチングの難しさ



デヌタの取埗ずリンクは、暙準的な技術タスクのようです。 しかし、倚くの問題により、これは困難な堎合も䞍可胜な堎合もありたす。





人、組織、オブゞェクト-それぞれの新しいシステムでは、すべおが新しく登録され、新しい個人識別子を受け取りたす。





䞀郚のデヌタ型では、IDは、関心のあるオブゞェクトではなく、ストリヌム内の個々のむベントたたはメッセヌゞに割り圓おられたす。 たずえば、システムは融資申請をキャプチャし、同じ人物が2぀の個別の申請を䜜成するず、2぀の異なるIDになりたす。 そしお、本人にずっおは、システム内のIDはそうではありたせん。





理想的には、各䞀意のIDは䞀意のオブゞェクトに察応したすが、実際にはそうではありたせん。 たずえば、車の色やPTS番号が倉曎され、人の姓や性別が倉曎されたした。 自動システムの正匏な兆候によるず、これは新しいオブゞェクトです。 たた、たずえば、デヌタベヌス内の既存のレコヌドを怜玢するのではなく、オペレヌタヌが新しいレコヌドを開始するだけの堎合、問題が発生する可胜性がありたす。











たずえば、゜ヌシャルネットワヌクでは、ペヌゞの所有者が自分の姓ず名を歪めたり、架空の名前に完党に眮き換えたりしたす。 䜕十ものむワノフ・りルガントフやりラゞミロフ・ポズネロフを芋぀けるこずができたすが、これらは名前の由来ではありたせん。





異なる堎合、同じIDに察しお異なるオブゞェクトたたはサブゞェクトが期埅できたす。 たずえば、電話番号が所有者を倉曎する堎合。



キヌによっお2぀のシステムのオブゞェクトを盞互に接続するこずは䞍可胜であるか、接続の割合ず品質が望たしいレベルを䞋回っおいたす。 耇数の情報フィヌルドの組み合わせ、耇合キヌずしおキヌを収集しようずするこずができたす。 しかし、ここで新たな困難が生じたす





通垞の情報フィヌルドが「非ヌル」になるずは誰も玄束したせん。 そしお、なんお幞運か。 耇合キヌのフィヌルドが倚いほど、䞀郚のキヌが取埗されない可胜性が高くなりたす。





たずえば、組織のオフィスのアドレスはランダムに入力されたす。d.5k.2 office 16; ハりス5ビル2オフィス16; 5-2-16。 たたは電話+7495344-3 ...、8-495-344 ...、495344 ....



さらに、耇合キヌの情報フィヌルドには、前述の問題がありたす。 耇合キヌに含たれるフィヌルドは、䞀意でなく、誀っおおり、意図的に歪んでいお、䞀定ではない堎合もありたす。



量ず品質



䞊蚘の困難を克服し、100マッチを達成する方法は 質問から始める䟡倀がありたす。このような高レベルの品質を達成するこずが本圓に必芁なのでしょうか ビゞネス䞊の問題を解決するには70で十分でしょうか



䞀連の属性で構成される耇合キヌがありたす。 ある皋床の確率でそれぞれが満たされ、キヌ芁玠ずしおの䜿甚に適した䜕らかの確率で満たされたす。 耇合キヌ党䜓が正垞になる確率は、すべおの確率ずキヌのすべおの属性の積です。 このすべおに、オブゞェクトが原則ずしお2぀のシステムに存圚する確率を掛ける必芁がありたす。 次に、䞀臎の確率を取埗したす。 そしお、それに゚ンティティの総数を掛けるず、比范により定量的な予枬が埗られたす。

耇合キヌの属性が少ないほど、䞀臎する可胜性が高くなり、オブゞェクトが2぀のシステムにある可胜性に近くなりたす。 しかし、比范の数は増え続けおおり、ほずんどの堎合、予枬を䞊回っおいたす。 これは、耇合キヌの属性の数が枛るず、誀ったマッチングの可胜性が高たるずいう事実によるものです。



簡単に蚀えば、耇合キヌの属性の数を枛らすず、正しく䞀臎したオブゞェクトの数ず䞀臎した゚ラヌの数の䞡方が増加したす。 量が品質ず戊っおいるように。 たた、ビゞネスタスクに応じお、量の方向たたは品質の方向のいずれかに結果をバむアスする䞀臎戊略を遞択できたす。



濃瞮、ろ過、正芏化



品質ず量を同時に増やすこずは可胜ですか もちろんできたす。 これを行うには、远加のデヌタ凊理のためにより倚くの、堎合によっおはより倚くのリ゜ヌスを費やす必芁がありたす。

デヌタの「穎」を埋めお、゜ヌスの他のフィヌルドから取埗できたす。 ロケヌション郜垂は、電話番号コヌド、TIN、地域コヌドから取埗できたす。 性別は、名前ず姓から、たたは著者のテキストを分析するこずにより取埗できたす。 匷化アルゎリズムは倚数ありたす。



次に、デヌタはフィルタヌを通過する必芁がありたす。 フィルタは、特定の゜ヌスのデヌタを入力および倉換する特性に関連する暙準たたは特定のいずれかです。 たずえば、印刷できない文字、重耇、二重文字、角かっこ、匕甚笊、スペヌスを削陀するフィルタヌは、暙準のものに起因したす。



特定のフィルタヌには、䞡方の蚀語で芖芚的に同じように芋える別の蚀語レむアりトの文字の怜出ず眮換が含たれたす。たずえば、Olyaずいう名前の英語レむアりトの文字Oです。 たたは、䞡方の蚀語LightおよびLightで同じたたはほが同じに聞こえる別の蚀語レむアりトの文字の怜出ず眮換。



正芏化には、別の蚀語ぞの翻蚳、音蚳、塗り぀ぶしパタヌン名前、ブランド、電話、䜏所、性別ぞの倉換、短い名前の完党な名前ぞの眮き換え、スラングや小圢の眮き換えが含たれたす。



同じキヌ構成であっおも、倚くの堎合、異なるデヌタ゜ヌスに察しお異なる基準を䜿甚する必芁がありたす。 これは、特定の゜ヌスにデヌタが入力される方法が原因です。 適切な基準を遞択するには、゜ヌスフィヌルドぞの入力に関する統蚈を収集しお分析するこずをお勧めしたす。 品質の改善は、゜ヌス内のフィヌルドの呚波数係数たずえば、自動車の補造、姓、「容量」の係数たずえば、居䜏者の数に関しおこの居䜏地の倧きさに応じた居䜏地の名前の䜿甚によっお圱響を受ける堎合がありたす。



䞀臎の異なるキヌを同時に組み合わせお䜿甚​​するず、特定のキヌを䜿甚するための条件ずしお係数を䜿甚できたす。 同様に、フィヌルドの完党性など、他の基準を䜿甚できたす。 条件を適甚せずに、同じ゜ヌス間で異なるキヌの䞀臎を組み合わせるこずができたす-結果は非垞に受け入れられたす。



その他の詊合



䞊蚘のアルゎリズムずはずきどき劇的に異なる他のマッチングアルゎリズムがありたす。 たずえば、匷力なキヌで既にパッチが適甚された別のオブゞェクトずの通信条件で、そのような接続の容量が定矩䞊小さい堎合、匱いキヌずの䞀臎。



䟋を挙げたす。 歎史䞊、車やアパヌトは平均しお1〜5人の所有者がいたす。 2぀のシステムでアパヌトたたは車のオブゞェクトに匷力なキヌがパッチされおいる堎合、サブゞェクトこのアパヌトの所有者であり、明確に関連付けられおいるは、姓や名などの最も匱いパラメヌタヌず䞀臎したす。



゜ヌシャルネットワヌクのオブゞェクトたたは倚数の安定した接続を備えた同様のデヌタ構造のオブゞェクトは、䞀臎のオブゞェクト自䜓ではなく、その環境に属する匱いキヌによっお䞀臎させるこずができたす。 さらに、䞀臎するオブゞェクト自䜓に独自の匱いキヌがある堎合がありたすが、そうでない堎合がありたす。 実際、叀代ギリシアの詩人゚りリピデスの声明はアルゎリズム化されおいたす。「あなたの友人が誰であるか教えおください。あなたが誰であるかを教えたす。」



゜ヌス内の識別子に明瀺的に関連付けられおいるオブゞェクトの1぀以䞊の写真を持぀2぀の゜ヌスの堎合、写真照合を適甚できたす。 写真でオブゞェクトたたは顔が匷調衚瀺され、別の゜ヌスの同じオブゞェクトたたは顔ず比范されたす。 実際、この原則によれば、「あなたの肖像画は博物通にいたすか」などのニュヌラルネットワヌクサヌビスです。Googleの䜜品から矎術通の肖像画の䞭䞖の人々の顔でアップロヌドした写真ず顔が䞀臎したす。 マッチングの基準は、遠く離れおいるが十分な類䌌性が埗られるように、特別に゜フトに遞択されたす。









さたざたな゜ヌスに倚数の著䜜暩テキスト情報がある堎合は、テキストマむニングアルゎリズムを詊しお著者をリンクできたす。 これは手曞きの分析の䞀皮ですが、手曞きの圢匏ではなく、テキストの内容を分析したす。



ビッグデヌタ



䞀臎の品質を向䞊させるには、さたざたなアルゎリズムを䜿甚する必芁があり、そのために倚くのリ゜ヌスが必芁になりたす。 アルゎリズムが倚いほど、より倚くのリ゜ヌスが必芁になりたす。 たた、倧量のデヌタがある堎合、それらは絶えず倉化しおいたすが、迅速か぀安䟡に読み取る必芁がありたすか



ほずんどの堎合、埓来の方法でデヌタを保存、凊理、照合するこずはできたせん。 ビッグデヌタむンフラストラクチャを怜蚎する䟡倀がありたす。 さたざたなベンダヌからりォレットたで、そのような゜リュヌションはすでに非垞に倚くありたす。



たずえば、Sberbankでは、䌁業デヌタマッチングがHadoop、Spark、HBaseのデヌタレむクコンポヌネントずしお実装されおいたす。 この゜リュヌションを䜿甚するず、倧量の異皮の非構造化デヌタを凊理し、デヌタがオヌバヌヘッドなしで保存される倧芏暡なクラスタヌで蚈算を実行できたす。 同時に、オヌプン゜ヌス゜フトりェアずコモディティサヌバヌが䜿甚されるため、このクラスのタスクに察しお゜リュヌションがかなり安䟡で効果的になりたす。 Hadoopはビッグデヌタに぀いお倚くのこずを曞いおいたす。 たずえば、これがDataArtで行われる方法はずおも気に入っおいたす。



マッチボックス



MatchBoxは、Sberbankのデヌタレむクで䜿甚する自動正芏化およびマッチングのためのシステムです。 最近、Sbertech Big Data Competency Centerで開発されたした。

MatchBoxは䞻に、単䞀のセマンティックデヌタレむダヌず単䞀のクラむアントプロファむルを構築しお最新の状態に保぀ために䜿甚されたす。 このシステムにより、倚数の゜ヌスからの情報を自動的に単䞀の情報スヌパヌ゚ンティティに結合し、゜ヌス情報を曎新するプロセスに統合するこずができたす。 これにより、銀行の珟圚の顧客および朜圚的な顧客に関する瀟䌚的人口統蚈孊的、心理的、行動特性、および消費者の奜みに関する知識が豊かになりたす。



MatchBoxは、あらゆる品質のデヌタを凊理し、怜蚌枈みの正芏化アルゎリズムず䞀臎アルゎリズムを備えたラむブラリを䜿甚し、このためのカスタムルヌルコンフィギュレヌタヌを備え、むベント、スケゞュヌル、たたはサヌビスずしお完党自動モヌドで動䜜したす。 MatchBoxは拡匵可胜で、定期的に凊理される゜ヌスの数はクラスタヌリ゜ヌスクォヌタによっおのみ制限されたす。



MatchBoxの実装のおかげで達成できたのは次のずおりです。





珟圚、耇雑なコンビナトリアルマッチ、グラフマッチ、写真マッチの探玢ずパむロットも行っおいたす。 そしお、高粟床を必芁ずする゜ヌス-怜蚌サブシステム。



この蚘事が、詊合に関連する質問に答え、デヌタを扱う際のあなた自身の問題を理解し、それらを解決するアプロヌチを芋぀けるのに圹立぀こずを願っおいたす。



All Articles