タクシーサービスは、顧客とドライバーの連絡先のデータベースを再生します

人気のあるウクライナのタクシーサービスUklonは、ドライバーと顧客の間で定期的に集会を開催しています。 各抽選の結果に基づいて、参加者の連絡先の詳細(名前とメールアドレスなど)を含むFacebookページにビデオを公開します( たとえば 、ビデオは削除されました)。 フレームスニペット:









元のビデオでは、アドレスは不鮮明ではありません。このデータをさらに広めないように、記事ではアドレスを不鮮明にしました。 これは良い考えではないという彼らのサポートの私の手紙に:

こんにちは

動画内の人の住所と名前をアップロードすることはできません(リンク)。

1.最初に、競合他社は顧客とドライバーのリストを取得できます。

2.次に、個人データへのアクセスに関するウクライナの法律に違反します


彼らは気にしないと答えた:

こんにちは、デニス、登録中、各ユーザーは自分の個人データuklon.com.ua/document/useragreement-パラグラフ2.6の使用に同意します。 ご意見ありがとうございます。



したがって、特別なスキルを使用せずにビデオから連絡先の詳細を取得する方法に関する短い投稿を書くことにしました。 免責事項:この投稿は本質的に教育的なものであり、顧客データを処理すべきではないことを示しています。



1.ビデオをダウンロードする



Facebookからビデオをダウンロードするための多くのサービスがあります。 http://www.fbdown.net/を使用して、ビデオへの直接リンクを提供します。 以降の例はすべてUbuntで行われますが、他のOSでも同様に機能するはずです。



2.フレームに分割します



元の動画では、動画の最初の17秒に連絡先リストが表示されます。 ffmpegでは、ビデオの最初の17秒をpng画像のシーケンスとして保存します。



$ ffmpeg -i video.mp4 -t 00:00:17 out%d.png
      
      





3. OCRの準備



認識のために、無料のOCR tesseractを使用します。 これはかなりうまくいきますが、元の画像の品質に敏感です。



ImageMagickを使用してすべての余分な部分をトリミングします

フレームから(座標40、202、サイズ345x421から開始)。



 convert '*.png[345x421+40+202]' thumbnail%03d.png
      
      





当然のことながら、右の写真のようになります。



Tesseractは小さな文字を適切に定義していないため、そのマニュアルではスクリーンショットを2〜3倍増やすことをお勧めします。



 convert thumbnail*.png -filter Lanczos -resize 300% final%d.png
      
      





4.認識



すべてのファイルを見つけて認識します。 -psm 4スイッチを使用すると、テキストを単一の列としてtesseractに認識させることができます。 また、キーload_system_dawg = 0の場合、認識に辞書を使用する必要はありません。



 for i in final*.png; do tesseract $i stdout -psm 4 -l eng+rus -c load_system_dawg=0; done > text.txt
      
      





重複を削除し、データベースの準備ができました:



 sort -u text.txt > uniq.txt
      
      





結論



データベースでの作業の結果、かなりの数のエラーがあります。 また、改善のための2つのオプションがあります。





いずれにせよ、この記事の目的は認識の質を示すことではなく、最小限のリソースで迅速にそれを行う基本的な可能性です。



更新:サービスアクションの合法性



2012年、ウクライナの個人データ保護局の長は、電子メールアドレスのデータベースでさえ、ウクライナの「個人データ保護に関する法律」の範囲内にあるとコメントしました。 したがって、そのようなデータの公開は、管理上または刑事責任を負う可能性があります。 ( ソース 、ウクライナ語)



更新2:サービスコメント



このサービスは、私の記事に対して、電子メールアドレスのデータベースを個人データとは見なさないと回答しました。

こんにちは、デニス、あなたの記事を読みます。 個人データ-特定された、または具体的に特定できる個人に関する情報または情報のコレクション。 これは、個人を特定できる情報です。 そのような情報には、姓、名前、愛用者が含まれます。 生年月日、生年月日、住所、電話番号; 識別コード; パスポートデータ; 教育文書など。




更新3:サービスがページから連絡先を含むビデオを削除しました



これは、彼らにとっては正しい決定であるように思えます。

こんにちは、ユーザーの個人データのセキュリティに関する懸念のため、オンライン自動呼び出しサービス「Uklon」のチームは、アクションの参加者(勝者)に関するすべての情報を投稿しない、つまり、氏名のみを掲載することにしました さらに引き分けの勝者。

以前にrandom.orgプログラムでユーザーの名前またはニックネームとメールを公開したことを思い出してください。

同時に、ユーザーはアクションに参加し、個人データの使用と公開に同意し、

公式のDeviation Webサイトに常に掲載され、プロモーションのすべての参加者がその条件を受け入れているプロモーションルールに従って、各プロモーション参加者は、自分の個人データに関連する権利と自発的に付与された事実に精通していることを証言し、確認すると言われています個人データは、マーケティング、広告、および/またはその他の目的ではない任意の手段により、その裁量で、プロモーションのプロモーター/エグゼキューターによる処理および配布(配布)に同意します ウクライナのtivorechaschey立法。 指定された同意は、第7条、第 8とアート。 11ウクライナ法「個人データの保護について」は、無期限に有効であり、行動の領域を制限することなく有効です。



All Articles