Googleインスタントブラックリストはどのような言葉ですか?

画像

出版物「2600:The Hacker Quarterly」の著者は、Googleインスタント検索(Googleインスタント検索)によって禁止されている単語のリストを作成することにしました。



いくつかの非常に特殊なケースを除いて、Googleは何でも疑うことができますが、検閲はできません。 しかし、すでに述べたように、ボリューム検索の巨人が対処することを拒否する多くの言葉があります。



Googleの意図を完全に理解しています。 彼のチームは、(あなたが本当に探しているのでない限り)多くの懸念をもたらす可能性のあるポルノまたは暴力的なリソースへのリンクが誰にも見られないようにしています。 数週間前にこれについて尋ねられたGoogleのJoanna Wrightは、子供を保護するために制限が導入されたと答えた。



しかし、そうすることで、Googleは独自の画像をかなりのリスクにさらすことに気付くでしょう。これらのギャップは、せいぜい行き止まりにつながり、最悪の場合、正確に何を理解できない特別なカテゴリの(そして高度な)ユーザーの熱い感情を傷つけるからですGoogle Live Searchはルールに対応しています。



たとえば、「バイセクシュアル」および「レズビアン」という言葉は禁止されています。 それらをGoogleに入力すると、Live Searchはウィンドウ内の検索オプションの発行を直ちに停止します。 そして、あなたは認証するために「Enter」をクリックする必要があります:はい、私は本当にバイセクシュアルまたはレズビアンの愛に関連する何かを見つけたいです。



Googleがこれらの単語をブロックしているのはなぜですか?


もちろん、Googleで同様の単語を検索して見つけることもできます。 唯一の質問は、彼らが募集されると、ライブ検索は文字通りその場でオプションのリストを提供するのをやめるということです。必要なリンクを見るためにあなたはすでに自分でEnterを押すべきです。



これは、Live Searchは検索バーに入力した結果を使用して結果を表示しないためです。 彼は、以前のすべてのユーザー検索に対して長年にわたって収集されたデータを単純に読み取り、空の行に入力する意図を事前に予測しようとします。 まったく同じアルゴリズムが、Googleサジェストテクノロジーを使用したオートコンプリート文字列の基礎です-古い、それほど「インスタント」ではないGoogle検索エンジン。



ポップアップウィンドウに既製の単語やフレーズが表示されない場合(「lesbian」または「ass」を入力した後)、これらの結果が内部検閲によってブロックされるためではありません。 Googleが、ユーザーが既に完全に無害で無害なものを探している場合に、ユーザーがすでに検索して過去に見つけた不快なテキストを見ないようにしようとしているだけです。 (以前、このトピックについてはすでに議論していました)。



数え切れないほどのユーザーが「レズビアン」という言葉を「ポルノ」の概念と結びつけ、子どもたちの目に留まらないフレーズを紹介しています。 そのため、Googleアルゴリズムは、レズビアンのポルノサイトへの20個のリンクを、アルゴリズムデータベースで最も頻繁にリンクされている場合でも、ダンプしないことを決定します。



この問題をGoogle自体に対処した後、権限のある人から次のコメントを受け取りました。



「特定のトピックで探している単語が表示されない理由はいくつかあります。 たとえば、ポルノ、暴力シーン、差別的なストーリーに厳しいフィルターをかけます。 オートコンプリート機能からリクエストを削除することは、禁止された単語やフレーズの単なるブラックリストと同じくらい単純ではなく、かなり難しい、技術的に高度なタスクです。



毎日10億件以上のクエリを受信して​​いるため、フィルタリングと削除にアルゴリズムのアプローチを使用していますが、これはもちろん(検索アルゴリズムのように)理想からはほど遠いものです。 しかし、私たちはそれを改善するために懸命に働き続け、あなたのすべての願いと異議を注意深く読みます。



私たちのアルゴリズムは、特殊な単語だけでなく、それらに基づいた複雑なクエリ、さらにはGoogleで提供されるすべての言語を対象としています。 たとえば、これがロシア語の悪い単語である場合、ラテン語の音訳を含む対応する複合語も削除します。 さらに、検索結果にも注意を払っています。 たとえば、ポルノのような印象を受けた場合、リクエスト自体が上記のルールに違反していない場合でも、アルゴリズムがオートコンプリートオプションの適用を妨げる可能性があります。 今日、私たちのシステムはもちろん不完全であり、私たちが望むほど速くはありませんが、私たちはそれを改善するために絶えず努力しています。」



ライブ検索では、非常に効率的なセーフサーチアルゴリズムが引き続きアクティブです。 ユーザーが「入力」をクリックした後に表示される可能性のある不快なコンテンツを非常に効果的に除外できます。 たとえば、中程度の保護を備えた「レズビアン」に関するクエリで発行された結果の最初のページは、完全に無害でした。



はい、現在のGoogleの開発は完璧とはほど遠いです-そして、会社の代表者はこれを確認します。 少なくとも、性的コンテンツ、暴力的コンテンツ、差別的コンテンツに関連していることがあるために禁止されているいくつかの広範な概念や単語のパラメータを手動で設定できるようにしたいと考えています。



Googleの担当者は、システムの改善に絶えず取り組んでいると主張していますが、将来どのような変更が期待できるかを正確に説明しているわけではありません。 したがって、今のところ、必要がある場合は、2006:The Hacker Quarterly Webサイト修正された単語の完全なリストを確認できます。



All Articles