中国市場向けのアプリケーションのローカライズ-2。 ブロックリスト

前のトピックでは、PRC市場でアプリケーションをリリースしたい開発者の要件の概要を説明しました。 受け取ったすべての質問のうち、2つの主な質問はブロックリストと中国からの金銭の引き出しに関するものでした。 最初のポイントをより詳細に検討したいと思います。



禁-「禁止」を意味します





当然、そのような問題は規制の枠組みから研究し始める必要があります。 この主題に関する主要な文書の1つは、 文化部令第49号-WEB管理管理行管理办法 (PRC第49号「オンラインゲームの規制と管理のための暫定措置」)である。 第9条には、オンラインゲームでは受け入れられないコンテンツがリストされています。

「第9条オンラインゲームには、次のコンテンツは含まれません。

1)中国憲法の基本原則に違反する。

2)中国の国家統一、主権、領土保全を危険にさらす。

3)国家の秘密を漏らし、国家の安全を危険にさらすか、国家の名誉と利益を損なう。

4)民族的憎悪または民族差別を扇動し、国家の統一を損ない、または国家の習慣や習慣を侵害する。

5)カルトと迷信の促進。

6)公序良俗に反する噂を流し、社会の安定を損なう。

7)わいせつ、ポルノ、ギャンブル、暴力、または犯罪の扇動。

8)他人のs辱、名誉am損、および法的権利と利益の侵害。

9)矛盾する公衆道徳。

10)法律、行政および州の規制により禁止されているその他のコンテンツ。

すべてが多かれ少なかれ賢明で合理的です。 このような制限の実現可能性については説明しませんが、このタスクの技術的な実装にアプローチする方法について説明します。

すぐに小さな発言-非常に収益性が高いと予想される大規模なプロジェクトがある場合、それ以上のテキストは意味がありません。すぐにすべてが最高レベルで実装されているエンタープライズソリューションを購入する必要があり、データベースは毎日更新され、テクニカルサポートは良好ですと忠実。 たとえば、そのような製品は byによって提供されています。「公共感情制御システム」は本当にシックで、可能なすべて、2つの不可能な機能、1つの信じられない機能が含まれています。 確かに、この決定には、1年に150,000元+ 2万元がかかります。 他の会社もありますが、価格帯はほぼ同じです。

小規模なプロジェクトがある場合は、次のテキストが役立ちます。

中国の法律によると、すべてのユーザー生成コンテンツは検閲する必要があります。 ユーザーは次のコンテンツを作成できます。

1)テキスト(ニックネーム、他のプレイヤーへのメッセージ)

2)グラフィック(アバター)

3)ビデオ



そのため、ポイント1-テキストコンテンツの検閲

特定の単語や文章をタイピング(保存)することが不可能であることを実現するのに複雑なことは何もありません。 しかし、これは一見したところです。 あなたは、外国人の100%のように、どの単語や文章をブロックする必要があるのか​​分かりません。 複雑なものはありません。そのようなテーブルは、中国の開発者フォーラムで簡単に見つかり、敏感词库(敏感な単語と表現のデータベース)で検索され、すぐにXLSまたはXML形式でダウンロードされ、ブロックリストに簡単に統合されます。

困難は後で始まります。

まず、中国の居住者は、伝統的な文字と簡略化された文字の両方を理解し、読むことができます。 しかし、Unicodeシステムでは、従来の単純化された形式の同じ文字は2つの異なる文字です。 したがって、単純化されたものを従来のものに単純に変換することにより、ベースを2倍または3倍にする必要があります(つまり、1つのエントリの代わりに、「政府は不可能」に2つの「政府無能」と「政府無能」があります。第二に、中国の市民は95%のケースでコンピューター/電話でテキストを入力するためにピンインを使用しています。ピンインは象形文字レコードの音声転写を使用し、システムに従って必要なものを選択します つまり、前のフレーズを入力するには、次のように入力する必要があります。



最初のオプションを選択します。 ブロックリストを作成するとき、これは特定の困難を引き起こします。 結局、无をwuに置き換えた場合、フレーズ(政府无能)の意味は完全に明確なままになります-カクesJIu 6bIをこのように書きます。 つまり、その場で文字を変換するために象形文字コンバータを使用してベースと比較するか、ベースを数回膨らませる必要があります(政府無neng、zheng府無能などの値を追加します)。発音区別符号付きの文字(これは一般に調性ですが、トピックとは何の関係もありません-wǔ、wù、wú、wū)

第三に、ローカルトリックを考慮する必要があります。 ロシア語でブロックリストを回避する方法は、ほぼすべてを表しています。 中国語では、よりシンプルで複雑です。 政府(政府)を正夂广付と書くことができると仮定します-ネイティブスピーカーは意味を簡単に理解できますが、システムはそれをブロックしません。 このために、象形文字要素のヒューリスティックおよび比較に基づく特定のソリューションもあります。最初に、字根库(象形文字要素のベース)が検索され、次にそれらの間の接続とそれらの間の可能な組み合わせが慎重に描画されます。 繰り返しますが、これはすべて、従来の形式と簡略化された形式の両方で実行する必要があることを忘れないでください。

第4に、ローカルの明るい頭も眠らず、常に新しい制御方法を模索しているため、ベースを常に更新する必要があります。



グラフィックコンテンツをブロックする

ここでは、すべてがもう少し複雑であり、最終的なモデレーターなしではまだできませんが、彼の作業を簡素化することができます(必要な場合もあります)。

第一に、写真にはテキスト情報も含まれる場合があります。 これを行うには、OCRモジュールを接続し、上記の段落のテキストベースに関連付ける必要があります。

第二に、象形文字を書くスタイルは数十あります。 しかし、特定の書体を使用して書面の文字を簡単に決定できるという事実により、タスクは容易になります。 これを行うには、任意のコンバーターサイトにアクセスします( このように、データベースを解析し、各文字に通信を割り当てます。たとえば、政府に関する迷你简黄草のスタイルに関する上記のフレーズは次のようになります。



そして、次のような中国龙新草体のスタイルで:



したがって、基本的にデータベース内の各キャラクターの画像を作成し、ブロックリスト内のアイテムとの通信を割り当てる必要があります。

第三に、明らかにポルノ的な性質の写真をブロックするために既存の慣行を使用し、毎週ベースでニュースを読んで、すでにグラフィックコンテンツをブロックするためにニュースから写真をテーブルに追加する必要があります(画像画像の対応を分析するために世界中で膨大な数の開発があります)など。 これは、モデレーターを仕事から完全に救うわけではありませんが、モデレーターを大いに助長します。

まあ、ビデオの自動検閲の実装は非常に面倒であり、自分で作成する作業は非常に圧倒的であるため、一般的にこの機能を無効にする方が簡単です。 さて、またはすべてのビデオの手動事前調整に参加してください。

実際、最初の2つの関心ポイントを実装することで、中国市場からの注目度の高い90%の逸脱から保護され、尊敬されるすべてのローカルアプリストアへのパスが提供されます。

これらは基本的なアクションです。 記事では、彼らは非常に表面的に考えられています、記事はアプリケーションからサードパーティのリソース(ソーシャルネットワーク、マイクロブログなど)に送信されるコンテンツをフィルタリングするプロセスを考慮せず、禁止されたコンテンツと数百のポイントの存在についてファイルをフィルタリングするプロセスを考慮しません。 以下は、Goonieソリューションの仕組みを多少簡略化した図です。 これを独自に実装した後、私は彼らがお金を必要とする理由を理解しました-)



ご清聴ありがとうございました。 面白かったと思います。

PS 3,500行の基本的なテキストブロックリストの例(突然誰かが興味を持っている)がリンクにあります



All Articles