A / Bテストは不要です*

あなたはすべてだまされています。 IT業界の慢な神話は、A / Bテストが普遍的で便利な最適化ツールであるという主張です。

*サイトおよびモバイルアプリケーション用





著者とこのテキストを書く理由について少し説明します;)
こんにちは、私の名前はチュディノフデニスです。 現在、モバイルアプリケーションの設計と開発のスタジオを開発しています。 顧客の間を行き交う誤解やステレオタイプに対処したい。

IT分野での私の道は、UXスペシャリスト(はい)、つまりソリューションと分析の設計から始まりました。 現在の投稿は、ある意味では、この方向での仕事の結果です。





私自身の経験と同僚の経験から、通常のA / Bテストを実施している会社はほとんどありません。 彼らは誰かがどこかを見たと言うが、実際には、正直なA / Bテストは見つかりません。



なぜそう 正しくしましょう。



一度、1つのプロジェクト(約80万人のユニークユーザーの毎日のトラフィック)で、A / Bテストの導入に着手しました。



これは私たちが直面しているものです:



1.「実験の純度」の観点から難しい



A / Bテストを受けるまで、サイトに別のバナー広告を追加してパフォーマンスを測定する際の「単純な」例を分析します。



彼らは彼をクリックし、お金が滴り始めました。



他のバナーとその変換はどうなりましたか? 運が悪ければ、おそらく総収入は変わらないか、落ちさえしません。



あなたが幸運で収入が増えたと想像してください。 単なるバナーですか? たぶん、トラフィックが変更されましたか? ソーシャルネットワークで季節性や1回限りのウイルス効果が機能しましたか? テスト中、製品は存続し、開発されますが、実験を台無しにするマーケティングの「影響なし」になる「クリーンな」月を見つけることは非常に困難です。



考えられる外的原因を十分に理解する必要があり、これはほとんどの場合コーヒーかすの占いです。 もちろん、製品のすべての指標を手際よく考慮することができます...そのため、コーヒーかすの占いはもう少し科学的です。



同様の状況で行動する方法は? 簡単なアルゴリズムに従ってください:

  1. 彼らは仮説を立てました。
  2. 変更を実装しました。
  3. 1か月(または別の期間:日または四半期)に主要な指標を測定しました。
  4. 良くなった? あなたは去ることができます。
  5. 悪化しましたか? そのまま戻ります。
  6. 繰り返します。
  7. 1に進みます。


改善や劣化が見やすいです。 変更の理由を説明し、それをスケーリングします-ああ、なんて恩知らずの仕事です。



2.クールな分析が必要です。 またはアナリスト



このプロジェクトでは、GoogleアナリティクスとYandex.Metricsに加えて、自己記述型アナリティクスを使用し、手動計算のために生データをExcelにアップロードしました。 私が知っているように、大規模な電子商取引プロジェクトはほとんど同じように生きています(少なくとも彼らは生きていました)。 考え方が異なり、エラーが異なるため、いくつかのシステムですべてを測定します。 同じサイトで、NMとGAの訪問データは非常に異なる場合があります。 悲しいかな、これが主な問題だった場合、分析システムは、商業指標と製品指標を同時に計算できるようにする必要がある場合、あまり役に立ちません。



新しいバナーにより、その月の収益が増加した可能性があります。 リターナビリティ(または保持)のみが低下し始めました。 聴衆の中核はより「イライラする」ようになりました。 つまり、数か月のうちにトラフィックが減少し、「サークル内」での収益が減少します。



私は何につながっていますか? 純粋に統計的であることに加えて、すべての理由を考慮に入れ、変更の結果を正しく測定することは事実上不可能です。 指標の自然誤差を考慮することは方法論的に(数学的に)正しいことであり、実験が誤差よりも大きな成長をもたらす場合は、新しいソリューションを残すかどうかを考えることができます。



インジケーターの自然な変動は10%-20%に達する可能性があるため、バナーを配置して利益の変化を5%受け取った場合、これは何の意味もありません。 何もありません。



ボタンをピンクに塗り直しましたか? コンバージョンが9%増加しましたか?

ハハ;)



3. A / Bテストは非常に高価です



異なるデザインを同時に異なる人々に見せましょうが、同じソースからですか? 次に、トラフィックの変動に依存せず、季節性とマーケティングも除外します。



素晴らしいアイデア。



履歴、高負荷、キャッシング、コンテンツ用の異なるサーバー、およびその他の多くの喜びを備えた製品が構成されている場合、このプロジェクトは、生産を分岐するために最初に強化された可能性は低いです。 つまり、アーキテクチャ上、プロジェクトはテストの準備ができていません。 これは、バックエンドのプログラマーに来て、次のように言った場合:



-コール、8%のオーディエンスに行きましょう。登録ページの異なるレイアウトを表示しますが、まだ登録されているはずです。 はい、フィールドは異なります。 はい、戻ってきた場合でもページをパーソナライズする必要があります。 そして、私はすでに統計を修正する必要があると言いましたか? ええと、なぜ私はあなたが沸騰していると言ったのですか?!

特に何かが落ちて視聴者を「ミックス」する場合、最初のA / Bテストは技術的な驚きと楽しみに満ちています。 もちろん、理想的なプロジェクトではそうではありませんが、実際には絶えず起こります。


これを処理し、さらにテストを行うと、小さな変更でもほとんど結果が得られないことがわかります。 つまり、ボタンが端を丸め、色を青から緑に変更すると、ほとんどのユーザーはこれに気付かないでしょう。 明確な結果が必要な場合は、「主要な」変更を行います。 登録用の入力フィールドは12個ありましたが、残り4個ですか? これは不可欠です。



主な質問は、12の代わりに4つのフィールドでうまくいくことができれば...なぜまだやっていないのですか? この状況で正しい結論を出すには、A / Bテストでの確認または信頼できるUX専門家の意見が本当に必要ですか?



さらに、A / Bテストを行うことに決めた場合でも、2番目のテストバージョンを準備するために、ページの初期コストの少なくとも半分をレイアウトする準備をしてください。



どう思いますか? あなたはまだ排気がコストと比較して非常に疑わしいと信じていませんか?



4.他のアクションはより多くの利点を提供します。



A / Bテストカバーの最後のハイライトは、広告主の変更、ソーシャルネットワークでのコンテストの開催、他の場所でのトラフィックの購入、キャンペーンの直接的な最適化、製品の新機能の提出、バグの修正が簡単に行えるという興味深い事実です。製品に触れることなく、有用な何か。 時間と費用がかかりますが、A / Bテストを行うよりも効率的にアクションを回収できます。



なぜA / Bテストはとても人気がありますか?



大企業はそれらを使用し、意図せずにPRを行うためだと思います。 彼らは彼らのために必要です。彼らはすでに彼らの製品のためにすべてを試しました、そして、現在、利益の穀物を求めて「石を絞る」ことを強いられます。 彼らには資源、お金、そしてそれに対する欲求があります。



たとえば、Yandex.Musicは、アイトラッキング(モバイルアプリケーションを使用するときに人間の目がどこに見えるかを調べるツールのセット全体)を使用します。 はい、予算があるときに良いことです。 今、みんなにそれをお勧めしませんか?



A / Bテストは、無能な人に簡単に販売されます。 レポートで何かをして、「カムチャッカ地域からの観客のリターンが8%増加した」と言うことができます。 これは利益にどのように影響しますか? そのような質問はめったに起こされません。 一般的に、アナリストやデザイナーは自分のパンを食べたいです;)



ボタンとインターフェイスに関する主な結論



きちんと、快適に、そして上品にそれをしてください。 それで十分でしょう。 製品がまあまあであり、コールセンターが顧客に対して無礼である場合、単一のインターフェイスでは状況を修正できません。



通常のデザインを行い、使用シナリオを考え、テキストの上に座って、素敵なグラフィックを描きましたか? クール、あなたはすでに96%の効率を達成しています!



インターフェースの改善により、残りの4%を達成-ユートピア。 ユートピアに住んではいけません。



だから、A / Bテストはデッドストーリーですか?



もちろん違います! コンテキスト広告や電子メールニュースレターのテスト中など、より制御された条件で作業する場合、方法論自体は優れています。 原則として、テキストはデザインとは異なり、テストが簡単です。 着陸は実験にも適していますが、結果の解釈には注意してください;)



All Articles