A / Bテストは簡単です





A / Bテストは、オンラインリソースのパフォーマンスを向上させる強力なマーケティングツールです。 A / Bテストを使用して、ランディングページのコンバージョンを増やし、広告ネットワークの広告に最適な見出しを選択し、検索の品質を向上させます。



さまざまなインターネットプロジェクトでA / Bテストを編成するタスクを頻繁に処理する必要があります。 この記事では、テストを実施して結果を分析するために必要な基本的な知識を共有したいと思います。



なぜA / Bテストが必要なのですか?



状況を想像してみましょう。プロジェクトが開始され、トラフィックが収集され、ユーザーはリソースを積極的に使用します。 そして、ある晴れた日、何かを変更することを決めました。たとえば、ニュースを購読するのに便利なポップアップウィジェットを配置します。



私たちのソリューションは、リソースのユーザーが新しい素材を購読しやすくなるという直感的な仮定であり、購読者数の増加が期待されます。



私たちの仮定と仮説は、個人的な経験と私たちの見解に基づいていますが、それは必ずしも私たちのリソースの聴衆の意見と一致するわけではありません。 言い換えると、私たちの仮定は、変更を行った後、望ましい効果が得られるということを意味するものではありません。 このような仮説をテストするために、A / Bテストを実施します。



どのようにテストを実施しますか?



A / Bテストのアイデアは非常に簡単です。 リソースユーザーはランダムにセグメントに分割されます。 セグメントの1つは変更されないままです。コントロールセグメント「A」は、このセグメントのデータに基づいて、変更の影響を評価します。 セグメント「B」のユーザーには、変更されたバージョンのリソースが表示されます。



統計的に有意な結果を得るには、セグメントの相互の影響を排除することが非常に重要です。 ユーザーは厳密に1つのセグメントに割り当てられる必要があります。 これは、たとえば、ブラウザCookieにセグメントラベルを書き込むことで実行できます。



広告キャンペーン、曜日、天気、季節性などの外部要因の影響を減らすには、セグメントで測定を並行して行うことが重要です。 同じ期間に。



さらに、 内部要因を除外することは非常に重要です。これは、テスト結果を大きく歪める可能性もあります。 このような要因には、コールセンターのオペレーター、サポートサービス、編集スタッフ、開発者、またはリソース管理者のアクションが含まれます。 Googleアナリティクスでは、 フィルターを使用してこれを行うことができます。



セグメント内のユーザー数を常に等しくすることは常に可能とは限りません。したがって、メトリックは通常、相対的な、つまり選択されます。 セグメント内の絶対オーディエンス値への参照なし。 配給は、訪問者の数またはページビューの数によって実行されます。 たとえば、そのようなメトリックは、リンクの平均チェックまたはCTRである場合があります。



視聴者を不均衡に分割する理由の1つは、インターフェイスの大幅な変更です。 たとえば、古いWebサイトのデザインの完全な更新、ナビゲーションシステムの変更、連絡先情報を収集するためのポップアップフォームの追加などです。 このような変更は、リソースの操作にプラスとマイナスの両方の影響をもたらす可能性があります。



変更が強いマイナスの影響を与える恐れがある場合、たとえば、聴衆の急激な流出につながる場合は、最初の段階で、テストセグメントをあまり大きくしないのが理にかなっています。 マイナスの影響がない場合、テストセグメントのサイズを徐々に大きくすることができます。



私たちは何を改善していますか?



リソースでA / Bテストを実施する場合、プロジェクトはおそらく改善が必要な主要な指標をすでに形成しているでしょう。 そのような指標がまだない場合は、それらについて考える時間です。



指標は主にプロジェクトの目的によって決定されます。 以下は、インターネットプロジェクトで使用されるいくつかの一般的なメトリックです。



変換


コンバージョンは 、アクションを完了した訪問者の総数の一部として計算されます。 アクションには、ランディングページのフォームへの入力、オンラインストアでの購入、登録、ニュースの購読、リンクまたはブロックのクリックがあります。



経済指標


原則として、これらのメトリックは、オンラインストアに適用されます。 平均チェック サイズ収入量、オンラインストアへの訪問者の数を指します。



行動要因


行動要因には、リソースに対する訪問者の関心の評価が含まれます。 主な指標は次のとおりです:ページ閲覧の深さ -サイトへの訪問者数に関連する閲覧ページ数、 平均セッション時間直帰率 -最初の訪問直後にサイトを離れたユーザーの割合、 保持率 (新規ユーザーの1分と見なすことができます)。



行われた変更の効果を評価するには、常に1つの指標では十分ではありません。 たとえば、オンラインストアのWebサイトを変更した後、平均チェックは減少する可能性がありますが、訪問者から購入者へのコンバージョンの増加により、総収益が増加する場合があります。 この点で、いくつかの重要な指標を管理することが重要です。



結果分析



さて、主要な指標が定義され、テストが実行され、最初のデータが取得されました。 この時点で、特にデータが私たちの期待を満たしている場合、テスト結果について急いで結論を出しがちです。



急いではいけません。重要な指標の値は日々変わる可能性があります-これは、ランダム変数を扱っていることを意味します。 ランダムな値を比較するには、平均値を推定し、平均値を推定するには、履歴を蓄積するのに時間がかかります。



変更の効果は、セグメント内のキーインジケータの平均値の差として定義されます。 これにより、次の疑問が生じます。結果の信頼性について私たちはどれほど自信がありますか? テストを再度実行する場合、結果を繰り返すことができる可能性はどのくらいですか?



以下の図は、セグメント内のインジケーター値の分布の例を示しています。









分布グラフは、サンプル内のランダム変数の1つまたは別の値の発生頻度を特徴付けます。 この場合、すべての値は平均の周りに分布します。



両方の画像で、対応するセグメントのインジケータの平均値は同じであり、画像の違いは値広がりのみです



この例は、平均値の差が結果を信頼できると見なすには不十分であり、分布の交差面積を推定する必要があることをよく示しています。



交差点が小さいほど、その効果は本当に重要であると確信できます。 統計におけるこの「信頼」 は、結果の重要性と呼ばれます。



原則として、変更の有効性について肯定的な決定を下すために、有意水準は90%、95%、または99%に選択されます。 この場合の分布の交差は、それぞれ10%、5%、または1%です。 重要度が低いと、変更の結果として得られる効果について誤った結論を下す危険があります。



この特性の重要性にもかかわらず、A / Bテストに関するレポートでは、残念ながら、結果が得られた有意性のレベルを示すことを忘れることがよくあります。



ちなみに、 実際には、 10個のA / Bテストのうち約8個は統計的に有意ではありません。



セグメントのトラフィック量が多いほど、インディケータの1日の平均値の変動が小さくなることに注意してください。 ランダムな値の分散が大きいため、トラフィックが少ない場合、実験を行うのに時間がかかりますが、いずれにしても、実験をまったく行わないよりはましです。



結果の重要性を評価します。



ランダム変数を比較するために、数学者は統計的仮説のテストと呼ばれるセクション全体を考え出しました。 「ゼロ」と「代替」という2つの仮説しかありません。 帰無仮説は、セグメント内のインジケーターの平均値の差が重要でないことを示唆しています。 対立仮説は、セグメント内のインジケーターの平均値の間に有意差があることを示唆しています。



仮説をテストするために、いくつかの統計的テストがあります。 テストは、測定されたインジケータの性質に依存します。 一般的なケースでは、毎日の平均値を考慮する場合、 スチューデント検定を使用できます。 このテストは、次のような少量のデータでうまく機能しました。 有意性を評価するときにサンプルサイズを考慮します。



例として、実験を行ったリソースの1つであるstudentttest.xlsのセグメントの平均セッション時間を比較します。







学生のテストは普遍的であり、コンバージョン測定と、平均チェック、平均表示深度、ユーザーがサイトで費やした時間などの定量的指標の両方に使用できます。



コンバージョンのみを測定する場合、ビジターが「変換済み」と「未変換」の2つの値のみをとるバイナリランダム値を処理しています。 この場合の統計的有意性を評価するには、オンライン計算機を使用できます。



ツール



テストを整理するには、セグメントごとにオーディエンスをマークし、各セグメントでキーインジケータの値を個別に計算できるツールが必要です。



リソースで許可されている場合、このようなツールは、ユーザーアクションログの分析に基づいて独立して実装できます。 リソースが限られている場合は、サードパーティのツールを使用する必要があります。 たとえば、Googleアナリティクスにはカスタムセグメントを定義する機能があります。



テストプロセスを完全に自動化できるサービスがいくつかあります。たとえば、同じGoogle Analytics Experiementsレビューで他のサービスの例を見つけることができます



それから?



この記事では、A / Bテストを実施し、結果を分析するために必要な基本的な知識を提供します。 次のステップは製品分析です。 結論として、Evgeny KuryshevのA / Bテストの例と製品分析に関する優れたプレゼンテーションへのリンクを共有したいと思います。



All Articles