インターネット上で誰かが間違っている
私は偶然、ABテストとは何か、そしてそれを実施する方法について誤解があることを知りました。 したがって、基本的な原則と有用である必要のない方法の例を含む小さな記事。 ヒントは、ABテストに精通している初心者や、対象読者が少ないプロジェクト向けに設計されています。 多数の聴衆がいる場合は、テストの実施方法をすでに知っています。
ABテストの実施における私の経験はモバイルアプリケーションに関連しているため、基本的なことのみを記述しようとする意図にもかかわらず、いくつかの仕様が突破される可能性があります。
定義
ABテストは、製品の一部を変更したときに製品が改善されたかどうかを理解する方法です。 何らかの変更が製品の主要なメトリックを10%以上増加させるという仮説があるとします。 新しいユーザーを受け入れ、半分は製品の制御バージョンを提供し、もう半分は仮説を実装します。 メトリック値の差が統計的に有意になるまで、つまり、テストが90〜95%の確率で継続される場合に変化しないまで待機します。 結果が信頼できるものになるとすぐに、勝者を残して次のテストを実行します。
なぜこれが必要なのでしょうか?
「私のアイデアが製品を改善することを知っています。」 まあ、少なくとも悪くはありません。 まあ、極端な場合、本当に必要な人はそれを使用しますが、残りの製品は同じままです!
だから私たちの内なる声は私たちに伝えます まあ、または少なくとも私に言った。 そして時々彼は正しい。 そして時にはない。
-変更をリリースして、メトリックが増加するかどうかを確認しましょう!
成長しましょう。 しかし、同じアップデートでクラッシュが修正されたために成長する可能性があり、イノベーションのためではありません。 このような推定誤差は「偽陽性」と呼ばれます。 または、メトリクスは変更されないか、または低下する可能性がありますが、実際には変更は増加しています。 ちょうど並行して、ターゲットだけでなく、多くの非ターゲットオーディエンスももたらした広告が出て、製品に興味を持たずにすぐに去りました。 これは偽陰性エラーです。
エラーの原因は多数の要因である可能性があります。 そして、最も恐ろしいのは、外見の予測不可能性であり、影響力は結果ではありません。 歪みの要因を予測して評価することはできません。 そのため、「私は幸運です!」というモットーの下での変更のリリースは、製品メトリックスの安定した増加にはつながらないでしょう。
製品のメトリクスの検証可能な成長を保証するABテストが必要です。これは、外部要因や一時的な視聴者の変化ではなく、製品の改善によって正確に引き起こされます。
テストを停止するタイミング
2週間後にテスト変動の値がコントロールの値よりも大きい場合、これはまだ何の意味もありません。 信頼できる結果、つまり、継続的な測定で変化しない可能性が最も高い結果を取得する必要があります。 これは、 電卓を使用して実行できます。
変換データをベースに入力し、バリエーションをテストし、各バリエーションのサンプルサイズを取得します。これにより、バリエーションが統計的に有意に異なることがわかります。 エラー確率は偽陰性20%、偽陽性エラー5%。
テストが十分な数の参加者を受け入れ、テストのバリエーションがコントロールよりも大幅に優れている場合、テストは完了したとみなされ、変更は成功します。
AB –ボタンの色のテスト
これは、通常、ABテストとは何かを説明するために使用される例です。 この例は説明に適していますが、実際には通常、メトリックが大幅に増加することはありません。 あなたの製品はボタン以上のものだからです。 もちろん、テスト対象のすべての製品がバナーではない場合を除きます。
他のツールと同様に、ABテストは誤って使用される可能性があるため、プロジェクトメトリックは成長せず、それらを実行するための努力が費やされます。 テストに追加の条件を追加します。変更により、重要な製品メトリックが15%増加するはずです。 実験が15%の差を決定するのに十分なサンプルを収集したが、テスト結果が必要よりも低い場合、コントロールの変動に戻り、より大胆な仮説を探します。 そのため、製品開発の初期段階で重要な、本当に重要な変更をすばやく確認できます。
そして最後にいくつかのヒント:
- できるだけ少ないバリエーションを作成すると、テスト時間が短縮されます。
- まず、10%未満のコンバージョンをチェックしないようにしてください。これには多くの時間がかかります。 通常、有料ユーザーへのコンバージョンなどの重要な指標は、そのような指標に属します。 重大な改善をもたらすことが確実な場合は、彼女の仮説をテストします。
あとがき
ABテストは、仮説が確認されたときだけでなく、非常に役立つツールです。 この方法の魅力は、肯定的な結果が得られなかった場合でも、製品に関する新しい情報が得られることです。 この変更が機能すると思ったのに、機能しなかったのはなぜですか? おそらく、ユーザーが必要とするものについての私たちのアイデアは完全に真実ではないでしょうか? 答えを見つけると、新しい仮説に導かれ、そのうちの1つが機能します。