あなたのABテスト、何回連続で同じ方向に出てから採用判断していますか。

先日、自社メルマガのA/Bテスト結果を前にして、しばらく手が止まりました。

件名のA案・B案で配信し、開封率は確かにBが勝っていた。

でも、Bが勝ったように見えるのは、勝者の姿をした「ばらつき」かもしれない。

差分は+0.759pt。クリック関連の指標は同点。配信母数はn=527。

自分用のAIアシスタントに状況を渡して相談したところ、返ってきたのはこうでした。「n=527で0.7pt差は誤差レベルです。軸を変えるか、同じ軸で連続検証するかの判断時期です」。

ですよね…。

レポートに「+0.759pt B勝ち」と書くと、その瞬間から組織の意思決定はB方向に動き始めます。次の配信、その次の配信、半年後の運用方針まで、誤差の上に積み上がっていく。最初の0.7ptは小さくても、それを起点にした半年分の判断が全部そこに乗ると、ずれは無視できない大きさになってしまう…。

めんどうでも判定ルールを文書化するのが大事だなと思う瞬間です。

結果が出てから「これは勝ちか引き分けか」をその場の感覚で議論するのではなく。

基準が頭の中にしかないと、勝たせたい仮説の方に判定が寄ります。

AIアシスタントと相談して、Primary指標は開封率。+2.0pt以上の差で初めて優勢確定とみなす。1.0〜2.0ptは候補扱い、1.0pt未満は引き分け。Secondary指標はCTOR(クリック÷開封)で、ここが-0.5pt以上下がっていたら、たとえ開封で勝っていても採用しない。開いた人が中身でがっかりしているサインだからです。Guardrailは配信停止率0.5%超で即停止。読者の離脱は、どんな数字の勝ちより重く扱うという形にしました。いったん。（配信数の母数が母数なので…）

同じ軸で連続して同じ方向に結果が出てから採用判断に進む、というルールも明記。最初は3回連続で考えていましたが、最終的に自分の判断で1回増やしました。

毎回違う軸でA/Bを回していた頃、結果が出るたびに「これが効く」「あれが効く」と仮説がぶれていたからです。今回は件名のフレーズ、次回は配信時間、その次はセグメント。一回ずつ違うものを動かして、勝ち負けだけ並べていく。

それはそれは楽しいものだったのですが…。

再現性のないものを、再現したと錯覚していたともいえます（恥ずかしながら）。

同じ軸で何度か回して同じ方向が出て、はじめて「軸として効いている」と言える。回数を増やすほど、判断は遅くなります。でも、その遅さの分だけ、後ろに乗っかる施策の精度が変わるんじゃないでしょうか。

早く決めた施策が半年後にずれているより、遅く決めた施策が半年後も効いている方が、運用としては圧倒的に楽。

勝ち判定の瞬間は、楽しいよりも「それって誤差では？」と呼べる自制を、ルールという形で自分の外側に置いておきたい。地味で再現性のある改善を選ぶ。それが、長く運用するチームの強さになると考えています。

判断に詰まったときに「それってそもそも」といってくれるAIアシスタント、やっぱり頼りになるなぁと実感した一日でした。

#分析　#AIアシスタント #AI　#AI分析

あなたのABテスト、何回連続で同じ方向に出てから採用判断していますか。

岩永梢絵

分析 AIアシスタント ABテストメルマガ AI分析