先日、自社メルマガのA/Bテスト結果を前にして、しばらく手が止まりました。
件名のA案・B案で配信し、開封率は確かにBが勝っていた。
でも、Bが勝ったように見えるのは、勝者の姿をした「ばらつき」かもしれない。
差分は+0.759pt。クリック関連の指標は同点。配信母数はn=527。
自分用のAIアシスタントに状況を渡して相談したところ、返ってきたのはこうでした。「n=527で0.7pt差は誤差レベルです。軸を変えるか、同じ軸で連続検証するかの判断時期です」。
ですよね…。
レポートに「+0.759pt B勝ち」と書くと、その瞬間から組織の意思決定はB方向に動き始めます。次の配信、その次の配信、半年後の運用方針まで、誤差の上に積み上がっていく。最初の0.7ptは小さくても、それを起点にした半年分の判断が全部そこに乗ると、ずれは無視できない大きさになってしまう…。
めんどうでも判定ルールを文書化するのが大事だなと思う瞬間です。
結果が出てから「これは勝ちか引き分けか」をその場の感覚で議論するのではなく。
基準が頭の中にしかないと、勝たせたい仮説の方に判定が寄ります。
AIアシスタントと相談して、Primary指標は開封率。+2.0pt以上の差で初めて優勢確定とみなす。1.0〜2.0ptは候補扱い、1.0pt未満は引き分け。Secondary指標はCTOR(クリック÷開封)で、ここが-0.5pt以上下がっていたら、たとえ開封で勝っていても採用しない。開いた人が中身でがっかりしているサインだからです。Guardrailは配信停止率0.5%超で即停止。読者の離脱は、どんな数字の勝ちより重く扱うという形にしました。いったん。(配信数の母数が母数なので…)
同じ軸で連続して同じ方向に結果が出てから採用判断に進む、というルールも明記。最初は3回連続で考えていましたが、最終的に自分の判断で1回増やしました。
毎回違う軸でA/Bを回していた頃、結果が出るたびに「これが効く」「あれが効く」と仮説がぶれていたからです。今回は件名のフレーズ、次回は配信時間、その次はセグメント。一回ずつ違うものを動かして、勝ち負けだけ並べていく。
それはそれは楽しいものだったのですが…。
再現性のないものを、再現したと錯覚していたともいえます(恥ずかしながら)。
同じ軸で何度か回して同じ方向が出て、はじめて「軸として効いている」と言える。回数を増やすほど、判断は遅くなります。でも、その遅さの分だけ、後ろに乗っかる施策の精度が変わるんじゃないでしょうか。
早く決めた施策が半年後にずれているより、遅く決めた施策が半年後も効いている方が、運用としては圧倒的に楽。
勝ち判定の瞬間は、楽しいよりも「それって誤差では?」と呼べる自制を、ルールという形で自分の外側に置いておきたい。地味で再現性のある改善を選ぶ。それが、長く運用するチームの強さになると考えています。
判断に詰まったときに「それってそもそも」といってくれるAIアシスタント、やっぱり頼りになるなぁと実感した一日でした。
#分析 #AIアシスタント #AI #AI分析