株式会社ジャパン・マーケティング・エージェンシー

企画部 ディレクター 牛堂雅文

●有意差検定の再考


今回は定量調査の本丸ともいえる、「有意差検定」にスポットライトを当てたいと思います。


肌感覚となりますが、プロダクト調査のマーケティングリサーチを実施した場合、「製品P」と、「製品Q」の評価差について「有意差検定を行うべきである」といったスタンスがあるように感じています。


有意差検定とは、仮に「製品P」の購入意向の平均が4.1、「製品Q」の購入意向の平均が3.8だった場合、「二つの製品の購入意向に差があると言ってよいのかどうか?」という判断をする場合などに用いられる統計手法です。


確かに「たった100人、200人の評価で全消費者の意見を推測して決めてしまっても良いのか?」という危うさに対するブレーキ役として、有意差検定は客観的基準を与えてくれる存在であり、安心感の担保にもつながっています。


しかし、有意差検定には多分に注意すべき点があります。今回はこの「有意差検定」について再考してみたいと思います。



【1】無作為抽出が実施されているか?


最も頭が痛いのがこの問いかけであり、有意差検定は「無作為抽出」を前提としています。しかし、住民基本台帳の閲覧が事実上不可能となった今、リストを元にした場合以外では、厳密なランダムサンプリングはほぼ不可能であり、ここには目をつぶるのが通例となっています。


また、現在Webモニターパネル(アクセスパネル)を用いた調査が主流となっていますので、これを例にとると以下のような偏りがあることが想定されます。


1)モニター契約の任意性からくるパネルの偏り
   多少なりとも積極性のあるライフスタイルの人の比率が高い可能性
2)返信率の問題
   当該テーマの関与度が高く、協力的な人に偏る可能性
3)ネット関連質問への偏り
   ネット媒体の比率は高くなるので、上ぶれしていると考えるべき
4)リクルート条件による偏り(ネット調査に限らないが)
   どういう母集団を想定しているか考慮しないと判断を間違う


Web調査、会場調査をはじめ、ほとんどの調査はサンプリングについては如何ともしがたい問題であり、抜本的な解決策はありません。ただ、有意差検定での「そもそもの立脚点」の部分の問題は記憶にとどめておきたいものです。



【2】全数調査ではないか?


通常の調査は「サンプリング(抽出)」が基本となりますが、若干ながらそうではない調査が存在します。従業員意識調査、来場者調査など、「全数調査が可能」な例があります。


もちろん、厳密には100%回収ではないケースが多いと思います。ただ、従業員調査で5名の部署で5名全員のデータが揃っていれば当然統計的な抽出誤差はなく、有意差検定を実施する意味はありません。1ポイントの差だろうが、0.5ポイントの差だろうが、同じ数字でなければ差はあります。


「全数調査といえば「国勢調査」など国が実施する調査しかない」といった誤解をしがちであり、ここは見落としポイントとなっているかもしれません。繰り返しますが、全数調査では有意差検定を実施しません。



【3】検定結果に影響を与えるもの


「客観的基準」に思える有意差検定ですが、実は操作可能です。
サンプル数を多くすれば、ほんのわずかな差でも有意差ありと検出されてしまいますし、逆に少なくすればほとんど有意差は検出されません。


予算に関わる話ですので、サンプル数をそう簡単に増減させることはないと思いますが、ある時1万サンプルの調査を実施した時に、どんな差でもほとんど有意差が検出され、「大サンプル調査における有意差検定の無意味さ」を痛感しました。


有意水準は「95%」を用いることが多いようですが、99%、95%、90%などと、有意水準の選択によっても有意差の有無は影響をうけます。頑強に思える有意差検定にも実はそういった操作可能な側面があることは記憶にとどめておくべきでしょう。


※実務ではそこまで問われることはないと思われますが、より学術的な部分に触れますと、有意水準については、第一種の過誤(差がないのに有意差ありとしてしまう誤り)と、第二種の過誤(差があるのに有意差なしとする場合)の問題も絡みます。
要点だけ触れますと、第一種の過誤は有意水準で制御しますが、第二種の過誤は「有意差なし」は判断保留であり「差がない」ことを立証するものではない…といった点があります。


そして、長くなりますのでここで詳しい説明は避けますが、有意差検定は単一の方法ではなく複数の検定方法があります。「○検定」といった用語をお聞きになったことがあるかもしれませんが、それ以外にも1対1の比較か、3群以上の比較(多重比較)なのか?など検討すべき点があります。



●有意差検定との付き合い方


「では、多少なりとも使用の前提とずれている状態あれば、有意差検定を使うのは間違っているのか?」


ここまで読み進めて頂いた方は、こういった疑問をお持ちになったかもしれません。

ここが「学術的な正しさと、実務の最大の違い」ではないかと思います。


実務では、厳密に使用条件に当てはまるものでなくも、ある程度の説得力があり、感覚と大きくずれていなければ、「良し」とされることが多く、検定以外にも統計・解析手法は様々な応用がなされるケースが散見されます。


「有意差検定の使い方として、正しいか?間違っているか?」という視点では、【検定の誤用が多発している事態】と捉えることもできます。ただ、ここで有意差検定が使われる場面に話を戻します。


有意差検定は、現実的には微差にもかかわらず「差がある」という極論に走らないための【安全装置】として使用される局面が多く、「学術的な正しさを追求する局面ではないことが多い」という認識を持つ必要性があります。


それに何より、「厳密なランダムサンプリングは実施できない」という前提を忘れてはなりません。


そういった事情を鑑みますと、「差があるかないか、何らかの客観的基準が欲しい」というニーズに答える意味で、なじみの検定が使われ続けるものと思います。


ですので、「有意差検定が当たり前、絶対的な正義である」というスタンスではなく、
 「何らかの客観的基準が欲しくて有意差検定をやっています、
  必ずしもベストの使い方でないケースがあるのは理解しています。」
…というスタンスが、我々のいる日常世界なのだろうと考えています。


有意差検定と付き合うのに、厳密すぎると「あまり生産的ではない感覚」がありますし、有効な発見のためには定性調査のようにたった数サンプルの意見・事例にこそヒントが潜んでいるという経験則からも、日々過ごす中で「有意差検定の使い方に気を付けつつ、多少寛容なスタンスで付き合っていく必要性」を感じています。