株式会社ジャパン・マーケティング・エージェンシー
企画部 ディレクター 牛堂雅文

●1936年米大統領選、ギャラップ氏の予測が的中


ウェイトバック集計そのものではないかもしれませんが、標本の構成比の重要さを物語る有名なエピソードがあります。


1936年の米大統領選で、ジョージ・ギャラップ氏率いる「アメリカ世論研究所」が、当時再選はないと言われていたフランクリン・ルーズベルトの再選を的中させたエピソードです。


ギャラップ氏は、たった3000サンプルの標本ながら、所得、居住地域、属性などを考慮した標本抽出を用い、政情不安の中、富裕層での支持が弱いルーズベルトの再選を的中させ、約200万以上のサンプルを用いたライバル:週刊誌「リテラリー・ダイジェスト」の鼻を明かしたと言われています。


その後は2012年の大統領選のように、ギャラップ社の予測が必ずしも的中し続けているわけではありませんが、標本の構成比にこだわった1936年の大統領選の予測がエポックメイキングな出来事であったのは間違いありません。


【出典】総務省統計局 アメリカ大統領選挙の番狂わせ(前編)~ 標本調査における偏り①
http://www.stat.go.jp/teacher/c2epi4a.htm


●ウェイトバック集計とは


さて、ここからは現代のマーケティング・リサーチの話となります。


マーケティング・リサーチにおいて幅広い年代を対象にする際、協力率等が年代で異なるため、放っておくと「実際の構成比とは異なる年代の構成比」で回収されてしまうことが多く、大抵は20代:100s、30代:100s…、40代:100sなどとサンプル数の「割り付け」を実施します。


しかし、実際の人口構成比はそれほど均等ではありませんので、市場全体を推計する場合、国勢調査による人口データなど根拠のある数字に基づいて、各年代ごとに補正を行う係数をかけ、実際の人口構成比と一致させる集計作業を行います。


例えば、20代は人口に基づき0.8をかける、30代は1.1をかけるという計算となります。
これを「ウェイトバック集計」と言います。(※確率ウェイティング、ウェイト付集計とも呼ばれます。)


さて、このウェイトバック集計は、実査時の煩雑さを解消し、かつ根拠のある人口などの構成比データにあわせた集計ができますので、実に合理的な手法としてマーケティング・リサーチ業界に定着しています。


さて、この万能に思えるウェイトバック集計にはいささか注意すべき点があります。




●1)統計・解析手法はウェイトバック前データに使う (※一部例外あり)


考えてみれば当然のことですが、最初に30sしかないものはウェイトバックして100sになったとしても、統計的には30sのままです。有意差検定で言えば、ウェイトバックしたからと言って30sで有意差がないのに、100sにウェイトバックされ突然有意差が出るはずがありません。


その他にもクラスター分析をはじめ、多くの解析手法はウェイトバック前のデータに対して実施しますので、そのことを前提にしたサンプル設計にする必要があります。


(※ウェイトバック後の実施の事例もあるそうですが、ウェイトバック前データで解析を実施し、その結果がウェイトバック後データに反映されたりしますので、パッと見で分かりにくくなっています。)



●2)ウェイトバックは何倍まで可能か?


上記のように統計解析の世界とは切り離されて使われるウェイトバック集計ですので、大きな倍率が一部で発生した場合、何倍にするウェイトバック集計は大丈夫なのか?2倍まではOK、3倍はNG?といった基準を口伝以外では見聞きしません。


ですので、あくまで感覚的なものとなりますが、一部であっても1人の意見が5人分となって集計されるといった極端な倍率が発生するウェイトバック集計は避けるべきだと思われます。では4倍はOKか?3倍は?などと明確な答えは難しくなります。ただ、倍率が大きくなりすぎる場合は再検討すべき…と考えています。


また、そういった極端なウェイトバック集計が発生する要因として、「細かすぎる割り付け」が実施されるケースが多いようです。1セルの人数が10sなどとかなり少なくなっている場合は、もう少しセルを大刻みにできないか?例えば年齢を5歳刻みではなく10歳刻みでウェイトバックできないか?といった見直しを行っています。


●3)ウェイトバックに用いるデータに根拠があるか?


さすがに「人口構成比」といったものは国勢調査などの根拠に基づいていますので問題ありません。しかし、ここに一つ条件が加わり「スマートフォンユーザーの人口構成比」となると、途端に根拠となるデータが発見できなくなることがあります。


製品の使用率が高いものはそれでも「ほぼ国勢調査と同じ」と近似することも可能です。ただ、使用率が低い場合、そう綺麗には分布していないと考えるのが妥当でしょう。


また、各社の市場シェアを元にウェイトバックするなど、少し違う切り口の場合もありますが、そのシェアデータが「どういった数字を元にしているか」の確認が必要でしょう。特に出荷、販売あたりの数字は、あくまで現時点の店頭シェアであり、過去からの累積が反映されていないことが考えられますので留意が必要です。


ウェイトバック元となるデータの根拠に確信が持てない場合、ウェイトバックせずにそのまま集計しても納得できるような設計としておく方が良いでしょう。



●4)ウェイトバックのかけ忘れ


これは上記とは異なる実務的な視点です。何度もデータを回し直し、様々な分析を実施すると、「ウェイトバックをしたデータ」と「していないデータ」が混在し、ウェイトバックすべきデータが「ウェイトバックがされないまま」となってしまうことがあります。


ケアレスミスですので「よく注意しろ」の一言で片づけたくなる心理が働きますが、これでは再発を防げません。「ウェイトバックすると、ここの数字が変わるはず」というチェック対象になる数字を確認するなど、対処法を講じるべきでしょう。
特に元のデータが100sなどと切れのいいサンプル数の場合、ウェイトバック後は小数点以下が付きやすいので、パッと見で分かりやすくなります。



●5)クォータサンプリング


番外編的ですが、サンプル設計を最初から人口構成比等に等しく、あたかもウェイトバックされたような状態にしてしまい、20代は83s、30代は113sなどと、各セル均等ではない設計とする方法があります。


これを割り当て方(クォータサンプリング)と呼びます。


ウェイトバック集計が不要となり、統計・解析も全く問題なく実施でき、これ以上ない「正しいサンプル設計」に思えます。
ただ、調査手法上確保が難しいセルが発生する、最少セルがかなり少人数になってしまう、といったデメリットも考えらえますので、その兼ね合いでクォータサンプリングの実施が検討されます。



これらの注意・検討事項はありますが、ウェイトバック集計は市場推計をする手段として実に合理的な集計方法ですし、調査実施時に考えていなかったとしても、後付けでウェイトバック集計できるという実務上のメリットもありますので、特性を理解して活用していきたいものです。
 
 
※2014年3月改訂 是非はともかく、ウェイトバック後の有意差検定、解析がある件などご指摘いただきましたので、一部改訂を行いました。この場を借り増して御礼差し上げます。