2010年7月18日日曜日

統計でウソをつく法


●概要

だまされないためには、だます方法を知ることだ!
かの有名な英国の政治家ディズレーリは言った――ウソには3種類ある。ウソ、みえすいたウソ、そして統計だ――と。確かに私たちが見たり聞いたり読んだり するものに統計が氾濫しているし、「平均」とか「相関関係」とか「トレンド」とか言って数字を見せられ、グラフを示されると、怪しい話も信じたくなる。し かし、統計数字やグラフは、必ずしも示されている通りのものではない。目に見える以上の意味がある場合もあるし、見かけより内容がないかもしれないのであ る。私たちにとって、統計が読み書きの能力と同じぐらい必要になっている現在、「統計でだまされない」ためには、まず「統計でだます方法」を本書によって 知ることが必要なのである!


●内容

◯サンプリング
サンプリングにおいて、サンプルが十分大きく、選び方が適切であれば、それは全体をかなりよく表している
しかしその選び方こそ最も難しい


◯エール大卒業者の年間平均所得のサンプリング
エール大卒業者の年間平均所得は、25111ドル(高所得)
これは果たして正しい調査なのか


◯エール大卒業者のサンプリングの疑問1
この調査では住所が不明なものは含まれていない。そしてそういう人たちは低所得だと思われる


◯エール大卒業者のサンプリングの疑問2
質問紙をかたわらのくずかごに無造作に放りこむ人たちもいるだろう。そうした人たちは高額所得者か?


◯エール大卒業者所得の結論
このサンプルは平均所得を下げそうな2グループが最初から含まれていない
このサンプルは1924年度卒業者のうち住所が確定されていて、しかも所得がいくらか教えてくれた特別な人達の年間所得平均である


◯人はうそをつく
上記の調査で答えてくれた人のうち。どれだけの人が正しく申告しただろうか
多くの人は見栄をはり、多めに申告するだろう


◯1936年大統領選挙時のサンプリング
1936年の大統領選挙前のサンプリング調査の結果ランドン候補が圧倒的だった
しかし選挙の結果はルーズベルトが勝利した
このサンプリングの問題点はなんだったのか


◯大統領選挙サンプリングの失敗
サンプルの抽出は電話を所有し、雑誌を購入した人間の中から抽出されていた
これらの人は経済的にも豊かな人であり、サンプルとしては全体を現していなかった


◯ランダムサンプリング
サンプルの基礎にはランダムという性質がなければならない
すなわち、「母集団のすべての人が等しくサンプルに選ばれるチャンスはあるか」


◯世論調査の難しさ
世論調査というのは結局かたよりの原因に対する不断の戦いである


◯質問者によって変わる結果
どういう人で面接調査団を構成するかによって、調査結果が変わってくる
調査員が白人の場合と黒人の場合で結果が変わることもある


◯平均値の種類
・算術平均:合計をサンプル数で割った値
・中央値:サンプル数に順位をつけ、真ん中になった人の値
・最頻値:サンプルの中で最も多かった値


◯正規分布する平均値
上記3つの値は正規分布し、どれも同じくらいの値になるものがある
例:平均身長など
もちろん正規分布しないものもある
例:所得など


◯平均値の注意点
平均の種類はなんなのか。その数字に含まれている人はどういう人か


◯小さなサンプルの利点
サンプルが大きいと偶然による差が小さくなる。これはセールスする上で興味を得られる値を得にくい
小さなサンプルの中で何度もサンプリングし、都合の良いものを使う


◯ポリオのサンプリング
ある地域でポリオに対するワクチンを打った子供と打たなかった子供に対して調査した
ある年流行感染症がこの地域を襲ったが、ワクチンを打った子供はポリオにならなかった
しかし、打たなかった子供もポリオにならなかった
すなわち、ワクチンによってポリオを防いだことの証明にはならず、ただポリオが感染しづらいということがわかっただけ


◯統計の結果が意味があるかないかの調べ方1
その結果の有意度がわかれば、適切な判断ができる
有意度とは確率であり、統計が正しい確率のこと


◯統計の結果が意味があるかないかの調べ方2
数字の分布幅あるいは平均からの偏差を示すものを知る


◯無視された大家族と小家族
アメリカの平均的な家族は3.6人だった
→実際3人4人家族は45%で、1人2人は35%、5人以上が20%だった
統計的に基づき3人4人用の家が多く作られたが、55%の人はその恩恵に預かれなかった


◯統計が誤る理由
誤りは結果が研究者から扇動的あるいは情報不足の記者を通じて読者に届くまでの濾過過程に起こる


◯誤解を避ける方法
標準や平均に分布幅についての注があれば避けることができる
標準や平均は良い、正しい、望ましいというものではない


◯ごまかすコツ「利用出来る」
この言葉を使うと、使ってなくてもよく、利用する方法さえ確保されていれば含まれる
会社にとって都合が良い数字になる


◯確率偏差
98±3など、その誤差を表す。その統計の正しさを知る指標にはなる
使い方の例:98と100のIQの人がいた場合100の人のほうが賢い?確率偏差は3
→98の人が101かもしれないし、100の人は97かもしれない


◯「いくらわずかでも、違いは違いだ」
アメリカのことわざ。違いが小さかろうがセールスには使える
小さな数字でも大きな騒ぎになることもある


◯グラフの細工1
面白みのないグラフでも何か行動を駆り立たせたりするためにどうするか
グラフの下をちょんぎってしまう。
僅かな差が見た目大きな差に見える


◯グラフの細工2
ちょんぎったグラフを縦軸と横軸の比率を変えよう
すると変化が見た目大きく見える


◯グラフの細工3
棒グラフの中央部を裁断する
見た目グラフの差が大きく見える


◯絵グラフ
絵グラフはごく自然に、まわりくどく、そして上手に相手を騙す道具として使える


◯給与格差
Aの給料はBの半分。これをグラフにしても面白くない。
Aに金袋をもたせ、Bには金袋を2つ持たせよう
すると、格差が明瞭に分かる


◯2倍を8倍にする方法
Aの金袋の高さの2倍をBの金袋にする
すると金袋の体積が8倍になる
2倍と言いつつ8倍に見えてしまうレトリック


◯証明のこじつけ
証明したいと思うことが証明できなくても、何か他のことを論証して、両方とも同じことなのだと見せかければ良い


◯人種差別の統計
白人に対し、「黒人と白人は職に着く際に差別はあるか」「黒人に対して差別感情をいだいているか」を聞いた
すると職に就く差別はないという白人ほど黒人に対して差別感情を持っており、職に就く差別があるという人ほど、黒人に対して差別感情がなかった
すなわち、職に着く差別がなくなればなくなるほど、黒人に対して差別感情が増加する事態になる


◯高性能ジューサー
「ジュースを26%も余計に絞り出せるジューサー」
実は手で絞るものより26%多く絞れるだけだった


◯午後のドライブは危険
「午後7時におけるハイウェイでの死亡者数は、午前7時における死亡者数の四倍である」
午後の方が交通量が多いから死亡者数が増えただけ


◯汽車による死亡者数
「最近一年間で記者による死者は4712人であった」
汽車への攻撃の口実になるが、じつは半数は踏切内での自動車との衝突が半数、残りは線路上にいた人たちだった
実際汽車に乗っていて死んだ人は132人だけ


◯不満の多い労働組合
「78%の大多数の従業員が組合に反対している」
実は細かな不満や不平もカウントしていた


◯20面相「パーセント」
年間の投資額に対する収益というのは、総売上高に対する利益とは同じものではない
「毎朝、ある商品を99セントで買い、1ドルで売った。売上高の1%しか儲かっていないが、それを一年間続ければ、投資額の365%の儲けになる」


◯マラリアが減った理由
アフリカではマラリアが20年前より80%減ったという
実は当時はカゼもインフルエンザもマラリアに含まれており(原因不明だった)、現在は細かく分けられるようになった


◯南部3州の病気
肺炎とインフルエンザが南部3洲に集中しているらしい
実は他の洲はその統計をやめてしまっていた


◯海軍は安全
海軍入隊者のうち死亡したのは1000人中9人で、ニューヨーク市は1000人中16人は死ぬ?
海軍入隊者は健康的な人間に対し、ニューヨーク市民には老人や赤ん坊も含まれる


◯教師の所得アップ
昔はニューヨーク洲の教師の平均所得900ドルが今では2500ドルになった
昔はニューヨーク洲の片田舎の最低賃金であり、今はニューヨーク市だけの給料だった


◯リンスで綺麗に?
リンスをしたら使用前より綺麗になった
使用後の写真をとった写真家のうでがよかっただけ


◯よくある間違い
BがAに続いて起こるならば、AはBの原因である
原因が結果になることがあれば、結果が原因になることもある
高額所得者は株を買うか等。株を買うから高額所得者になるともいえる


◯第3の要因
マサチューセッツ州の長老派協会の司祭の給料とハバナのラム酒の値段には相関関係がある
→物価が上がって給料も上がり、物の値段があだった
×長老が給料が上がったから、ラム酒を買ったのではない


◯大卒は高額所得者?
大学には2種類の人間がいる。頭の良い人間と、金持ちの人間である
頭の良いは大学に入らなくても高額所得者になっただろうし、金持ちの人間は金が金を呼び金持ち


◯牛乳を飲むと癌になる
牛乳をよく飲むスイスやイギリスでは発ガン率が多く、飲まない日本では発ガン率が低かった
実際はスイスやイギリスの方が平均寿命が長く、ガンは中年以上で現れる病気
当然寿命が長いほどガンになりやすい


◯婦人の年齢とガニ股
婦人の年齢が高いほどガニ股になり、低いほどガニ股ではない
女性は年をとるごとにガニ股になっていくのか?
女性の身体的特徴は足の角度に現れるのか?
年長な女性ほどガニ股で歩くよう教えられており、若い女性はガニ股は悪いと教えられた


◯シラミは健康のもと?
ニューヘブリデス諸島ではシラミが健康の原因であると考えられていた
しかし、健康だからシラミが着くのであり、不健康ならシラミは逃げていくのである
因果関係が逆になっている


◯産業を見通す人
実際より暗い見通しをいうことが多い


◯地図と統計データ
地図はその中の事実を隠し、いろいろの関係を歪めてしまう素晴らしい入れ物


◯謎の世帯収入
個人所得の合計を人工で割り一人につき1251ドルという平均を得る
したがって4人家族では5004ドルになる
わけがない


◯小数点の問題
平均の睡眠時間が8時間というより7.8時間といったほうが真実に見える


◯パーセントの合計
まるでりんごでも数えるようにパーセントをたせるものであるという勘違いが多い
例:合計20個のものを買ったところどれも去年より5%値上がりしていた。つまり5%を全部足すと100%になり、生活費は2倍になった?


◯パーセントマジック
投資額の3%の利潤があったのが、今年は6%になった
利潤が3%増加したと言えるし、100%の増加と言ってもさしつかえない


◯幾何平均
3個の数字の幾何平均を出すには、それらをかけ合わせ、立方根をとる、4個なら4乗根


◯長期的な推測
現在のトレンドが未来まで変化なく続いていなければ、未来の予測など無意味



◯統計のウソを見破る方法
1 誰がそう言っているか(統計の出所に注意)
2 どういう方法でわかったか(調査方法に注意)
3 足りないデータはないか(隠されている資料に注意)
4 いっていることが違ってやしないか(問題のすり替えに注意)
5 意味があるかしら(どこかおかしくないか)

0 件のコメント:

コメントを投稿