分析データに騙されるな!正しい「因果関係」の考え方を身につけよう

「分析データ=客観的事実」ではない!

「この分析データによれば、今回○○新聞に出稿した広告は確かに効果があったと考えられます」こんなプレゼンをされれば、まるで広告の効果が客観的事実のように聞こえてきます。

しかし経済学を始めとする科学の立場からすれば、「分析データ=客観的事実」ではありません。分析データから客観的事実を導き出すには、データを正しい手順で分析する技術、そして正しく解釈する技術が必要です。

ここでは時には間違った結論に導く危険を持っている分析データや統計を、正しく解釈するための「因果関係」の考え方について解説します。参考にするのは教育経済学者の中室牧子さんと、医療経済学者の津川友介さんの共著『原因と結果」の経済学―――データから真実を見抜く思考法』(以下、『「原因と結果」の経済学』)です。

「因果関係」と「相関関係」の違いとは?

私たちが分析データを誤読する時、それは「因果関係」と「相関関係」を混同している時です。経済学におけるそれぞれの意味は以下の通りです。


・因果関係がある:2つのことがらのうち、どちらかが原因でどちらかが結果であるという状態。
・相関関係がある:2つのことがらに関係があるものの、その2つは原因と結果の関係にない状態。

例えば「優秀な経営者は体を鍛えている」という分析データがあったとします。この場合の「2つのことがら」とは「経営者としての能力」と「身体的鍛錬の有無」です。

この2つのことがらに因果関係があるとした場合、この分析データは「体を鍛えているから経営者として優秀である」もしくは「経営者として優秀だから体を鍛えている」と言い換えられます。

これは「体を鍛えさえすれば経営者として優秀になれる」「経営者として優秀ならば体を鍛えている」という意味です。もしこの分析データが正しければボディビルダーは揃って優秀な経営者でなければなりません。

一方で、優秀な経営者は自己管理能力に長けているため、身体的なパフォーマンスを維持するために体を鍛えている傾向があるという可能性はゼロではないでしょう。したがってこの2つのことがらには、相関関係は認められます。

『原因と結果」の経済学』では因果関係と相関関係が混同されがちな例として、次の3つを挙げています。

・メタボ健診を受けていれば長生きできる
・テレビを見せると子どもの学力は下がる
・偏差値の高い大学へ行けば収入は上がる
引用:前掲書p4

この例のような言説はメディアに絶えず溢れていますが、その中には少なからず因果関係と相関関係を混同しているものがあるのです。

因果関係を読み解く5つのステップ

では正しく因果関係を読み解くためには、どのような手続きが必要なのでしょうか*。『「原因と結果」の経済学』の補論では、これを以下の5つのステップに分けて解説しています。
※このような手続きを「因果推論」と呼びます。

●ステップ1:「原因」は何かを考える

まずは原因を明確に定義します。冒頭の例であれば「今回○○新聞に出稿した広告」ですが、これには広告の大小・広告費の金額・広告の有無など色々な見方があります。メタボ健診の例であれば「長生き」ですが、それが健康寿命なのか単なる平均寿命なのかといった見方があるでしょう。

●ステップ2:「結果」は何かを考える

次に結果を明確に定義します。冒頭の例ならば「効果があった」ですが、いったい何に効果があったのかをはっきりさせる必要があります。営業利益なのか、売り上げなのか、あるいは広告部のモチベーション維持なのか。これが曖昧になれば、因果関係の所在も曖昧になります。

●ステップ3:因果関係の有無をチェックする

因果関係の有無は、次の3点でチェックできます。

(1)まったくの偶然ではないか、(2)交絡因子が存在しないか、(3)逆の因果関係は存在しないか
引用:前掲書p181

「松岡修造さんが日本を出ると気温が下がる」などは(1)の典型例でしょう。(2)の交絡因子とは原因と結果両方に影響をもたらす「第三の変数」を指します。冒頭の例なら「業界の景気の変動」「新技術の開発の有無」などがこれに当てはまります。交絡因子がある場合に原因と結果の因果関係を正確に読み解くには、また別の手続きが必要です。

(3)の逆の因果関係とは原因と結果の設定が逆になっている状態を指します。『「原因と結果」の経済学』では警官の数が多い地域ほど犯罪の発生件数が多いという例を挙げています。この場合に「警官の数が多いから犯罪が増える」と考えてしまうのが逆の因果関係です。

●ステップ4:反事実を作り出す

「反事実」とは、原因として設定したことがらが発生しなかった場合を指します。冒頭の例でいえば「○○新聞に広告を出稿しなかった場合」、偏差値と収入の例でいえば「偏差値の高い大学へ進学しなかった場合」です。厳密に反事実を検証するには、タイムマシンが必要です。しかし経済学は「ランダム化比較試験」や「自然実験」などによって反事実を疑似的に作り出し、検証する方法を確立しています。詳しくは『「原因と結果」の経済学』に譲るとして、ここでは反事実とその結果を想定することの重要性を理解しておきましょう。

●ステップ5:比較可能になるよう調整を加える

経済学において「比較可能」とは、事実と反事実を比較する2つのグループの間で、原因となることがら以外のすべての要素の特徴が似通っている状態を指します。メタボ健診の例ならば、メタボ健診を行ったグループと行わなかったグループの間で、年齢層や生活習慣などのメタボ健診以外のすべての要素が似通っている状態です。

この「すべての要素」というところがポイントで、経済学では「だいたいの要素が似通っている」状態を比較可能とは呼びません。しかしこういった状況は現実的ではないので、前述したような「ランダム化比較試験」や「自然実験」などによって比較可能にしていくのです。

これらのステップを違う角度から考えると、以下のような分析データに対しては因果関係を疑ってかかる必要があるという結論が導き出せます。

1.原因の定義が曖昧。
2.結果の定義が曖昧。
3.偶然、行楽因子、逆の因果関係いずれかがある。
4.反事実の検証がされていない。
5.比較されているグループが比較可能ではない。

客観的事実を装った分析データに騙されないためにも、チェックしておきたいポイントです。

分析データにも「ランク」がある

5つのステップを踏んで作られた分析データの中には、信頼性(科学的根拠)のランクが存在します。

1.メタアナリシス:複数のランダム化比較試験を統合して分析する検証方法。
2.ランダム化比較試験:理想的な因果関係の検証方法。
3.自然実験と疑似実験:偶然発生したランダム化比較試験的な状況を利用する検証方法。
4.回帰分析:手元のデータを使う検証方法。
※前掲書p49を参考に構成

1から4の順に、分析データの信頼性は下がっていきます。『「原因と結果」の経済学』は本文の大半を割いて、これらの方法について具体例を挙げて解説しています。

ここで理解しておきたいのは、分析データにも検証方法によって信頼性が変動するという事実です。これはつまり私たちが分析データの誤読を回避するには、そのデータがどのような方法で検証されたものなのかまで確認する必要があるということです。

また理想的とされているランダム化比較試験にも、盲点があることも知っておかなくてはなりません。ランダム化比較試験は検証対象となる人をランダムに選び、原因となる介入を行う「介入群」と介入を行わない「対照群」に分けて因果関係を検証する方法です。

第一に、この検証対象の選別は非常に厳密に行われるので、仮にこの方法による検証がアメリカ人を対象にしていた場合、その検証結果が日本人に適用できるかどうかには慎重な判断が必要です。第二に、そもそも検証対象の選別が厳密にランダムで行われているかどうかによっても、検証結果の信頼性は左右されます。第三に、検証対象はごく限られたサンプルに過ぎず、それが実社会に適用された時に全く同じ結果になるとは限りません。

したがって短絡的に「ランダム化比較試験=正しい」と考えるのは、間違った判断のもとになるのです。

分析データの「裏側」をチェックしよう

「分析データ」という言葉の説得力は強く、「テレビを見せると子どもの学力は下がる」といった言説のインパクトにはつい惑わされてしまいます。しかしそうした因果関係を装った言説を鵜呑みにしてしまうと、「じゃあ来年も広告を出稿しよう」「メタボ健診には毎年行こう」と無駄なコストと時間を使ってしまいます。損をしないためにも、分析データと名のつくものに出くわしたら、その「裏側」を入念にチェックするようにしたいものです。

参考文献『原因と結果』の経済学―――データから真実を見抜く思考法』
Career Supli
油断していると分析データはそれっぽく見えてしまうので注意が必要ですね。
[文]鈴木 直人 [編集]サムライト編集部