ビッグデータに基づく未来予測に限界はあるのか(『シグナル&ノイズ』書評)

映画『バック・トゥ・ザ・フューチャー』シリーズは豊富な小ネタもおもしろい。例えばドクはPART2で、未来の情報を過去に持ち帰ろうとしたマーティを叱責していた。しかしそんなドクもPART1では「25年分のワールドシリーズの勝敗を見てくる」と発言しており、矛盾している。

1955年に飛ばされたマーティの「天気予報が当たった試しがある?」という発言も同様だ。PART2の2015年には、天気は秒単位で予測できるようになっており、マーティの発言もまた覆される結果となっている。

実際に2015年を迎えた今年、バック・トゥ・ザ・フューチャーで描かれた2015年世界の多くは現実のものとなった。「正確な天気予報」もまた、実現に近づいたものの1つに挙げられるかもしれない。
タイム誌「世界で最も影響力のある100人」にも選ばれた統計学者ネイト・シルバーは著書『シグナル&ノイズ』(2013)で、「天気予報は、本書のなかでは、人間と機械が力を合わせて自然界の複雑さを理解し、予測するという成功例」として取り上げている。実際に天気予報は、マーティの暮らした1985年に比べて見違えるほど正確になっている。

シグナル&ノイズ 天才データアナリストの「予測学」

予測発達の要因として近年注目を浴びるのがビッグデータと人工知能だ。ノイズを含む膨大なデータを高度な機械学習により解析することで、未来予測が実現している。

こうしたビッグデータ解析に基づく未来予測に、限界はあるのか。
ムーアの法則によれば、コンピュータの性能は10年で1000倍(!)になり、2045年には機械が全人類の知能を上回るとされる。コンピュータの進化に伴い、ビッグデータと人工知能は遠い未来も見通せるようになるのか。それとも、構造的な限界があるのか。

『シグナル&ノイズ』では、様々な事例に基づき「予測が失敗する要因」を分析していた。まずこれらの要因について紹介し、次に、これら失敗の要因をコンピュータに覆せるか考えてみる。
覆せれば、ビッグデータと人工知能は完全な未来予測を手に入れるだろう。他方、予測失敗の要因がコンピュータでも解決できないものならば、未来予測にはやはり限界があるということになる。

なお、ビッグデータ解析はすでに短期的・局所的未来予測を実現しているので、ここでは特に長期の予測について考える。また、ゴールとした「未来予測ができる」というのは、未来に起きる特定の事象を100%言い当てられることではなく、その事象が起こることの「確率」を正確に予想できることとする。

Summary Note

予測が失敗する要因(本書より)

  • 予測者のバイアス
  • 構造的不確実性(予測モデルの不完全性)
  • 初期状態の不確実性(根拠となるデータの不足)
  • シナリオの不確実性(人間の活動が生み出すノイズの影響)

ビッグデータによる未来予測に限界はあるのか

  • コンピューターパワーが十分に上がり、十分な量の観測データを集めらられば、予測可能な未来の時間的範囲は拡大していくと考えられる
  • ただし、センシングしきれない情報、長期周期の事象の未観測部分、及び人間の活動が生み出すノイズを予測の範囲内に収める必要がある

 

「我々は錯覚とともに生きている」(本書より)

本書は「シグナルは真実であり、ノイズは真実から目をそらさせるものである」と定義する。
予測を失敗させる要因の1つが「バイアス」だ。人は自分が見たいものだけを見、予測者もまた見せたいものを見せ、シグナルを正しく捉えることを妨げる。意図せずノイズをシグナルと見間違えたり、現れているはずのシグナルを見つけられないこともある。

本書は各事例を通して、次のように述べている。思い当たる節のある人もいるのでは(私はある)。

  • ポーカーのプレイヤーは、自分が勝てると思い込んでいる人間の集まりであり、現実に存在する以上のシグナルをキャッチする(ポーカーの事例)
  • 人は自分の属するイデオロギーに有利なシグナルを信じ、不利なシグナルは信じない(政治予測の事例)
  • 専門家のインセンティブは個人的・短期的な利益であり、予測を正確に、正直に伝えることには関心を持たない(エコノミストや天気予報番組の事例)
  • それが新しい事象にもかかわらず、過去の経験に基づき予測を立ててしまう(リーマンショックの原因)
  • 私たちは「なじみのないこと」を「起こりそうもないこと」と勘違いする傾向にある(テロ予測の事例)

錯覚とともに生きる我々は、「知っていること」と「知っていると思っていること」の違いを正確に認識しなければならない。これが本書のメッセージだ。そしてこの差を埋めるための方法論として、「確率的に考える」というアプローチを提示する。
本書の例示のなかでは、2001年のニューヨーク同時多発テロの事例がおもしろかった。9・11は事前に予測することはできなかったのか。

地震は予測できないが、予想はできる

実は北アメリカ航空宇宙防衛司令部では、9・11以前に、「ハイジャックされた飛行機がペンタゴンに突っ込む」という想定の訓練の企画があったという。これはあまりに荒唐無稽として却下された。アルカイダが旅客機によるエッフェル塔攻撃を計画していたことも知られていた。
本書によれば、9・11は「そんなことあるはずがない」というバイアスが予測の失敗を招いた事例だ。

でも後からそんなこと言うのはちょっとずるい。じゃあどうすれば予測できたというのか。本書は、同じく予測に失敗した東日本大震災を例に挙げ、統計に目を向けることを主張する。持ち出すのはグーテンベルグ・リヒターの法則だ。これは地震の規模と頻度の相関関係を示す法則で、マグニチュードが1上がるごとに、地震の回数が1/10になるという。

635px-Richter
横軸がマグニチュードで縦軸は地震の頻度(対数グラフであることに注意)
マグニチュードが大きくなると、地震回数は指数関数的に減っていく
Wikipediaより)

この法則に当てはめると、3・11で起きたマグニチュード9の地震は300年に1回の頻度になるという。極めてまれではあるが、起こる確率はゼロではない。福島の原子力発電所はマグニチュード8.6以上の地震の可能性を排除してしまっていたが、統計に目を向けることで、主観や直観に惑わされず確率論的な判断ができたかもしれない。

地震学では「予測(Prediction)」と「予想(forecast)」を区別して使うという。それぞれの定義は次の通りだ。

  • 予測:いつどこで地震が発生するかを限定したもの
  • 予想:長期間にわたる確率論的事象を表す用語

「2016年6月28日に京都で地震が起こるだろう」が予測で、「今後30年以内に京都でM7の地震が起こる確立は40%」が予想である。本書によれば、米国地質調査所は「地震は予測できないが、予想はできる」という立場をとっている。

この記事でも「未来予測が正しいこと」の定義について、未来における特定の事象が「起こるか起こらないか」ではなく、起こることの「確率を正確に予想できること」としている(でも「予測」と「予想」の言葉は地震学のようには区別して使ってません)。

確率論的に考えることでバイアスを排除する

グーテンベルク・リヒターの法則が適用されるのは地震だけではない。本書は、テロもまたこの法則に沿うことに注目する。

1979年から2001年9月10日において、NATO諸国で起きたテロは未遂を含めて4000件あったとされる。このうち7件のテロでの死者数が全体の半数を占め、これはグーテンベルク・リヒターの法則の示す指数関数的頻度に当てはまる。
法則によれば、死者100人以上のテロが起きる理論値は6回で、これは実際に起きた7回に近い数字だ。そして死者1000人規模のテロは22年に1回、9・11と同規模となる死者3000人のテロは40年に1回と「予想」できる。

死者3000人のテロが起こりうるものだとわかれば、その実行方法として、旅客機を使った攻撃も想定に入れられたかもしれない。様々な可能性について確率論的に考えてみることで、バイアスを排除して予想ができる。これが本書の主張だ。

とは言え予想の失敗を招く要因はバイアスだけではない。不確実性の問題が立ちはだかる。

640px-Spacecolony1
法則に従えば、さらに死者数の多いテロ事件の可能性も皆無ではない。
遠い未来にはテロリストが宇宙の構造物を地球に落とすこともあるかもしれない。
ちなみに本書では9・11以上のテロについて、生物兵器の可能性を示唆。

 

予測を妨げる3つの不確実性(本書より)

本書は確率論的に考えるためのツールとしてベイズの定理を提示している。これは人工知能による推論の基礎にもなっている。
ただし、確率論的思考はバイアスを排除できるが、必ずしも正しい確率が得られるわけではない。ベイズの定理の理念は、観測と予測を何度も繰り返すことで予想を修正し、より正しい確率に「近づける」というものだ。ベイズの定理はむしろ、完全な予測はあり得ないという前提に立っている。

予測を狂わせる要因が不確実性の問題だ。本書によれば、これには3つの種類がある。

1.構造的不確実性(予測モデルが不完全)

推論や意思決定のために事実を単純化したものを「モデル」と呼ぶ。構造的不確実性とは、予測のためのモデルを正しく構築できないことを指す。間違ったモデルで予測を立てても、正しい結果は得られない。

本書はこんな話を紹介していた。馬車による汚染が問題だった1894年、英タイムズの記者が、ロンドン市街に積まれる馬糞の高さが1940年には9フィート(2.7メートル)になると見積もった、というものだ。この見積もりは馬車が1940年まで使われることを想定しており、予測モデルが間違っている。

現在の傾向が将来も続くと前提するのは、基本的な予測方法の1つだという(外挿法)。しかしこの方法は、動的で非線形な事象、すなわちカオス理論に支配される領域では通用しない。現実世界がまさにそれだ。
本書が「数少ない成功分野」とする天気予報でも、1週間を超えるとカオス理論が優位に立ち、予測は当たらないばかりか、むしろ外れやすくなっていくという。これは天気予想のためのモデルが不完全であることが原因だ。

カオス理論の支配する不確定な現実に対して、十分に対応できる予測モデルが得られないというのが、構造的不確実性の問題である。

Lost battle?
決定論的ゲームのチェスですら、現状のコンピュータは推論を用いて戦っている。
すべてのパターンは計算せず、過去の対戦のデータベースや
アルゴリズムを駆使して計算量を減らしているのだ。(画像:eivindw)

2.初期状態の不確実性(データが不足)

現実世界をモデル化し、シミュレートするには、根拠となるデータが十分にあることも重要だ。このデータの不足が「初期状態の不確実性」である。

本書が例にしていたのは地球温暖化の予測だ。
温暖化傾向は、観測された気温データに基づき確かめられる。ただし注意が必要なのは、エルニーニョ周期(約10年)や太陽周期(約11年)といった、地球の中期的・長期的周期の影響だ。不定期に起こる火山の爆発も気候を不安定化させる。
こうした変動の影響を予測から取り除くには、長期の観測データが不可欠となる。それではどれだけの期間のデータがあれば完全と言えるのか。まだ知られていない長期周期の事象もあるかもしれない。それは観測しなければわからない。

データをノイズが覆い隠してしまうという問題もある。
例えばカロリー摂取量と肥満率について、両者に因果関係があることは知られているが、実は統計からは有意性が得られないという。その他の要因も複雑に入り込み、シグナルよりもノイズが大きくなってしまうためだ。
IBMの試算によれば、1日250京バイトのデータが生み出され、その量は増え続けている。しかし本書は、そのほとんどがノイズであり、シグナルが増えているわけではないと指摘する。

証明しなければならない仮説と使用するデータは増える一方だが、客観的な真実はほぼ一定なのだ。

本書より

データのなかの意味のある関係――相関関係ではなく因果関係を示し、世界の動きを説明する者――は桁違いに少ない。情報が増えるペースでは増えていない。つまり、インターネットや印刷機が発明される前とくらべて、世の中の真実が増えているわけではないのである。ほとんどのデータはノイズに過ぎない。

本書より

予測の根拠とできる十分なシグナルが得られない、というのが「初期状態の不確実性」だ。

3.シナリオの不確実性(政治・経済活動等の影響)

予測を不確かにする要因の最後が「シナリオの不確実性」だ。これは政治や経済など、人間の活動が及ぼす影響である。たとえば人口動態に関して、次のような発表がなされている。

こうした政治的目標は、世の中をその方向に動かす大きな力を持つ。人口予測はその都度修正を迫られるが、政策発表以前にこれを予想することは難しいだろう。
ここで挙げたのは直接的な例だが、政治や経済的な活動は様々な分野に波及的に影響を及ぼす。その影響の生み出すノイズが「シナリオの不確実性」だ。

Thefalloftheberlinwall1989
旅行自由化の記者会見ミスと誤解を契機に崩壊したベルリンの壁(画像:Wikipedia
これもまた1つの「シナリオの不確実性」と言えるだろう

 

ビッグデータによる未来予測に限界はあるのか

以上の通り、本書の記載に基づいて、予測を困難にする要因をまとめてみた。予測する人間のバイアスと、3つの不確実性だ。

  • 1.構造的不確実性(予測モデルが不完全)
  • 2.初期状態の不確実性(データが不足)
  • 3.シナリオの不確実性(政治・経済活動等の影響)

これら要因に対して、ビッグデータや人工知能といったテクノロジーは有効に働くのか。これら要因がテクノロジーにより解決できれば、テクノロジーは長期の予測を実現できる。一方、これらがテクノロジーによっても解消できない問題ならば、やはり未来予測には限界があることになる。

1.予測モデルの有効範囲は拡大していく

構造的不確実性、特にカオス理論の支配する事象に対する、予測モデルの不完全性の問題について。
これについて私は、十分なデータとコンピュータパワーさえあれば、少なくとも限られた範囲で有効な予測モデルを構築することはできると考える。

根拠は天気予報だ。紹介した通り、天気予報は1週間を超えるとカオス理論の影響が勝り、有意な予測ができなくなってしまうという。一方で近い未来であれば、有意な確率を提示することができている。

本書は天気予報が発達した原因として、気象に関する原理の解明と、観測、コンピュータの進歩を挙げていた。観測データがより充実し、原理の解明がさらに進み、コンピュータパワーが増大すれば、正確な予測のできる時間的範囲は拡大していく。理論的には、データとコンピューターパワーが無限に増えれば、予測モデルの扱える時間も無限に伸びていくはずだ。

ビッグデータの相関分析と「構成論」(ちょっと脱線)

予測モデルの話が出たので、相関分析に対する私の考えも明らかにしておきたい。これは後述する「コンピュータは人の心を読めるか?」という問題にも関係する。

ビッグデータが相関分析に基づき未来を予測することは以前紹介した。ビッグデータ解析では、「風が吹けば桶屋が儲かる」ことの因果関係や原理は考慮せず、「風が吹いた」と「桶屋が儲かった」という2つの事象の相関関係だけを問題にする。

本書『シグナル&ノイズ』は、相関分析に基づく予測には懐疑的な立場をとっている。シグナルを「データの中の意味のある関係(因果関係を示すもの)」と定義し、理屈を必要としない相関関係に基づく予測は「予測するときの姿勢としてそれは絶対に間違っている」と断じている。
本書は、かつて景気予想の先行指標にスーパーボウルの勝敗が用いられていたことを紹介していた。これは1997年までの31年で28回当たったという。しかしながら本書は「世界中の数百万の統計指標のどれかがたまたま一致しても、単なる偶然に過ぎない」とする。

640px-The_Dome_New_Orleans_Man_Trip
画像:David Reber

これに対して私は、たとえ偶然であっても、相関関係が確かであれば、予測モデルとして尊重すべきと考える。

人工知能研究に「構成論」という考え方がある。発達した人工知能が人間と同じようには「愛」を理解できていないとしても、彼らが人間が愛するのと全く同じ挙動を見せ、それが人間のそれと区別できないなら、「愛」を理解したとみなしてよいとする考え方だ。

相関分析に基づく予測も同様に、結果として正しく、因果関係に基づく予測と劣らないモデルが得られるなら、それは有効な予測プロセスと捉えるべきだ。
我々はスーパーボウルと景気の因果関係を解明できなかったし、本当に偶然だったのかもしれない。しかしその相関関係が、一定のあいだ予測の指標として有意だったことは事実である。
ビッグデータ解析がスーパーボウルと景気のような相関関係を次々に明らかにし、それぞれの相関関係の有効期間に応じて動的に指標を切り替えていければ、結果として予測は当たる。そのような予測モデルを使うことに不都合はない。

私が相関分析にこだわるのは、機械が我々人間と同じアプローチで真実に辿り着くとは思えないからだ。機械には機械なりのやり方があり、それが人間にはできない成果を挙げられるなら(実際に挙げている)、中身が見えなくともそのプロセスは尊重してよいと思う。

inputfxoutput
正しい出力さえ得られるならば、プロセスにこだわる必要はない
そしてビッグデータ解析は有意な相関関係を提示できる

2.データの種類は増え続けていく

初期状態の不確実性、つまり予測のためのデータ量が不十分という問題について。
データの不足はセンシング技術の発達が補うと思うが、それでもセンシングされないデータをどう考えるかが問題になるだろう。

いま、ウェアラブルやIoTの発達に伴い、現実世界のあらゆるモノがセンシングされ始めている。人間に対しては、感情センサーが提案されたり、寝ている間に見る夢さえもデジタル保存されようとしている。

問題はセンシングの限界だ。センシングの対象が「あらゆるモノ」と言っても限界はある。極端に言えば分子ひとつひとつの挙動まで見張ることはできないはずで、カオスはこうした場所から生まれる。

2つのシナリオが考えられる。シナリオの1つは、センシングの限界がノイズを生み、予測のボトルネックになることだ。
一方もう1つのシナリオとして、センシングの隙間をコンピュータが推論で埋めることが考えられる。センシングされる情報に対して、センシングされない情報が圧倒的マイノリティになれば、これを推論で補うことは不可能な話ではないだろう。この場合、データ不足の不確実性は解消されることになる。

Minesperfect_windowsxp
全ての情報が明らかでなくとも、既存の情報からノイズかシグナルかの推定は可能だ
(画像:Wikimedia

時間方向の周期の観測については、時間による解決を待つしかないだろう。太陽の11年周期を知るためには、少なくとも11年間の観測を待たねばならない。
ただし、例えばグーテンベルク・リヒターの法則のように、理論を用いて存在を「予想」することはできるかもしれない。多くの先人たちは、未知の惑星の存在を理論をもって予言してきた。

3.人工知能は人の心を見透せるのか

シナリオの不確実性、つまり政治的判断や経済活動など、人間社会の生み出すノイズについて。ここでは「バイアス」の問題も併せて考えたい。予測の根拠には人間の作り出したデータや人間をセンシングした情報も使われるはずだが、そこには人間の不合理な行動やバイアスが入り込むためだ。

人間が生み出す不確実性をコンピュータは排除できるのか。これは、機械が人間の思考や社会的プロセスを理解できるか、という問題に置き換えられるだろう。
これが実現するかはちょっと私にはわからない。相当難しそうだよね。

ただし、予測と構成論の説明でも述べたとおり、機械が人間の思考のその中身までも理解できる必要はない。表面的なものであれ、結果的に人間社会のシミュレーションが実現できれば、コンピュータは人間に起因するノイズを予測の範囲内に収められる可能性がある。

 

結論:正確な長期予測の実現可能性はある、が‥

以上、予測を失敗させる要因のそれぞれに対して、コンピュータに解決できるか考えてみた。

コンピューターパワーが十分に上がり、十分な量の観測データを集められれば、これに伴って未来予測の精度と、予測できる時間的範囲は拡大していく。ここでいう「十分」は、カオスの世界にも対応できる程度の性能を指す。天気予報であれば1週間というのが、確からしい確率を示せる現在の限界だ。

ただし予測にあたっては、次の条件もクリアしなければならない。

  • センシングしきれない情報について、推論等で補うことができる
  • 長い周期をもつ事象の未観測部分について、理論・推論で補うことができる
  • 人間社会をシミュレートし、人間の活動に起因するノイズを予測の範囲内に収めることができる

これらができなければ、ノイズは予測のボトルネックとなり、未来予測に限界をもたらす。

現実問題としてどうだろう

以上に挙げた条件の中にもそれぞれ予測・推測が入り込んでおり、ノイズやカオスの影響を完全には排除できないことがわかる。現実世界は決定論的にはできていない(という立場をここではとる)ので、それ自体は仕方がない。結局のところ問題になるのは、こうしたノイズやカオスの影響を予測モデルの制御下に収められるかどうかだ。

私としては正直かなり難しいように感じてしまう。特に厄介なのが「シナリオの不確実性」だ。不合理のカタマリである人間が何十億人も集まっていて、その行動の予測などできるだろうか。

ビッグデータよる未来予測に限界はない「可能性」はある

ただし忘れてはならないのが、我々は錯覚とともに生きており、こうした私の主観もまたバイアスに過ぎないという点だ。世界は動的かつ非線形で、思いもよらない方向へ変化していく。いまこそビッグデータや人工知能に注目が集まっているが、10年後には全く異なるテクノロジーが世界を変えようとしているだろう。

そう考えると、コンピュータ技術が長期の未来予測を実現する可能性は、決してゼロではなさそうだ。コンピュータの性能と予測能力の向上次第になる。これがこの記事の命題に対する答えとなる。だいぶ歯切れが悪いけど、これまた1つの予想なので、幅を持った結論にならざるを得ない。

もっとも、ムーアの法則を考慮しても、長期予測の実現までには20年、30年といった時間はかかりそう。それまでのあいだは、機械による予測も利用しつつ、バイアスと不確実性に満ちた、人による予測を楽しみたい。
私たちの未来は、今のところはまだ白紙のままだ。

 

シグナル&ノイズ 天才データアナリストの「予測学」 バック・トゥ・ザ・フューチャー Part 2 [DVD] ビッグデータの正体 情報の産業革命が世界のすべてを変える

 

Pocket