ビッグデータ解析による未来予測を、企業はすでに使い始めた（『ビッグデータの正体』書評1/3）

このところよく耳にする「ビッグデータ」というバズワード。よく聞くんですけど理解があいまいというか、データ解析してなんかするんだろなくらいしかわかってなかったので（つまりほとんどわかってなかったので）、一冊読んでみました。

『ビッグデータの正体』は、ビッグデータについて初めて本格的に論じたベストセラーです。ビッグデータとは何ぞやというところから、未来の犯罪が予測できてしまうといった将来社会に及ぼす影響まで、事例を中心に体系的にまとめられていました。

ビッグデータが社会にもたらす最大の影響が「高い精度で未来を予測できるようになる」ところです。最近ではAmazonの「予測出荷特許」の登録が話題になりましたね。これはユーザが商品を購入する前に、それを予測して商品出荷を開始してしまう、というものです。

アマゾン、注文前に商品を予測出荷する特許を取得（CNET japan, 2014/1/21）

今回はまず、本書で述べられていた「ビッグデータとは何なのか」について解説します。
あとAmazonの予測出荷特許もちょっと気になったので、少しだけ調べてみました。

Summary Note

『ビッグデータの正体』で述べられていた未来（１）

「全てのデータ」から相関関係を抽出することで、未来の予測が可能になる

ビッグデータは「全てのデータ」から「相関関係」を導き出す

定義ではないですが、ビッグデータの特徴として本書で示されていたのが次の３点でした。

１）従来の無作為抽出データでなく「全てのデータ」を扱う
２）抽出の精度は考慮しない（全てのデータを扱うのでどう抽出したかは無視できる）
３）因果関係ではなく相関関係が重要である

前提となるのが「全てのデータ」を扱っていること。
たまにニュースで「ビッグデータだ！」と謳っている記事があって、よく読むと「普通より多めのデータを扱ってるからビッグデータ」というのがありますが、本書においては、ノイズやエラーを含む「全て」のデータを扱っていることが条件になります。

Googleによる、ビッグデータを用いたインフルエンザの早期予測

そしてビッグデータのキモとなるのが「相関関係」です。
本書では、2009年のGoogleによるインフルエンザ流行予測の事例を紹介していました。以下に引用します。

人々がネットでインフルエンザ情報を探すときは、「咳の薬」や「解熱剤」といったキーワードで検索するはず、とグーグルのチームは推測した。しかし、それが何かはわからないし、そんなことにいちいち注意を払うようなシステムに設計されているわけでもなかった。グーグルのシステムは、各検索語の使用頻度と、インフルエンザ感染の時間的・空間的な広がりとの間の相関関係を見ていただけだ。（中略）

そこで彼らは大変なことに気付く。特定の検索語45語と、ある数式モデルを組み合わせたとき、グーグルの予測と公式データの間に高い相関関係がみられたのだ。

これによりグーグルは、公的医療機関の発表よりもかなり早いタイミングでのインフルエンザの流行予測ができることを示したとされます。
ポイントとなるのは、「特定の検索語45語」が、必ずしも直接インフルエンザに関係するとは限らない点。もちろん科学的に検証していけば、45語とインフルエンザとの因果関係を突き止めることはできるかもしれません。でもビッグデータ解析においては、そうした因果関係を問題にはしないところが問題になるのです。

風が吹けば”理由はよくわからないけど”桶屋が儲かる”らしい”

Ａという事象とＢという事象の間に、「理由はよくわからないけど」相関関係があるらしい。だから、Ａが起きたならきっと次はＢが起こるだろう、という相関関係を発見するのがビッグデータ解析の特徴です。

日本のことわざに、「風が吹けば桶屋が儲かる」というものがありますね。ここで「風が吹く」と「桶屋が儲かる」の間には次のような因果関係が説明されます。

１）風で土埃が立ち、
２）土ぼこりが目に入り盲人が増え、
３）盲人は（ことわざ成立時に盲人の職業とされた）三味線を買い、
４）三味線に使う猫皮の需要から猫が殺され、
５）猫が減るのでネズミが増えて、
６）ネズミが桶をかじり、
７）桶の買い替え需要から桶屋が儲かる

従来においては、「風が吹く」と「桶屋が儲かる」の間にある因果関係の導出が重要でした。因果関係を見つけることで、「風が吹く」から「桶屋が儲かる」ことに納得感を得てきたわけです。
因果関係が必要とされた理由は、解析対象となるデータが無作為抽出された一定量のデータだからです。そのため因果関係を証明できないと、抽出する母集団を変えたときも一般化できるのかどうか説明できません。

一方ビッグデータ解析においては、全てのデータを相関分析にかけて、「風が吹く」と「桶屋が儲かる」の間に「相関関係があるのかどうか」を明らかにします。このとき「風が吹く」と「桶屋が儲かる」の間にある（２）から（６）の理由を見つけることは問題にしません。
なぜ因果関係を無視できるかというと、それは全てのデータを扱っているからです。全てのデータをみてそこに相関関係が見出せたなら、それがそのまま結果なのです。

上述したGoogleの例においては、特定の検索語45語とインフルエンザ流行とのあいだに「相関関係があった」という発見そのものが重要なのであって、45語がどういう理由でインフルエンザ流行の前に入力されるかは二の次となります。
Googleが扱う巨大な検索結果「全て」を見て、そこに相関関係を見つけられたなら、因果関係がわからずとも未来が予測できるのです。

Amazonのおすすめ商品が素敵な理由

ビッグデータ解析を未来予測に使った事例として、本書ではAmazonのおすすめ商品の話が載っていました。

CEOのジェフ・ベゾスはある有望なアイディアの実験に乗り出す。個々の顧客の購入履歴や好みのデータに基づいて書籍を推薦する仕組みだ。（中略）

膨大なデータ量だったため、最初は従来の方法で加工していた。つまりデータから抽出した標本を分析し、顧客全体の共通項を探ろうとしたのである。（中略）

顧客全体の買い物内容から共通項を探るような機能は商品推薦システムには不要だと気付いたのだ（技術的にも面倒な機能だ）。重要なのは、一見関係なさそうな商品同士の相関関係を見つけることだった。1998年、リンデンらは、「商品間」の協調フィルタリング技術で特許申請している。この手法に切り替えたことが大きな転換点となった。
相関関係の計算はあらかじめ済ませておけるので、おすすめ商品は即座に表示できる。また、汎用性も高く、商品カテゴリーにまたがるおすすめも可能だった。

ポイントとなるのは、ある顧客や似通った顧客群といった「特定のデータ」の分析でなく、Amazonの持つ「全てのデータ」の中で、商品と商品の間の相関を見た点です。私の嗜好がどうなのかは考えずに、私が買ったある商品に対して、全データ中で最も相関の高い商品はどれかを見つけようとした、ということですね。

Amazonの予測出荷特許はどんな技術か？

ここで、最近登録になったとされるAmazonの予測出荷特許（USP8,615,473）をチラ見してみましょう。メインの権利範囲は次のようになってます。

US Patent No.8,615,473

1. A method, comprising:
　　　performing, by one or more computing devices:

　　　determining a status of one or more shipped packages currently in transit to respective destination geographical areas, wherein said respective destination geographical areas include multiple delivery addresses to which said package is deliverable, wherein at least one of the one or more shipped packages comprises one or more items that have been shipped before an order has occurred for the one or more items in the at least one shipped package, and wherein the one or more shipped packages were shipped to a respective destination geographical area without completely specifying a delivery address at time of shipment, such that at the time of shipment, each shipped package is deliverable to said respective destination geographical area but is not deliverable to any delivery address;

　　　for a given one of said one or more shipped packages, analyzing one or more business variables related to said one or more items included in said given shipped package;

　　　dependent upon analyzing both said one or more business variables and said determined status, determining a disposition of said given shipped package.

米国特許商標庁より

ざっくり特徴を抜き出すと、「注文が行われる前に、配達先住所がまだ特定されていない時点で、当該特定の住所ではなく特定の地域に対して配達を行う」というものになっています。
あるユーザに商品を届けるというよりは、地域単位で需要を予測し、地域の配送センターに商品を置くまでのことを意図してるようです。
じゃあどうやって置く商品を選ぶんだというのが気になりますが、上記権利範囲では「解析する」としか書かれてなくて、そんなのできて当たり前みたいな感じにされちゃってますね。

予測の方法について、特許の実施例でいくらか述べられていました。
長くなってしまうので引用するのは避けますが（気になる人は特許を直接読んで下さい）、

想定顧客の需要を予測する
ある地域における商品需要情報を集合させる
その中から地域への事前配送に適したものをピックアップする

といったことが説明されていました。このとき、複数の情報センターからネットワークを介して情報を集積することも記載されてます。

ユーザ毎に商品需要の予測ができることは、本書で紹介されていた通りです。今回の特許の特徴は、そうした各ユーザの予測需要を地域ごとに集積して、確度の高い商品については地域レベルで予め振り分けておくところにありそうですね。

Specifically, in one embodiment, forecasting model 420 may be configured to forecast or predict customer demand for a given item. Forecasting model 420 may be configured to predict aggregate demand for items as well as demand within particular geographical areas. In many respects, forecasting demand for items not yet shipped may rely on data similar to that used to gauge potential customer interest in items already shipped, as described above with respect to FIG. 7.

USP8,615,473 実施例の説明より

一文だけ引用しました。需要予測モデル420がカギですね。

ではビッグデータが現れた未来で、どんなことが起こるのか？

さて本題はここからです。

2002年公開の映画『マイノリティ・レポート』では、予知能力者によって未来の犯罪が予見できるようになり、犯人が犯罪を犯す前に逮捕するという未来が描かれていました。
ビッグデータの高精度な未来予測能力は、こうした『マイノリティ・レポート』の世界を実現可能にします。こうした将来が訪れたとき何が問題になるのかも本書ではしっかり論じられていたので、紹介したいと思います。

ビッグデータ解析が可能にする、未来犯罪の予測と個人情報推定（『ビッグデータの正体』書評2/3）（2014/1/29）

また、ビッグデータ解析が普及した未来では、解析されるデータが重要な価値を持つようになります。しかし著者の指摘によれば、まだこうしたデータの価値を評価する仕組みが確立されていません。
ビッグデータのような情報は知的財産の１つとみなすことができそうですが、特許の世界ではそうした形を持たない財産の金融商品化が進んでいます。そこで、特許の世界に照らし合わせて、今後ビッグデータの価値評価がどのように進んでいくのかも考察します。

知財権の資産市場化・金融商品化プロセスと、ビッグデータの価値評価（『ビッグデータの正体』書評3/3）（2014/2/16）