連載現場発,病院と患者のためのシステム連載現場発,病院と患者のためのシステム医療データ(ビッグデータ)のマイニング杉浦和史*.データマイニング経験ある製品の需要の予測をしていたときに経験したことを紹介します.その製品は一定面積以上のビルの設備となるものでした.この製品の需要予測をして生産計画に反映することを目的に,通産省(当時)工業統計を元データ(鉱山)にして多変量解析手法を用いて分析しました.その結果,景気が良くなる前に製品が納入される規模のビル着工件数が増え,その前にビルを建てるために必要な資材の需要が高まることがわりました.相関が深いとして寄与率とともにピックアップされた資材は,コンクリート,棒鋼,サッシ,エレベータなどです.また,先行指標といわれる影響を及ぼすまでのリードタイムもわかってきました.これらの情報を生産計画に反映することで,できるだけ機会損失(売り損じ)がなく,そうかといって作り過ぎず(不良在庫要因)生産することができるようになりました.筆者は当該製品を作る立場でも売る立場でもなかったものの,人手では不可能な大量データ間の因果関係を当時の大型汎用コンピュータ身体情報n個の情報バイタル情報n×実施回数分の情報検査情報n×検査回数分の情報最近,ビッグデータという言葉が氾濫しています.10数年前はDWH(DataWareHouse/データの倉庫)といわれていたものです.その倉庫の中から価値ある情報を見つけることを鉱山から宝石を発掘(mining)することにたとえ,データマイニング(datamining)と呼んでいました.気にしていなかった相関が深い因果関係(宝石)をminingによって発見することがありますが,常識ができている当該業務の専門家が先入観から見落としている相関を,常識をもたない者が発見することが多々あります.を使って分析した結果,生産計画担当者が気がつかなかったことを発見し,かつ,“おぼろげに感じていた”ことを定量的に説明することができました.第一次石油ショックのときの話です..医療情報のマイニング医療分野においても図1に示すように大量の患者データから,思わぬ因果関係を発見する可能性があります.最近ではデータを画面から入力したり,検査機器から自動的に入力されることが多くなり,コンピュータを使って分析できる環境が整ってきました.どの情報とどの情報がどのような関係にあるか?相関の深さはどの程度か?何十万,何百万件という大量データを人手で処理するのは効率が悪い,あるいは不可能・多変量解析を使ったデータマイニング・ニューロ,ファジー応用のデータマイニング今まで気がつかなかった因果関係の発見図1医療データマイニングイメージ*KazushiSugiura:杉浦技術士事務所(情報工学部門)http://sugi-tec.tokyo/(105)あたらしい眼科Vol.31,No.12,201418430910-1810/14/\100/頁/JCOPY.マイニング事例事例1医療関係者の間では未熟児が死亡する原因の多くが感染症であることは知られていました.未熟児は,感染を起こしてから治療しても手遅れの場合が多く,また体力的に処置ができないケースも多く,家族が悲嘆にくれる事態に陥る状況を救えないでいました.これに対処すべく,感染症を発症しそうだという予知ができないかについて,研究が進められていましたが,有効な成果は出ていなかったようです.あるとき,証券会社で金融工学を駆使して株価の推移を分析していた専門家が大学に転じ,研究対象としてこの問題に取り組みました.未熟児で生まれ,感染症で死亡した事例の出産から発症に至るまでのデータの推移をみていて気がついたのは,以下の値の変化具合,周期,相互の関係のパターンです.①血中の酸素濃度②呼吸数③心拍数などこれらが,ある特定のパターンに当てはまると,やがて感染症を発症する傾向があるということです.この研究成果により,パターンに当てはまっていた未熟児を発症前に発見し,事なきを得るケースが増えた事例が報告されています.事例2ある大企業の健保組合の例です.未熟児を産む女性社員と正常な出産をする女性社員との違いが何に起因するかを健診データから発見しようと調査した結果,BMIで示す値と未熟児出産との間に,有為な相関があることを発見しました.医療の専門家ではないものの,データを眺めていて発見した事実に基づき,この健保組合では女性社員に説得力のある統計値(証拠)を見せ,過度な痩せすぎへの注意を喚起しました.その結果,この健保組合の女性社員が未熟児を出産する件数が激減し,負担が軽減されたこの組合は黒字に転換したそうです.これは,回りまわって医療費抑制にも通じることで,厚生労働省からも注目されています.以上,いずれも,医師ではない素人の成果です.どうしてそれができたのでしょう?数学的な処理能力ではなく,先入観にとらわれなかったことが最大のポイントだと思います.専門家は専門領域の視点でしかデータをみない傾向にありますが,それでは既知の延長線上でしか判断できず,関連性が未知のデータの間に有為な相関がある場合,これをみつけることができません.現在,幸いにも医療現場へのIT導入が進み,大量のデータを電子的に扱える環境になってきました.コンピュータの処理能力を利用して新たな視点での因果関係の発見,傾向分析ができる条件が整ってきたということです.医療ビッグデータをknowledge-discoveryindatabases視点でマイニングし,data→information→intelligenceとなるよう新たな視点でデータを見直し,大量データの鉱山からの宝石発見を期待したいところです..その他“風が吹けば桶屋が儲かる”という話があります.図2に示すように,いささかこじつけな遷移ではありますが,実際に起こったことを長期間観察すると思いもつかない因果関係があることを言い表したもので,ある意味でデータマイニングの過程に通じるものがあると思います.風が吹くホコリが舞う目にホコリが入る目の悪い人が増える目の不自由な人の代表的な職業である三味線引きが多くなる三味線のために猫の皮が必要になる猫が少なくなるネズミは食料難になる天敵が少ないのでネズミが増える仕方なく桶をかじる桶の修理や注文が増える桶屋が儲かる図2“風が吹けば桶屋が儲かる”の因果関係☆☆☆1844あたらしい眼科Vol.31,No.12,2014(106)