ビッグデータBigData三宅正裕*はじめにビッグデータという言葉は数年前に流行した言葉で,最近は人工知能(arti.cialintelligence:AI),internetofthings(IoT),ブロックチェーンといったテクノロジー関連用語が注目を集めている.しかしながら,これはビッグデータの役割が終わったということではない.それどころかむしろ,これからの時代においてますますその重要性を増しており,AI,IoT,ブロックチェーンとは切っても切り離せないものである.たとえばAIプログラムを開発するために必要となるデータはまさにビッグデータであるし,IoTにより集積されていく日常のさまざまなデータもそれ自体がビッグデータである.本稿では,眼科領域において用いられるデータベースとして,レセプト情報・特定健診等情報データベース(nationaldatabese:NDB),JapanOcularImagingRegistry(JOIregistry),その他,今後活用が予想されるデータについて解説する.Iレセプト情報・特定健診等情報データベース(NDB)1.NDBとは厚生労働省は2009年度診療分より,レセプトについてオンライン・電子媒体で請求することを原則として義務化した.これらの電子化されたレセプトデータが格納されているのがNDBである.厚生労働省のデータによると,NDBには現在の日本における保険請求情報の95%以上が含まれており,非常に悉皆性の高いデータとなっている.2.NDBに収集されているデータNDBは,電子化されたレセプト情報,ならびに特定健診・特定保健指導情報によって構成されている.レセプトとは,保険診療を行った医療機関が,診療報酬点数表に基づいて診療報酬(医療費)を保険者に請求するために,患者一人について毎月発行する診療報酬明細書のことである.このうち電子化されたレセプト情報がNDBに格納されている.このため,たとえば紙媒体のレセプトで請求が行われた場合の情報は含まれないが,わが国の電子レセプトの普及率は2015年5月時点で98.6%であることや,わが国は国民皆保険制度を採用していることを考えると,国内の医療行為のほとんどが捕捉されているといっても過言ではない.レセプト自体には,診療に関連する傷病名や治療内容,投薬,使用された器材などのみならず,氏名,生年月日,性別などの患者情報や,医療機関,保険者,被保険者などの情報も含まれるが,NDBに格納される段階で,患者氏名や生年月日の「日」,保険医療機関の所在地および名称,カルテ番号,被保険者証の記号・番号などは,個人が特定されないよう削除されている.代わりに,これらの情報には患者をごとにID(ハッシュID)が付与されているため,個人を紐付けて抽出,分析を行う際にはこのIDを使用することができる.*MasahiroMiyake:京都大学大学院医学研究科眼科学〔別刷請求先〕三宅正裕:〒606-8507京都市左京区聖護院河原町54京都大学大学院医学研究科眼科学0910-1810/19/\100/頁/JCOPY(11)433特定健診情報としては,2008年度より実施されている,40歳以上75歳未満の被保険者・被扶養者を対象とするメタボリックシンドロームに着目した健診の受診情報が格納されている.特定保健指導情報としては,特定健診受診者のうち生活習慣病のリスクが高いとされ特定保健指導を受けた者の当該特定保健指導の情報が格納されている.レセプト情報を格納する際と同様,氏名などといった受診者個人が特定されうる情報は削除され,代わりにハッシュIDが付与されている.含まれる情報としては,問診結果(服薬歴,喫煙歴,生活習慣など)や身長,体重,血圧などといった測定項目,血糖値やコレステロール値などのおもに生活習慣病に関連した検査項目の結果,保健指導レベルや支援形態などの情報などがある.3.NDBデータの第三者提供NDBは「高齢者の医療の確保に関する法律」に基づいて厚生労働大臣が保有し,厚生労働省保険局が管理・運用するデータベースであり,本来の目的は「全国医療費適正化計画及び都道府県医療費適正化計画の作成,実施及び評価に資する」ことである.このため,その他の目的に使用することは目的外使用にあたる.このようななか,2008年の「医療サービスの質の向上等のためレセプト情報等の活用に関する検討会」の報告書において,医療サービスの質の向上などをめざして正確なエビデンスに基づく施策を推進するにあたって有益となる分析・研究や,学術研究の発展に資するような研究を行うことを一律に排除すべきではなく,個別審査により第三者提供を認めるべきであるとの提言がなされた.これを元に2010年に「レセプト情報等の提供に関する有識者会議」(以下,有識者会議)が設置され,現在は,有識者会議の審査のもとでNDBの目的外利用が可能となっている.NDB情報の第三者提供にあたっては,有識者会議により2011年に「レセプト情報.特定健診等情報の提供に関するガイドライン」が定められ,これに基づき,有識者会議(2013年9月からは有識者会議の中に設置された専門の分科会)において個別審査が行われている.2016年3月時点で大きく分けて三つの形式で提供されており,それに加えて2015年12月および2016年2月に東京大学と京都大学に設置されたオンサイトリサーチセンターでの利活用を見据えた模擬申し出も進んでいる.まず,提供の一形態として「特別抽出」があげられる.これは,研究者が個別の研究に必要と考えるデータをすべて要望し,申し出する形式で,有識者会議審査分科会において承諾されれば,希望する項目のNDBデータを入手することができる.ただし,提供を依頼するデータは「研究内容に鑑みて最小限」であることが求められているため,事前にとりあえず幅広くデータを集めてあれこれ分析してみたい,といったあいまいな研究目的での利用は,原則として認められていない.事前に,限定された目的に対する完成度の高い研究プロトコルの準備と,合理的な根拠に基づいたデータ項目の指定が必須となっているためハードルは高く,機微な情報も含まれるためセキュリティ面の要求も高い.データマイニングを行うことができないため,いわゆるビッグデータ解析という観点からの魅力は高くない一方で,目的や解析方法が明確であれば非常に悉皆性の高いデータを得ることが可能である.次に,「サンプリングデータセット」があげられる.単月分の医科入院レセプト,医科入院外レセプト,DPCレセプト,調剤レセプトに対し,性別および5歳刻み年齢別に,母集団つまりNDBデータの同月診療分データ全数と構成比率が変化しないよう,入院で10%,外来および調剤で1%の抽出を行い,出現回数の少ない傷病名や診療行為,医薬品の情報などはダミー化したデータである.サンプリングデータセットを利用する際には,特別抽出の審査の際に求められていた抽出条件などの詳細な指定は求められず,研究の概略が把握できるような申し出でも構わないとされており,セキュリティ環境の確保も,特別抽出の際ほどには厳しい要件は求められていない.特別抽出では探索的な研究が原則として認められていないことから,そうしたニーズに対応できるよう整備されたデータであり,時系列を追うような複雑な解析はできないもののデータマイニングを行うことができる.セキュリティ面を鑑みても,興味があればまずこのデータで取り扱いを習熟するのがよいだろう.434あたらしい眼科Vol.36,No.4,2019(12)第三の提供形態は「集計表」である.これは申し出者が厚生労働省に集計表の作成を依頼するもので,有識者会議の審査で承認されれば厚生労働省が集計表を作成して申し出者に提供されることになる.データ操作の知識は不要であるものの,データ構造に習熟していなければ適切な集計が依頼できない.また,集計完了までの期間も読めない.2013年の「レセプト情報・特定健診等情報データの第三者提供の在り方に関する報告書」において,「より円滑なデータ提供のためには,探索的な研究や希少疾患の研究に有効で,患者や個人立の医療機関の情報を保護することができる,オンサイトセンターでのPrivacyPreservingDataMining等を用いたデータの利活用について検討を進めることが望ましい」とされたことを受け,厚生労働省のNDBに実地でアクセスできるサイトとしてオンサイトリサーチセンターが設置された.試行利用を経て,現在,第三者利用の模擬申し出を行っているところであり,ここでの経験を踏まえて第三者利用の本格運用開始が予定されている.オンサイトリサーチセンターの第三者利用は,特別抽出のデータの粒度とサンプリングデータセットの探索性の双方の利点を兼ね備えており,まさにビッグデータ解析の本丸である.筆者も模擬申し出を行い厚生労働大臣より承認されたが,現時点では解析するためのパソコンの性能が限定的であったり,セキュリティ面の要件が厳しいため,今後の普及のためにはこの点の改善が望まれる.IIJapanOcularImagingRegistry(JOIregistry)1.JOIregistryとは数年前より医療分野においてもAIの活用が現実的に見込まれるようになってきたことから,AIを開発するにあたってのデータ基盤を構築するため,わが国の医療研究開発の司令塔たる日本医療研究開発機構(JapanAgencyforMedicalResearchandDevelopment:AMED)は2016年から学会主導型の画像などのデータベース作成に着手した.当初採択されたのは日本病理学会,日本医学放射線学会,日本消化器内視鏡学会の3学会であったが,2017年にも同様の公募が行われ,日本眼科学会も採択された(図1).このプロジェクトにおいて日本眼科学会が構築しているのがJOIregistryで,眼科領域初の画像などのナショナルデータベースである.2.JOIregistryの特徴これまでわが国ではさまざまな領域においてさまざまなレジストリが構築されてきたが,成功したといえるレジストリは数えるほどである.過去のレジストリの問題点としては,インセンティブ設計が不足しており一部の施設からしか積極的な登録が行われないといった点や,政府からの補助金がある間はワークするものの補助金が終わった後の資金が確保できず更新されなくなる点,また収集されたデータはレジストリ構築主体が論文作成などに使用するのみであまり利活用されてこなかった点などがあげられる.これまでもっとも成功したと思わるレジストリは日本外科学会を中心とに構築されたNationalClinicalDatabase(NCD)あろう.このレジストリは専門医制度と結びつけることによって非常に高い悉皆性を確保し,わが国で一般外科医が行う手術の95%以上をカバーしているとされる.また,基礎的な運営費用も自己収入で賄っており,政府の補助金に頼らず自立したレジストリとなっている.しかし一方で,登録作業が各施設/各外科医の大きな負担になっているという問題や,長期予後については外科専門医制度と結びついていないため捕捉率が必ずしも高くないという問題も存在する.JOIregistryでは,これら過去のデータベースの問題点を踏まえ,それらを克服できるデータベースの構築を行っている.JOIregistryの基本的な設計は,各施設の眼科部門カルテに格納された情報を,基本的にすべて,「人を対象とする医学系研究に関する倫理指針」に基づき日本眼科学会のクラウド(JOIregistry)に自動的に送信して集約する形である.これにあたっては,大学病院の眼科のみならず,日本医療情報学会,日本眼科医療機器協会や眼科医療機器メーカーと密に連携し,ソフト面・ハード面の両面でシステム構築を行っている.収集された情報は,各種研究・調査等に活用され,眼科医療の質の均てん化をめざす.また,次世代医療基盤法との整合性を確(13)あたらしい眼科Vol.36,No.4,2019435図1AI開発加速コンソーシアムで示された構想図2JOIregistryの仕組みと進捗できればと考えており,これによって施設・疾患ごとのデータ取得バイアスを低減させることをめざす.c.フィードバックこれまでのレジストリは,参加しても結果的に中心となる施設にしか恩恵がないものが多く,得られる恩恵としても,論文執筆時のオーサーシップなど,一般臨床医には興味のないものであることが多かった.JOIregis-tryでは,参加することによって臨床に役立つフィードバックが提供されることで,一般臨床医の先生方にも積極的に参加していただけるようなシステム構築をめざしている.たとえば現時点で提供が予定されているものとして,電子カルテ組み込み型の診療補助ツールがある.現時点ではサマリーページの提供が予定されているが,将来的にはAIを活用したものなども順次導入されるかもしれない.また,全国から収集されたデータをもとに類似画像検索システムを提供するといったフィードバックも想定している.これらは,日本眼科医療機器協会や電子カルテベンダーと全面協力しているからこそ提供できるものであり,眼科独自の先進的な取り組みといえる.d.データ利活用データは,蓄積することには意味がなく,活用してこそ意味がある.前述のように,本レジストリは眼科領域全体の共通資産,インフラストラクチャーとして作成しているものであるため,収集されたデータは利活用しやすい形で提供できるようにすべきであろう.まだレジストリ構築途上であるため具体的なデータ提供方法などは定まっていないが,米国国立衛生研究所が32,000枚の放射線画像を公開しているのと同様,JOIregistryからも,匿名加工データの一部は公開データとして社会に提供し,その他のデータはエフォート(たとえば複雑なアノテーションを付与するなど)に応じた形で提供することが望ましいのではないかと考えている.また,それにあたっては,研究に充てることが可能な人・時間に応じて逆レバレッジをかける(研究に充てられる時間が少ない施設ほどデータの提供を受けやすくする)ような仕組みも必要であろう.3.JOIregistryの進捗状況JOIregistryは将来的には診療所も含むすべての眼科施設に展開することを想定しているが,現在はそのためのパイロット研究として,国内の21大学病院の協力を得てプロジェクトを進めている.実装のハードルとしては各施設の倫理審査委員会,各施設の医療情報部との交渉,実際の物理的なネットワークシステム構築などがあげられるが,各施設と協力して進めた結果,2施設ではネットワーク構築が完了,3施設ではネットワーク構築に着手しており,3施設ではこれから順次ネットワーク構築に着手していく状況である.また,医療情報部と調整中の施設が4施設,倫理審査委員会の承認待ちの施設が9施設となっている.意欲的な試みであるため各段階で時間を要しているものの,全体構想としては省庁,AMEDや独立行政法人医薬品医療機器総合機構(PharmaceuticalsandMedicalDevicesAgency:PMDA)からも高く評価されており,少しずつ各施設の医療情報部の協力も得やすくなってきている.システム的にも,4社の電子カルテベンダーの接続が完了すればその際のノウハウを横展開するだけであるため,資金的な余裕があれば加速度的に参加施設が拡大していくと考えられる.III今後活用が予想される眼科領域ビッグデータこれまではNDBという規模感のあるビッグデータについて記載してきたが,ここからはもう少し規模の小さな,しかし今後重要となりそうなデータについて簡単に言及する.1.手術ビデオ手術ビデオはたくさん撮りためられていると思われるが,術式の復習などに使用される程度で積極的な解析はあまりなされていないのが現状だと思われる.このような,貯まっているけれども活用されていないようなデータをレガシーデータとよぶが,近年のディープラーニングに端を発する画像解析技術の進歩により,このようなデータが大きなポテンシャルを秘めたデータとなっている.たとえば,適切にアノテーションをつけて学習させ438あたらしい眼科Vol.36,No.4,2019(16)