ゲノムをみる技術の進歩AdvancedTechniquesforExaminingtheGenome倉田健太郎*細野克博*はじめにDNA,遺伝子,ゲノムなどは身近に耳にする言葉ではあるが,それらの違いは?と聞かれたら答えに困る人は少なくないだろう.DNAとはデオキシリボ酸という物質名で,遺伝情報が書き込まれている.DNAがたくさん集まって構成されているのが遺伝子であり,遺伝情報をもった最小単位である.そして,遺伝子(gene)と染色体(chromosome)あるいは全体(-ome)とを合成して作られた用語がゲノム(genome)であり,特定の生物がもつ遺伝情報全体をさしている.つまり,ゲノム情報は体を作るための設計図のようなものである.近年,ゲノム情報を調べて,その結果をもとにして効率的・効果的に疾患の診断,治療,予防を行うゲノム医療が盛んになってきており,ゲノムをみる技術の重要性が増している.遺伝子や染色体,ゲノムなどを調べる検査をいわゆる遺伝子検査とよぶ.遺伝子検査は,かつては限られた研究室でのみ行うことができる特殊な検査であったが,技術の進歩とともに普及し,医療を行ううえで必要な検査の一つとなってきている.本稿では,これまでの遺伝子検査で用いられてきたゲノム解析技術を振り返りながら最新の状況を紹介し,遺伝子検査により得られたゲノム情報をどのように解釈してみればよいのか実例をあげて述べる.Iゲノム解析技術の進歩1953年にワトソンとクリックがDNAの二重らせん構造を発見して以来,20世紀後半は遺伝病の分子生物学的研究が盛んに行われることとなった.このDNA塩基配列を直接読み取ることができるようになったのは,1970年後半に相次いで開発発表されたシークエンシング(用語解説参照)技術と,1980年代後半に開発,市販された塩基配列を読み取る機器である自動化DNAシークエンサー(用語解説参照)のおかげである.詳細は略すが,DNAポリメラーゼと特殊な基質ヌクレオチドを利用するサンガー法は現在に至るまで利用されており,分子生物学の解析スタンダードとなっている.1990年にはヒト染色体のDNA配列をすべて解読し,染色体のどこにどんな遺伝情報が書かれているかを明らかにする「ヒトゲノム計画(1990~2004)」が国際的な協力のもとで開始された.当計画の最終段階に上記のサンガー法によるマルチキャピラリー式DNAシークエンサーが大規模に使用され,2003年にヒトゲノム配列の解読完了宣言がなされた.しかし,大規模なゲノムを対象とする解析において,上記手法では解析のプロセスが非常に煩雑である点や,一度に処理できる試料数に上限がある点などが大きな制約となっていた.こうした既存のシークエンシング技術とシークエンサーの問題点を克服すべく,「次世代シークエンサー」と総称される新しいシークエンサーが2005年に市場に登場した.次世代シークエンサーという呼び名は既存のマルチキャピラリー式DNAシークエンサーとの対比でこうよばれており,海外でもnext-generationsequencerといった呼称*KentaroKurata&*KatsuhiroHosono:浜松医科大学医学部眼科学講座〔別刷請求先〕倉田健太郎:〒431-3192静岡県浜松市東区半田山1-20-1浜松医科大学医学部眼科学講座0910-1810/17/\100/頁/JCOPY(5)921図1筆者らの施設で使用している次世代シークエンサーMiSeq(手前)とNextSeq(奥),ともにイルミナ社.機種により出力できるデータ量が異なる.筆者らの施設ではターゲットシークエンシングの場合はMiSeq,全エクソームシークエンシングの場合はNextSeqを用いている.表1サンガー法と次世代シークエンサーの違いサンガー法次世代シークエンサー1回のシークエンスにかかる解析費用(円)3,000200,0001回のシークエンスにかかる実験時間(時間)224一度に解析できる塩基数8004,500,000,000次世代シークエンサーは筆者らの施設で使用しているサンガーシークエンサーABI3500xL(ライフテクノロジーズ社)と次世代シークエンサーMiSeq(イルミナ社)を参考にした.サンガー法が用いられ,全ヒトゲノム解読に13年の年月と約30億ドルのコストが必要であったが,現在では高出力型の次世代シークエンサー1台を使用すれば2週間(データ解析は除く)で数名の全ゲノムの解読が可能であり,1人の全ゲノムあたりのコストは100万円を下回っている.サンガー法によるシークエンシングは過去30年にわたりほぼ同じプロトコールが用いられているのに対して,次世代シークエンサーとそれを用いたシークエンシング技術の進歩の速さには瞠目するものがある.III次世代シークエンサーによるヒトゲノム解析次世代シークエンサーを用いたヒトゲノムの網羅的解析は,全ゲノムを対象とした全ゲノムシークエンシング(wholegenomesequencing:WGS),蛋白質のコーディング領域すべてを対象とした全エクソームシークエンシング(wholeexomesequencing:WES),対象となる遺伝子が限定されている場合のターゲットシークエンシング(targetsequencing:TS)に大別される.WGSはヒトの全ゲノムを網羅的にシークエンシングすることができるため,癌のような総合的なゲノム構造変化を知る必要性がある解析に有効である.ただし,解析対象となるデータ量も相対的に多くなり,必要なコストと解析労力は大きくなる.WESはヒトのほぼ全遺伝子の蛋白質コーティング領域のみを選択して解析する手法であり,複数のメーカーよりWES解析用の試薬キットが販売されている.現状はエキソン(用語解説参照)部位を100%抽出することができない点や,改善されてきているものの,部位により収量のばらつきがある点など問題も多いが,WGSと比較してコストと解析労力の負担は軽減され,コストパフォーマンスに優れた手法である.TSは数Mb程度の限定された領域のみ解析対象とする方法で,すでに連鎖解析により対象領域を絞り込んでいる場合や,解析対象遺伝子が限定されている場合に用いる.TSはWESよりもさらにコストと労力の負担は軽減されるが,研究者自身で解析する遺伝子を選択し,解析遺伝子の追加が必要の際は自身でアップデートしてゆく必要がある.これら三つのシークエンシングは必要なデータ量,対象領域の違いはあるが基本的に同一である.筆者らの施設では,遺伝性網膜変性の患者に対してはTSを施行し,それ以外の遺伝性眼疾患患者やTSで原因が同定できなかった遺伝性網膜変性患者に対してはWESを行っている.このように三つのシークエンシングのうち,どの手法を用いるかは研究目的,研究費用,解析対象などによって決定される.IV遺伝子検査で得られた結果をどのようにみるのか本稿では,塩基の変化を塩基置換とよび,疾患の発症に関与していれば変異,関与していなければ多型とよぶ.現状は変異と多型の判断は容易ではない.次世代シークエンシングを行うと,患者1人あたり数百個から数万程度の塩基置換が検出される.検出された塩基置換がすべて疾患の発症に関与する変異というわけではない.遺伝子検査により得られた多数の塩基置換からどのようにして疾患発症に関与する変異のみを抽出しているのか,つまり,遺伝子検査の結果をどのようにみているのかを筆者らの施設が行っている「診断システム」を例にあげて紹介する.遺伝性の網膜疾患が疑われた場合,筆者らの施設では,既報告の網膜疾患の原因遺伝子74個を解析対象としてTS解析をしている(表2).次世代シークエンサーを用いてTSを行った後,CLCbio社のGenomicsWorkbenchというゲノム解析の専用ソフトウェアを使用して塩基置換を検出する.そして,検出した塩基置換の中から疾患の発症に関与している変異を抽出するために3段階のフィルタリングをかけている(図2)1).一つめは,イントロン領域とノンコーディング領域中に存在する塩基置換のフィルタリングである.二つめは,公共データベースに登録のある,一般人口において高い頻度で検出される塩基置換のフィルタリングである.三つめは塩基置換が起こっても同じアミノ酸がコードされる変異(同義置換)のフィルタリングである.要は,メンデル遺伝性疾患の多くに関連している蛋白コーディング領域以外の塩基置換を除外している.また,疾患に関与し(7)あたらしい眼科Vol.34,No.7,2017923表274個の解析対象遺伝子常染色体優性網膜色素変性症BEST1CA4CRXFSCN2GUCA1BIMPDH1KLHL7NR2E3NRLPRPF3PRPF6PRPF8PRPF31PRPH2RDH12RHOROM1RP1RP9RPE65SEMA4ASNRNP200TOPORS常染色体劣性網膜色素変性症ABCA4CERKLDHDDSIDH3BMERTKPDE6ARBP3RPE65USH2AARL2BPCLRN1EMC1IMPG2MVKPDE6BRGRSAGZNF513BEST1CNGA1EYSKIAA1549NEK2PDE6GRHOSPATA7C2orf71CNGB1FAM161ALRATNR2E3PRCDRLBP1TTC8C8orf37CRB1GPR125MAKNRLPROM1RP1TULP1X連鎖性網膜色素変性症OFD1RP2RPGR常染色体優性レーバー先天盲CRXIMPDH1OTX2常染色体劣性レーバー先天盲AIPL1CABP4CEP290CRB1CRXGUCY2DIQCB1KCNJ13LCA5LRATRD3RDH12RPE65RPGRIP1SPATA7TULP1DTHD1NMNAT1抽出した疾患原因の変異候補図2検出された塩基置換から変異を抽出するためのフィルタリング過程ソフトウェアから自動検出された塩基置換に対して独自に設定した3段階のフィルタリングを用いることで,疾患に関与している可能性が高い変異を絞り込んでいる.(文献1を参照して作成)表3レーバー先天盲患者における疾患原因変異候補遺伝子塩基置換アミノ酸置換公共データベース*DTHD1c.486G>Ap.K162K(同義置換)登録なしGUCY2Dc.2113+2_2113+3insT登録なしGUCY2Dc.2714T>Cp.L905P(非同義置換)登録なし*1,000Genomes(http://www.internationalgenome.org),HGVD(http://www.hgvd.genome.med.kyoto-u.ac.jp).aヘテロ接合体bホモ接合体c複合ヘテロ接合体図3遺伝子異常の種類a:ヘテロ接合体.片側アレル(用語解説参照)のみに遺伝子異常を認める.b:ホモ接合体.両側のアレルに同じ種類の遺伝子異常を認める.c:複合ヘテロ接合体.遺伝子異常を両側のアレルに認めるが,遺伝子異常は異なる.○と×はそれぞれ異なった遺伝子異常を示す.I-1I-2M1/+M2/+II-1II-2M1/M2M1/M2M1:c.2038C>TM2:c.1898delC図4Hermansky.Pudlaksyndrome患者の家系図と遺伝子変異Hermansky.Pudlaksyndromeは通常,常染色体劣性遺伝の形式をとる.発症者はHPS6遺伝子にc.2038C>Tとc.1898delCを複合ヘテロ接合体(M1/M2)で有しているため発症しうるが,非発症者である両親はそれぞれをヘテロ接合体(M1/+またはM2/+)として有しているため発症しない.矢印は発端者,□は非発症男性,〇は非発症女性,●は発症女性を示している.(文献2を参照して作成)a正常な塩基配列アミノ酸配列bミスセンス変異アミノ酸配列ナンセンス変異アミノ酸配列dフレームシフト変異アミノ酸配列…GAGTTCAAGTATGGAATCCAG……EFKYGIQ……GAGTTCAACTATGGAATCCAG……EFNYGIQ……GAGTTCAAGTAAGGAATCCAG……EFK終止…GAGTTCAAGCTATGGAATCCAG……EFKLWNP…図5さまざまな変異の種類a:正常な塩基配列.DNAは三つの塩基配列で一つのコドンを形成してアミノ酸をコードしている.コドンによって翻訳されるアミノ酸は異なる.b:ミスセンス変異.異なるアミノ酸へ変化する.たとえばAAG(リシン)がAAC(アスパラギン)に変化する.c:ナンセンス変異.変異部位で終止コードに変化する.たとえばTAT(チロシン)がTAA(終止コード)に変化する.終止コードよりも下流ではアミノ酸は生成されない.d:フレームシフト変異.塩基配列が欠失したり挿入したりすることで,コドンの読み枠がずれるため,翻訳されるアミノ酸配列が変化する.たとえばGとTの間にCが挿入することで,TAT(チロシン)がCTA(ロイシン)に変化し,下流に翻訳されるアミノ酸配列も変化する.E:グルタミン酸,F:フェニルアラニン,G:グリシン,I:イソロイシン,K:リシン,L:ロイシン,N:アスパラギン,P:プロリン,Q:グルタミン,W:トリプトファン,Y:チロシン.■用語解説■シークエンシング:遺伝子の塩基配列を読むこと.シークエンサー:遺伝子の塩基配列を読み取る機器のこと.一塩基多型(singlenucleotidepolymorphism:SNP):塩基配列において,一つの塩基が別の塩基に置換されているもので,約1,000塩基対に1個の割合で存在する.疾患感受性遺伝子:遺伝的な要因と,食事や運動などの環境的な要因が合わさって発症するとされる多因子疾患の発症にかかわる遺伝子のこと.糖尿病や加齢黄斑変性症などが代表的な多因子疾患である.エキソン:ゲノムのうち1~2%の蛋白質をコードする領域のことで,遺伝性疾患の多くがエキソン領域の変異により引き起こされると推定されている.アレル:対になった遺伝子のことで,同じ遺伝子座に位置する.対立遺伝子ともいう.多くの真核生物は,それぞれの遺伝子座に2個の遺伝子をもっている.