1. HOME
  2. ブログ
  3. 環境と生活
  4. 人工知能によって私たちのDNAの謎は理解できるのか?

人工知能によって私たちのDNAの謎は理解できるのか?

    昨年(2024年)のノーベル化学賞は、遺伝子DNAに書かれたタンパク質のアミノ酸の並び方だけからAIを持ちいてタンパク質分子の立体構造を予測するコンピュータープログラムの開発に授与された。タンパク質の立体構造を知ることは、タンパク質が働く仕組みや薬物を開発するために最も大切なことで、アミノ酸の並び方によってそれぞれの立体構造は全く異なる。アミノ酸の並び方はDNAの構造に内蔵されているが、アミノ酸の並び方と立体構造の関係は長い研究にもかかわらず、わからなかった。Google 社のAI研究グループがアミノ酸の並び方(DNA)から立体構造を予測することに初めて成功したのである(本HP 新着情報 2024年12月28日参照)。同じGoogle社の別の研究グループは、先月にはDNA上のアミノ酸の並び方を指定する部分を除く部分の構造を解析するプログラムを創出したことを、発表した。マスコミは、この新規開発プログラムを用いて新しい生命の情報の指令書を設計できるのではないかと、報じている。

  それでは今回新しく解明されたDNAの構造とはなにか、またそれをもとに何ができるのか、簡単に紹介したい。実際の論文(科学雑誌掲載前段階のプレプリント, Zeiga Avsec et al., Alpha genome: advancing regulatory variant effect prediction, (2025) Google)を読むとかなり難解で理解するのが難しい。そこで、この論文に書かれた内容を理解するための手がかりとなることを簡単にここで紹介したい。

  私たち人間が生物として生きる上で必要となる根源的な情報は、親のDNAにあり、親のDNAを複製して情報を受け継いでいる。だから子供は親に似る。DNAはヌクレオチドという基本単位物質が30億個繋がった糸状(または鎖状)構造をしている。この糸(鎖)のDNAは、私たちの父親の精子と母親の卵子から半分ずつもらって受精卵の中で一組となったもので、これが増殖したほぼ全ての細胞(60兆)の核の中に収められている。このDNAから各タンパク質を作るために糸上のRNAという分子が複製され(転写という)、細胞内のリボソームにRNAは移動しそこでアミノ酸がRNAのアミノ酸配列情報をもとに繋がってタンパク質ができる(翻訳という)。

図1 遺伝子の情報の流れ、DNAからタンパク質のアミノ酸の配列が決まる。

  ここで、解明されていない問題が大きく2つある。一つ目の問題は、DNAのおよそ1割がアミノ酸の並び方を指令するのに使われているのに対し、残りの9割はまだその役割がよくわからないことがある点である。もう一つは、私たちを構成する細胞は60兆もあり、それぞれが特有のタンパク質を持って異なる働きをしている。例えば、目の網膜の細胞には、外から来た光を受け取るロドプシンという必須タンパク質がある。ロドプシンの中のオプシンというタンパク質部分が網膜では多量につくられるが、脳の神経細胞ではオプシンはつくられず、別の神経の働きに必要なタンパク質がつくられる。また、生まれたての子供と大人では身長が伸びるスピードは違うがそれはDNAを元にタンパク質を作る速度が違うことによる。このように、DNAに書かれた情報は細胞の必要に応じて違うタンパク質として読み取られ、その速度も違う。一体どのように調節されているのだろうか。

図2 遺伝子のアミノ酸配列を指定する読み枠の前にある転写制御因子の結合部位

  DNAの情報のコピーであるRNAは、DNAを元にして酵素によってつくられる。この酵素(RNAポリメラーゼ)がDNAに結合するには、DNAの特別なヌクレオチド配列を必要とする。この配列にポリメラーゼ以外にさらに結合を調節する別のタンパク質が結合して始めてコピー配列の合成が始まる。このように、コピーRNAがつくられる調節はDNAの特別な配列とそれに結合するタンパク質が関わっている点が重要である。また、この調節には細胞が生まれた時からの時間変化にともなうタンパク質のできる順番も深く関わっている。こうしたRNA合成の調節に関わるDNAの構造は、アミノ酸の配列を指定する部分以外のところにある。そのほとんどは最初に述べたDNAの9割の部分にある。この部分にある遺伝子転写調節の仕組みはまだすべてわかったわけではない。特に重要なことは、この部分からはDNAのコピーであるRNAができる場合があり、こうしたRNAがタンパク質の合成に使われるのではなく、別のタンパク質の配列を指令するmRNAに結合しその合成を抑えるのに使われたりすることである。

   DNAのコピーRNAを作る段階での調節には、もう一つ特別な仕組みがある。スプライシングと呼ばれる機構である。DNAの複製コピーであるRNAはヒトの細胞内では合成直後は最終的な長さではなく、より長い総延長の前段階RNA(前駆体RNA)ができる。さらにこの長い前駆体RNAは、RNA内の離れた位置の部分同士が結合し、はみ出たものがくびれ切られる。これをスプライシングという。くびれ切られる離れた位置のRNAの部分同士の結合には法則性があり、DNAのヌクレオチド配列にその情報は内在している。現在わかっている細胞内のタンパク質の種類の数以上に、実際にできてくるタンパク質の種類は多いことが推定されており、これはスプライシングにより一つの遺伝子から複数のタンパク質ができるからとされている。まだその全体の数は明らかではない。これを解明するにはDNAの構造に新しいスプライシングに関わるヌクレオチド配列を明らかになる必要がある。なお、スプライシングにもくびれ切られの部分に結合するタンパク質が関与することが知られている。

図3 スプラシングのモデル図、 スプラシングの位置の情報はAIを使った新たなプログラムで新たにわかったことが多い。(Avsec博士らの論文で示された)

   ここまでDNAのコピー分子を作るうえでの調節(転写調節、スプライシング調節など)には、DNAの特別な構造に特別なタンパク質が結合することが大切であることに触れた。こうした配列を解析するには、まずヒトでは30億塩基配列をすべて覚えることや、細胞ごとの微妙なDNAの配列の違い、さらには細胞のガン化におけるDNAの配列の変化を異なるもの同士で比較することなどが必須になる。これは、ヒトの脳ではできなくてコンピューターの力を借りなければ不可能である。

  今回発表されたアルファゲノムという論文では、ヒトの培養細胞2種のDNAをスーパーコンピュータに覚えさせ、さらにこれらの細胞を人為的に変化させた場合に起こる細胞の状態や、DNAの変化と病状が記録された情報を同じようにコンピューターに覚えさせている。

研究者の手元にある細胞、例えばがん細胞のDNAの配列を一部でも決め、このプログラムに入力しアルファゲノムで解析するとこの細胞の遺伝子の発現に必要な特徴を見抜き、分子生物学的な実験をしなくても病状の予測などができる。また、手元の細胞を解析し遺伝子の発現がプログラムの予測通りなら、プログラムの妥当性やさらにはプログラムの発見したことが新しい分子生物学的発見ということになる。こうしたことを総合し全く人工的に機能する細胞作るのに必要なDNAを設計できるかもしれないという。