彼らは私たちの細胞内の最初の遺伝子マップを開発します

生物学には、正確に答えようとするまでは簡単そうに見える質問があります。遺伝子は正確に何をするのでしょうか?何十年にもわたって、その答えは断片的でした。それぞれの遺伝子、機能。それぞれの機能、実験。しかし 細胞の中では、現実ははるかに秩序が失われています。遺伝子は単独で機能するわけではなく、単一のスクリプトに従っているわけでもありません。 それらは、状況に応じて役割を組織し、結合し、変更します。彼らは単なる断片ではなく、継続的に書き直される作品の俳優です。

Patterns に掲載され、マウント・サイナイのアイカーン医科大学の科学者が主導した研究は、この問題に対処する根本的に異なる方法を提案しています。遺伝子を一つ一つ分析するのではなく、 それらがどのように連携するかを学習できる人工知能モデルを開発しました。その結果は、細胞内の遺伝子の機能的な「地図」を構築する最初の試みと言えるものです。

このツールは GSFM (Gene Set Foundation Model の頭字語) と呼ばれ、インターネット上で無料で入手でき、言語の世界から借用したアイデアに基づいています。 ChatGPT のようなモデルは単語を単独で理解するのではなく、単語が出現する文に基づいて理解します。。経済についての会話での「銀行」は、公園についての会話での意味と同じ意味ではありません。意味は文脈から生まれます。同様のことが遺伝子でも起こります。

「遺伝子が単独で行動することはめったにありません – 研究リーダーのアヴィ・マアヤン氏は言います – それらは複数の生物学的プロセスに参加し、活動する場所と時期に応じて異なるグループを形成します。 単語がフレーズに応じて意味を変えるのと同じように、同じ遺伝子でも文脈に応じて異なる役割を果たすことができます。「そしてGSFMの提案は、まさにその背景を学ぶことです。

これを達成するために、Ma’ayan チームは 科学的研究と遺伝子発現データベースから何百万もの「遺伝子セット」を編集。これらのセットのそれぞれは、特定の状態、疾患、または生物学的プロセスにおいてどの遺伝子が一緒に現れるかという、一種のスナップショットを表します。遺伝子がどれだけ強く発現されるかに焦点を当てるのではなく(古典的なアプローチ)、モデルはその遺伝子が誰とともに現れるかというコンテキストに注目します。

トレーニングはデータを暗記するというよりも、パズルを解くことに似ています。システムには一連の遺伝子の一部が示され、どの遺伝子が欠落しているかを推測するよう求められます。 このプロセスを何百万回も繰り返すことで、人工知能が隠れたパターンを発見できるようになります。: どの遺伝子が通常連携するのか、どの遺伝子が同様の状況で現れるのか、どの組み合わせが生物学的に意味があるのか​​。

時間の経過とともに、モデルはそれらの関係の内部表現を構築します。静的なリストではなく、関連付けの動的なネットワークです。そこで登場するのが「地図」です。 実際には、これは物理的な地図でも、細胞内部の特定の画像でもありません。参照フレームです。各遺伝子を他の遺伝子との関係で配置し、さまざまな状況でどのような役割を果たすことができるかを理解する方法。そしてその影響は深い。

最も直接的な用途の 1 つは、私たちがほとんど知らない遺伝子に光を当てることです。 ある遺伝子が、炎症や細胞増殖などの特定のプロセスに関与する他の遺伝子とともに体系的に出現する場合、モデルは、最初の実験を必要とせずに、その可能な関数を推測できます。これは研究室に代わるものではありませんが、どこを見るべきかを示します。

また、疾患に関与する遺伝子を特定したり、新しい治療標的を示唆したり、これまで解読が困難であった大量の生物学的データを再解釈したりすることも可能になります。複雑さが支配する分野では、 その情報を整理するシステムがあれば、決定的な違いが生まれます。

おそらく、このモデルの最も顕著な側面の 1 つは、発見を予測する能力です。実施されたテストでは、 GSFM は、特定の日付までに公開されたデータを使用してトレーニングされました そして、その後の研究でのみ確認される関係性を予測する能力を評価しました。多くの場合、彼は正しかった。

それは彼が答えを「知っていた」からではなく、システムのルールを直観できるほど十分に学んでいたからです。そのニュアンスが重要です。 このタイプの人工知能は、古典的な意味での新しい法則を発見することはありませんが、データの蓄積に隠されていたパターンを明らかにします。 それはスケールから生まれる知識の形です。

概念的な変化も関係しています。これまで、計算生物学における多くのモデルは、遺伝子発現データ、つまり特定の条件下で遺伝子がどの程度活性化されるかに基づいていました。 GSFM は、あまり活用されていないものの非常に豊富な情報源である遺伝子セットに焦点を当てることで、異なる視点を導入しています。機能的な関係を直接捉えているからです。

長期的には、Ma’ayan のチームは、このシステムを他の人工知能モデルと統合することを構想しています。例えば、 それを言語モデルと組み合わせて、遺伝的機能の理解可能な説明を生成します、または薬物が細胞とどのように相互作用するかを予測できる薬理学的モデルを使用します。根底にあるアイデアは、生物学的システムの理解と操作において協力する人工知能の一種の「エコシステム」を構築することです。

その重要性にもかかわらず、それが決定的または完全な地図ではないことを認識しなければなりません。 これは入手可能なデータから構築された最初の近似値であり、その有用性は実験作業とどのように統合されるかによって異なります。 しかし、出発点としては、明確な方向性を示しています。

生物学は長い間、複雑なシステムをより小さな部分に分解することによって進歩してきました。今、彼は逆の道、つまり全体を再構築し始めています。 遺伝子が単語だとすると、このモデルは文章を理解し始めます。 そして、孤立したものからつながりのあるものへというそのステップが、人生が実際にどのように機能するかを理解するための鍵の 1 つになるかもしれません。…そして、より正確にそれに介入する方法。