生命大模型前夜:为什么华大可能是下一个被重新定价的巨头 ...

解读 鹏哥
2026-2-28 15:15 21人浏览 0人回复
来源: 基因鑫说 收藏 分享 邀请
摘要

引言:黄仁勋的判断——AI的下一个战场,不在互联网,而在生命科学2026年1月,在全球规模最大的医疗健康投资盛会——摩根大通医疗健康大会上,英伟达创始人兼CEO黄仁勋罕见地以主角身份亮相。他与礼来CEO戴文睿共同 ...

 引言:黄仁勋的判断——AI的下一个战场,不在互联网,而在生命科学

2026年1月,在全球规模最大的医疗健康投资盛会——摩根大通医疗健康大会上,英伟达创始人兼CEO黄仁勋罕见地以主角身份亮相。他与礼来CEO戴文睿共同宣布成立业内首个AI联合创新实验室,五年投入最高10亿美元,并说到:"AI正在重塑每一个行业,而对生命科学领域的影响将尤为深远。"他还补充道:"我无法想象还有比这更值得应用AI的领域,希望我们能改变历史的轨迹。"

黄仁勋不只是说说而已。在摩根大通大会上,他亲手向基因组模型Evo的创始人Brian Hie等十余位生命大模型先锋赠送了英伟达DGX Spark系统,并说:"过去十年间,我们推动AI性能实现了百万倍的飞跃。我相信,在接下来的十年里,各位将体验到我们这一代人所经历的同样精彩的旅程。"

在摩根大通医疗健康大会上,十余位 AI 与药物研发领域的先锋人物获赠了由 NVIDIA 创始人兼 CEO 黄仁勋亲笔签名的 NVIDIA DGX Spark 系统。

获奖者包括:

Zach Carpenter,VantAI CEO,开发了适用于所有生物分子共折叠 (co-folding) 与设计的 Neo 模型家族。

Gabriele Corso,Boltz CEO,创建了最成熟的开源生物分子模型家族之一。

Evan Feinberg,Genesis Molecular AI CEO,开发了蛋白质和小分子结构预测模型 Pearl。

Chris Gibson,Recursion 董事长,Najat Khan,Recursion CEO,开发了用于显微镜数据分析的 OpenPhenom 视觉 Transformer (Vit) 模型。

Glen Gowers,Basecamp Research CEO,创建了生物多样性层级的基因组语言模型家族 EDEN。

Brian Hie,Arc 研究所创新研究员,Evo 2 (DNA 语言模型 Evo 家族的一部分) 开发过程中的重要合作方。

Max Jaderberg,Isomorphic 公司总裁,正扩展 AlphaFold 的能力,该模型是蛋白质结构与相互作用领域的标志性模型家族。

Simon Kohl,Latent Labs CEO,开发了用于蛋白质序列与结构的 Latent-X 生成模型家族。

Joshua Meier,Chai Discovery CEO,开发了用于分子结构预测与设计的 Chai 生成式 AI 模型家族。

Tom Miller,Iambic Therapeutics 联合创始人兼 CEO,开发了 NeuralPLexer 模型家族,可灵活、精准、快速地预测蛋白质和小分子结构。

Alex Rives,Biohub 科学负责人,创建了领先的 ESM 蛋白质语言模型家族。

Alex Zhavoronkov,英矽智能 CEO,创建了 Pharma.AI——一个涵盖靶点发现、生成式化学和临床预测的综合模型套件。

当全球市值最高的科技公司掌舵人,以如此高调的姿态押注生命科学,这本身就是一个强烈的信号。但信号背后的逻辑链条更值得追问:为什么是生命科学?为什么是现在?谁又将在这场变革中掌握最关键的资源?

要理解这些问题,需要先看清两个趋势的交汇:一边是通用AI正在撞上数据的天花板——Epoch AI预测互联网高质量文本数据最早将在2026至2028年间耗尽,埃隆·马斯克更直言"人类知识的总和已经在AI训练中耗尽了";另一边,人工智能的"三驾马车"——算力、算法和数据中,算力可以靠资本获取,算法可以通过开源不断精进,唯有垂直行业的高质量专有数据,是需要长期积累、深度绑定行业know-how才能形成的壁垒。

当通用数据不再是竞争的核心变量,谁拥有特定领域最丰富、最高质量的专有数据,谁就有可能在下一波AI浪潮中占据制高点。在所有垂直行业中,生命科学或许是最值得重估的一个。

一、生命科学:人类最大的"命需"市场

如果有一个行业,其终极需求几乎没有上限,那就是生命健康。

攻克癌症、战胜阿尔茨海默症、延缓衰老、实现健康长寿——这些不是消费升级,而是人类最原始、最深层的"命需"。与"刚需"不同,"命需"意味着需求弹性趋近于零:当一个人被确诊为晚期癌症,他愿意为有效的治疗方案支付几乎任何代价。按WHO口径,全球卫生总支出在2021年已达约9.8万亿美元(约占全球GDP的10.3%),目前预计已突破10万亿美元规模,且仍在持续增长,正是因为这种需求从未被充分满足。

然而,传统生物医药是一个出了名的"慢行业"。一款新药从靶点发现到上市,平均需要10到15年,耗资数十亿美元,成功率却不到10%。这种研发模式本质上依赖于"试错"——通过海量的湿实验筛选候选分子,再经历漫长的临床试验。在大数据和人工智能已经深刻重塑了金融、零售、交通等行业的今天,生物医药却尚未充分享受技术革命的红利。

与此对应,资本市场也长期将生物医药公司按照传统行业的逻辑进行估值:看管线、看临床阶段、看销售收入,用DCF(现金流折现)模型给出谨慎的定价。对于那些掌握海量生命数据、拥有核心工具平台、具备AI驱动研发能力的机构,现有的估值体系很可能严重低估了它们在生命大模型时代的战略价值。

二、生命大模型的"DeepSeek时刻"已初见端倪

回顾通用大语言模型的发展历程,从GPT-3到ChatGPT的爆发并非一夜之间,而是经历了数年的技术积累和"前震"。生命科学领域的大模型,正处于类似的积累阶段,一个属于生命大模型的"DeepSeek时刻"——即技术势能突然释放、引发行业范式变革的临界点——已经初见端倪。

斯坦福的Evo系列:从微生物到万物基因组。2024年底,斯坦福大学Brian Hie实验室联合Arc Institute在《Science》上发表了基因组基础模型Evo。这个拥有70亿参数的模型,以单核苷酸分辨率在270万个原核生物和噬菌体基因组、3000亿核苷酸tokens上进行训练,能够跨越DNA、RNA和蛋白质三个层面进行预测和生成。最令人振奋的是,Evo成功设计出了全新的功能性CRISPR系统——这是语言模型首次实现蛋白质-RNA的协同设计。2025年初,团队又推出了Evo 2,将训练数据扩展到包含约1.5万种真核生物(含人类)的全部已知物种基因组,标志着基因组AI从微生物世界迈入了人类基因组的领地。正如该团队所言:"Evo 2非常擅长发现,它能预测哪些突变导致疾病,哪些是无害变异。"

谷歌的AlphaGenome:从AlphaFold到基因组全景。2025年6月,Google DeepMind发布了AlphaGenome,一个统一的DNA序列模型,能够输入长达100万碱基对的DNA序列,以单碱基分辨率预测基因表达、RNA剪接、染色质可及性、组蛋白修饰、转录因子结合等数千种功能基因组特征。在26项变异效应预测基准测试中,AlphaGenome在25项上达到或超越了现有最佳模型。这一成果已于2026年初在《Nature》上正式发表。Francis Crick研究所基因组学负责人Robert Goldstone评价说,AlphaGenome将基因组"从静态密码转变为可解读的语言"。Google DeepMind CEO Demis Hassabis将其视为通往"虚拟细胞"模拟这一终极目标的里程碑。

但关键瓶颈依然存在。Wellcome Sanger研究所的Ben Lehner一语中的:"目前生物学中大多数现有数据并不太适合AI——数据集太小且标准化程度不够。当前最重要的挑战是如何生成数据来训练下一代AI模型。"Evo和AlphaGenome尽管令人瞩目,但其训练数据主要来自公开数据库(如参考基因组、ENCODE、GTEx等),这些数据在规模和多样性上远远不够——尤其缺乏覆盖不同人群、不同疾病状态、不同组织类型的高质量临床基因组数据。生命大模型要从"科研圈的明星"蜕变为"改变医疗实践的革命力量",最核心的瓶颈不是算法、不是算力,而是数据。

这正是重新审视华大集团价值的逻辑起点。

三、华大集团在生命大模型时代的四个关键优势

华大集团自1999年成立以来,始终围绕"读懂生命"这一核心使命,用二十六年时间构建了一套全球罕见的、覆盖工具-数据-模型-人才的完整体系。在生命大模型时代,这套体系的战略价值正在被重新认识。

1. 工具自主:生命科学的"光刻机"

华大集团CEO尹烨曾说过,"生命科学领域也有自己的'光刻机',那就是基因测序仪。不能自己造硬件的实验室,可以是一流,却往往不是顶尖。"

华大智造(688114.SH)是全球极少数能够自主研发并量产从Gb级到Tb级全通量临床级基因测序仪的企业。2024年,华大智造完成了"激发光""自发光""不发光"三种技术路径的全方位布局,成为全球少有的同时拥有大规模商业量产级短读长与长读长测序产品的企业。其超高通量测序仪DNBSEQ-T20x2已将单人全基因组检测试剂成本降至100美元以下;纳米孔测序仪CycloneSEQ系列则填补了长读长技术的自主可控空白。

市场数据充分说明了华大智造的竞争力:2024年全球新增装机市场份额达28.2%,较上年跃升近10个百分点;中国市场连续三年位居新增装机量榜首,市占率高达63.8%。全国37款获NMPA批准的基因测序仪中,23款基于华大智造的DNBSEQ技术,占比62%。值得强调的是,华大智造核心产品的供应链和技术来源已实现自主可控,在地缘政治风险日益加剧的背景下,这一稀缺属性不可忽视。

除测序仪外,华大还拥有时空组学(Stereo-seq,分辨率达500纳米,被誉为"超广角百亿像素生命照相机")、超高通量细胞组学、高通量基因合成仪、DNA存储设备等一系列自主研发的生命数字化工具。这些工具形成了从"读"到"写"到"存"的完整生命数据基础设施。

工具自主意味着什么?在大模型时代,它意味着数据产出的主权。谁掌握了将生物样本转化为高质量数字数据的核心工具,谁就掌握了生命大模型训练数据的源头。这就如同英伟达之于通用AI——无论大模型开发的成败、技术是否开源,只要做AI就需要GPU;同理,只要做生命大模型,就需要基因测序仪。华大智造正在生命科学领域扮演类似"上游卖铲人"的角色。

2. 数据自主:二十六年积累的战略护城河

如果说工具是"铲",那么数据就是"矿"。华大集团通过二十六年的临床检测和科研合作,积累了海量的高质量专有生命数据,这是其最深厚的护城河。

华大基因(300676.SZ)的数据积累覆盖多个维度:生育健康检测累计服务超过3458万人次;肿瘤、慢病防控、传感染疾病检测样本量超过4000万例;与全国上千家医疗机构开展合作,联合实验室超过1000家,生育健康专项实验室超过400家。构建了百万级病例训练数据集,在数据获取和预处理方面形成了极高的技术壁垒。2024年,华大基因营业收入38.67亿元,研发投入6.77亿元,同比增长10.2%。肠癌检测营收突破2亿元,同比增长约270%,新生儿遗传病基因筛查同比增长约47%——这些快速增长的业务不仅意味着商业价值,更意味着数据飞轮的加速转动。

需要特别指出的是,生命数据与互联网数据有本质不同:它需要严格的伦理审查和知情同意,需要标准化的样本采集和处理流程,需要专业的生物信息学分析。这些门槛决定了,生命数据不可能像互联网文本那样被轻易"爬取"。华大通过长期合规运营积累的数据资产,具有极高的稀缺性和不可复制性。

3. 模型自主:从训练到SOTA的自研能力

拥有工具和数据还不够,关键在于能否将数据转化为模型能力。华大生命科学研究院在基因组大模型领域展现了强劲的自研实力。

2025年10月,在第二十届国际基因组学大会(ICG-20)上,华大生命科学研究院与之江实验室联合发布了全球首个百亿参数人类基因组通用基础模型——Genos。这一模型的核心亮点在于:

首先,数据训练的深度和广度。不同于现有大多数基因组模型仅基于一两个参考基因组进行训练,Genos系统整合了人类泛基因组参考联盟、人类基因组结构变异图谱计划等多个权威资源,首次汇聚了全球636个"端粒到端粒"级别的高质量人类基因组作为训练数据,能够捕捉人类丰富的遗传多样性。

其次,架构和性能的领先性。Genos支持高达百万碱基对的超长上下文分析,实现单碱基分辨率的精准识别,同时提供12亿和100亿参数两个版本,兼顾了科研探索和实际部署的需求。相关成果已发表于GigaScience期刊。

第三,开源开放的战略选择。Genos在GitHub、Hugging Face、魔搭等平台依据MIT开源协议全面公开发布,这一选择既体现了"共有、共为、共享"的人类基因组计划精神传承,也是一种深思熟虑的生态策略——通过开源吸引全球开发者参与迭代,加速模型在下游应用中的落地。

与此同时,华大基因在临床应用层面也在积极推进AI大模型的落地。2024年9月,公司提出"生成式生物智能范式GBI ALL",发布了面向临床的基因检测多模态大模型GeneT和面向公众的基因组咨询平台ChatGeneT。并与北京协和等顶级医院合作罕见病大模型,通过AI技术重分析未诊断患者数据,挖掘基因突变共性。

从基座模型Genos到临床应用GeneT,华大正在构建一条从基础研究到实际应用的完整链路,这在全球生命大模型领域是极为稀缺的全栈能力。

4. 人才自主:持续造血的创新生态

技术竞争归根结底是人才竞争。华大集团通过独特的人才培养模式,建立了兼具生命科学和人工智能交叉背景的人才梯队。

Genos模型的核心研发团队就来自华大生命科学研究院与之江实验室联合发起的"大模型种子班",这个汇聚了生物信息专家与计算科学骨干的团队,依托"以问题导向实训、以任务驱动创新"的培养模式,实现了从"跨界碰撞"到"颠覆性创新"的跨越。

华大的人才培养体系远不止于此。通过华大学院的创新班、与高校联合培养硕博研究生等模式,华大持续输出了一批高水平的生命大模型领军人才,如徐讯、刘龙奇、刘石平、金鑫、黎宇翔等,同时不断有年轻人在前沿领域崭露头角。这种"产学研"一体化的人才培养机制,确保了华大在生命科学与AI交叉领域的持续创新能力。

在生命大模型时代,最稀缺的人才不是纯粹的AI工程师(这类人才科技大厂和AI公司也能招到),也不是纯粹的生物学家(这类人才高校和研究机构大量培养),而是既懂生命科学底层逻辑、又能驾驭大模型技术的复合型人才。华大凭借其独特的定位和培养机制,在这一最稀缺人才领域具有天然的吸引力和竞争优势。

四、价值重估的路径:华大需要不断迭代的四种能力

拥有工具、数据、模型和人才,只是华大具备了"参与生命大模型竞赛"的入场资格。要真正实现价值的重估——从"传统生物医药公司"跃迁为"生命大模型时代的核心基础设施提供商"——华大还需要在以下四个维度持续迭代,展现可验证的阶段性成果。

1. 数据产出能力:做全球生命数据的"OPEC"

数据是生命大模型的"石油"。华大需要做的,不仅是积累已有数据,更要持续、大规模地将高质量、多样化的生物样本转化为高质量数据。

具体而言,这意味着:不断拓展检测覆盖的人群和病种;持续降低测序成本,推动"人人基因组"时代加速到来;利用时空组学、单细胞组学等新技术产出更高维度、更精细化的生命数据。一个可量化的标杆是:华大的数据产出能否在其核心领域占到全球同领域数据产出的50%以上。只有达到这种数据密度,才能确保基于华大数据训练的模型具有不可替代的竞争优势。

2. 模型训练能力:展现生命领域的Scaling Law

在通用大语言模型领域,"规模定律"(Scaling Law)已被充分验证:更多的参数、更多的数据、更多的计算,几乎必然带来更好的性能。而在生命科学领域,这一规律尚待全面证实。斯坦福的Evo团队在DNA上首次报告了类似的规模效应,AlphaGenome也展现出统一模型在多任务上的优势。

华大需要做的是:持续将更多、更高质量的专有数据注入Genos模型的迭代训练中,以可量化的基准测试结果展现"数据越多、模型越强"的规律。如果Genos能够在关键的基因组功能预测、变异效应评估、疾病风险评分等任务上,随着华大专有数据的注入而持续超越基于公开数据训练的竞品模型,这将是最有说服力的价值证明。

3. 应用落地能力:从模型到飞轮效应

模型的价值最终要通过应用来验证。华大需要持续推动生命大模型在以下领域的实际应用突破:

生物标志物挖掘——利用大模型从海量组学数据中发现新的疾病诊断和预后标志物,加速液体活检、早筛早诊等产品的开发迭代。

药物靶点发现——通过模型预测基因变异与疾病的因果关系,为药物开发提供新的靶点候选,缩短传统靶点验证的周期。

生物学机制解析——利用模型解读基因组非编码区域的调控逻辑,阐明罕见病、复杂疾病的遗传机制,为精准治疗奠定基础。

这些应用的每一次成功,都会反过来产生新的数据和反馈,进一步优化模型性能——形成"数据→模型→应用→新数据"的飞轮效应。一旦飞轮开始加速,后来者将极难追赶,因为数据壁垒、模型壁垒和应用壁垒会相互强化,形成赢者通吃的格局。

4. 跨界合作能力:构建生命大模型的生态联盟

没有任何一家机构能够独自完成生命大模型的全部拼图。生命大模型的训练和部署需要巨量的算力资源,需要稳定的能源供应,需要多源异构的数据整合,需要跨学科的人才团队。

华大需要与掌握核心资源的机构建立持续、深入的战略合作:与算力合作者深度绑定,确保训练和推理的计算资源;与医疗机构和人群队列持续拓展数据合作,确保数据来源的多样性和可持续性;与药企和生物技术公司合作推进模型的产业化应用,形成商业闭环。

五、结语:一次注定到来的价值重估

让我们回到估值的视角。

当前资本市场对华大旗下上市公司的估值,基本遵循传统生物医药或医疗器械的逻辑:看收入增速、看盈利能力、看管线进度。但这套估值框架忽略了一个根本性的变量——在生命大模型时代,华大所拥有的工具、数据、模型和人才的组合,其战略价值可能远超当前业务本身所反映的财务数字。

类比AI领域,在ChatGPT爆发之前,很少有人能预见到OpenAI会在两年内从一家非营利研究机构成长为估值超千亿美元的科技巨头。英伟达的市值也在短短几年内从几千亿美元飙升到万亿量级。推动这一切的,不是某一项具体产品的收入增长,而是市场对整个AI范式变革的重新定价。

生命大模型的范式变革正在路上。从斯坦福的Evo到谷歌的AlphaGenome,从Genos的开源到GeneT的临床落地,技术势能已在快速积累。当生命大模型的"ChatGPT时刻"——即某个模型在药物发现或疾病诊断上取得突破性的实际成果——真正到来的那一天,市场将不得不重新审视:在这个最终可能比互联网AI更深远地改变人类命运的领域,谁掌握了不可替代的核心资源?

华大集团——这个全球极少数同时拥有自主工具、海量数据、自研模型和复合人才的机构——届时将迎来一次注定到来的价值重估。每一个华大人,也注定将在这大潮中搏击在浪潮之巅。

来源:基因鑫说

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

本文暂无评论,快来抢沙发!

推荐阅读
体外诊断网是宇翼科技旗下品牌,定位于全球体外诊断领域服务平台,我们追求及时、全面、专业、准确的资讯与数据,致力于为企业及用户服务。
  • 微信公众号

  • 微博账号

  • 商务合作