NGS的竞争已经不言自明了,随着玩家越来越多,正面PK也越来越常见了。这其中,由于高通量测序仪大多针对大样本量的重点核心客户,每台仪器每年所能拉动的耗材营收蔚为可观,因此超高通量的竞争尤为激烈。Illumina称U ...
| NGS的竞争已经不言自明了,随着玩家越来越多,正面PK也越来越常见了。这其中,由于高通量测序仪大多针对大样本量的重点核心客户,每台仪器每年所能拉动的耗材营收蔚为可观,因此超高通量的竞争尤为激烈。 Illumina称Ultima的测序质量欠佳 2025年10月7日,行业领头羊Illumina在其官网上发表了自家旗舰机NovaSeq X针对竞争对手Ultima Genomics UG 100平台的benchmark(全面基准测试)。 Illumina作为测序行业的传统领导者,这似乎也是破天荒第一次在官方渠道发布针对竞争对手的内部测评和性能对比报告。这无疑是在向外界透露出自己对于UG 100正在崛起的竞争威胁的重视程度,但同时也暗示了高通量测序市场竞争的白热化。 Illumina最终得出结论:NovaSeq X的测序质量要优于UG100平台。 报告指出,Illumina在测量全基因组测序(WGS)准确性时,使用了完整的NIST v4.2.1基准(涵盖所有基因组区域),而Ultima Genomics则使用自定义的“高置信区域”(HCR),排除了4.2%的基因组(包括高GC区域、重复序列和长于12个碱基的同聚物区域),这种排除策略掩盖了UG100在难点区域的性能短板。 具体数据显示,与NovaSeq X系列相比,UG100平台在SNV(单核苷酸变异)错误上多出6倍,在Indel(插入/缺失)错误上多出22倍(基于完整NIST基准)。例如,在Homopolymer区域,UG100的Indel准确性随同聚物长度增加而显著下降,而NovaSeq X则保持稳定。此外,UG100的HCR排除了793个基因中的致病性变异,限制了其在疾病相关基因分析中的完整性。Illumina借此强调,NovaSeq X系列提供了更全面、高精度的基因组覆盖,而UG100通过“掩码”难点区域虚标性能。 谷歌的研究提示MGI/CG更胜一筹 在罗氏的Axelios测序平台等其他高通量测序系统还没有完全进入市场之前,高通量测序仪市场目前是三强争霸的局面:Illumina的NovaSeq X系列、Ultima Genomics的UG100,以及华大智造MGI/Complete Genomics的T系列(如DNBSEQ-T1+/T7+/T7/T20等)。 三个平台所采用的测序原理各不相同,但这些平台均以“Tb级别数据产出”和“年处理上万个WGS样本”为卖点,推动行业进入高效生产阶段。 就在Illumina与Ultima争得不可开交的时候,发生了一个有意思的事情... 在最近结束的2025年美国人类遗传学学会(ASHG)年会上,谷歌旗下的谷歌研究院(Google Research)团队发表报告,其针对Complete Genomics的T1+测序数据优化了DeepVariant算法,并与Illumina NovaSeq X和Element AVITI平台的数据进行基准对比。结果提示,基于MGI/CG平台数据训练的专项DeepVariant模型,在变异检测精度上全面超越了Illumina平台。 Illumina说自己的测序质量比Ultima好,谷歌又称MGI/CG的数据比Illumina的还要好。这两件事情联系起来看,似乎三家的名次好坏一下子就明了了... 这不,SOPHiA GENETICS的CEO Jurgi Camblong直接在Alex Dickinson在领英发布的观点中评论指出,当前测序平台的PK不应该漏提 MGI。 补充三家PK的一些重要背景 在正式分析谷歌的这份研究报告之前,我们先来了解一些行业背景。基于已有变异参考集(也就是所谓的真值集)进行变异检测精度评估,借此来评估各测序仪厂商和分析软件服务商在其测序数据质量和分析算法方面的能力,这已经成为行业的一种常见做法。 不同基准测试所使用的真值集却不太一样,如可能是GIAB(Genome-In-A-Bottle)NIST v4.2.1,或者是HG002 T2T-Q100-v1.1,或者是Platinum Pedigree等。由于这些参考集中所包含的变异不尽相同,因此与不同真值集对比所得到的结果也会有不小差异。 在Illumina NovaSeq X针对UG100的对比中,两者都是使用瓶中基因组HG002样本,针对NIST v4.2.1真值集进行基准测试。Illumina在 NovaSeq X Plus系统上使用10B 试剂盒产生了WGS数据,使用自己的DRAGEN v4.3 进行了二级分析。数据包含重复序列,并下采样至 35x覆盖深度。而Ultima Genomics 的 WGS 数据来源于一个以变异检出格式 (VCF) 发布的公开数据集,该数据集在 UG 100 平台上生成,覆盖深度为 40x,不包括重复序列,并使用针对 Ultima Genomics数据优化的的 DeepVariant 软件进行了分析。 说回到谷歌和DeepVariant。 谷歌研究院是谷歌面向公众的科研成果门户,致力于开展计算机科学及相关领域的基础研究和应用研究,推动前沿技术发展,提供对未来科技的深入洞察。他们其中一个小型研究团队早在2015年就开始了一些基础研究工作,将深度学习应用于各种基因组测序挑战,使其更快、更准确、更高效。他们在2016 年赢得了 PrecisionFDA Truth Challenge 挑战赛,在2018年公开发布了这款基于深度学习的变异识别工具 DeepVariant,随后便开启了其在基因组学领域长达十年的探索之旅,陆续开发并发表了一系列应用于基因组学的相关算法和工具。本质上,谷歌在DeepVariant上的开发和持续优化是不带功利性质的,于是谷歌基于DeepVariant所进行的对比研究也代表了一种客观的第三方视角。 DeepVariant的开发借鉴了谷歌在图像识别方面的经验,将数据可视化与深度学习相融合,采用卷积神经网络(CNN)推理来实现从NGS数据中调用遗传变异。 其工作流程首先从BAM文件中的读取对齐数据中识别候选变异位点,然后生成以这些位点为中心的堆叠图像(pileup images),每个图像宽度为221 bp,并显示诸如碱基质量、映射质量、读取链方向等特征。这些图像被输入到CNN模型中,模型将每个候选位点分类为不同的基因型,例如参考型、杂合变异或纯合替代变异。在实现方式上,DeepVariant采用多步骤管道:包括数据预处理以生成图像、使用预训练网络进行模型推理(原始版本基于TensorFlow/Keras框架,而GPU加速版本如NVIDIA Parabricks则集成了TensorRT优化),以及后处理输出VCF文件。 DeepVariant的最新版本v1.9增加了泛基因组感知(pangenome-aware)功能,整合了泛基因组参考图(如人类泛基因组参考联盟HPRC发布的88个单倍型),在pileup图像中同时显示样本读数和泛基因组单倍型对齐信息,使模型能够利用群体遗传先验知识,显著提升在挑战性区域(如同聚物序列和片段重复区域)的检测准确性。 还有一个问题是,为什么还会有专项优化的算法? DeepVariant将变异检出视为一个图像分类问题,但其初始开发侧重于使用 Illumina 短读长WGS数据。但事实上,不同测序平台所产出的错误模式、读长及测序特征都不太一样,针对不同的测序平台进行优化,实际上就是针对每种技术的特定数据和特征重新训练其深度神经网络,都是基于每个平台的高质量参考数据进行重新训练,这有助于进一步降低变异检出的错误率。 在过往的开发实践中,DeepVariant针对新的如Element、Ultima等平台产出的数据都进行了专项优化,这显著提升了准确性,确保了模型跨平台及在不同样本中的鲁棒性和泛化能力。例如,针对Element数据训练所产生的泛基因组感知DeepVariant v1.9实现了对于Novaseq +DRAGEN v4.3精度的超越。 来看谷歌的基准对比结果 了解了上面这些背景,我们就可以来看谷歌研究院在ASHG上对于Illumina和MGI/CG数据的对比。 在谷歌研究院的对比研究中,使用了DNBSEQ-T1+、Illumina NovaSeq、Element AVITI 三大平台的GIAB HG002人基因组数据,结合常规(基于Novaseq和Element训练的模型)及专项训练(基于T1+训练的模型)的DeepVariant 模型,从 SNP、Indel的检测准确性、错检位点数量等维度展开全面评估(这里使用的是最新的T2T-Q100真值集做对比)。 针对Illumina和Element所使用的都是最新版的DeepVariant v1.9,针对Complete Genomics T1+产出的数据,DeepVariant v1.9进行了专项优化,产出了这里所提到的专项DeepVariant模型。 结果显示,如果使用DeepVariant v1.9进行三个平台产出数据的分析对比,MGI/CG平台已经能够产生高质量数据,包括SNP、Indel、Homopolymer、片段重复等维度的对比上,MGI/CG平台已经显示出了优于Illumina平台的特点,其中SNP和Indel的总错误数量已经明显低于Illumina NovaSeq的数据。 更进一步地,如果基于MGI/CG的高质量测序数据训练的专项DeepVariant模型,在变异检测精度上,CG全面超越了Illumina(甚至在谷歌展示的SNP/Indel总错误数上也优于了Element平台)。例如: 
 谷歌还通过案例证明,CG能检测出Illumina NovaSeq遗漏的变异位点(如Homopolymer区域中的4bp缺失、7bp及2bp插入),印证其在复杂区域的覆盖能力和真实生物学信号的捕捉能力。Homopolymer区域的高准确性可减少因测序错误导致的变异误判,对癌症基因组、复杂疾病相关基因的精细分析具有重要价值。 总体上来看,针对 T1 + 测序数据专项训练的 DeepVariant 模型可进一步优化变异检测性能,使精确率、F1 值提升,错检位点减少,这验证了 “平台 + 定制模型”组合的增效作用,但本质上反应了DNBSEQ技术底层在准确率/低错检率等方面的优势。 这一结果不只是谷歌持续更新完善了他们的DeepVariant研究成果,也为全球用户选择高效、可靠的测序平台提供了关键数据参考,更预示着MGI作为测序仪厂商多强争霸中的中国独苗,可以正面这场对于行业检测精度的竞争并处于不错的优势地位。 对行业发展的启示 事实上,出于各种各样的原因或限制,我们很难有一个完全公平、客观、科学的方式对不同的方法学进行全面对比。不过有一点已经不需要更多证明了,那就是高通量测序平台的竞争已进入“AI驱动、平台优化”的双螺旋时代。不管是华大智造T系列测序仪+CG专项优化算法,还是Illumina NovaSeq X +DRAGEN,这些结果都印证了“平台+定制模型”的独特价值,针对自己的测序平台进行变异识别算法的优化对于提升测序平台的准确性将大有裨益,这或许也将会成为未来NGS开发的一大趋势。 Illumina对Ultima的全面基准测试揭示了全面数据质量的重要性,但关于“谁更好”的争论可能会衍生出不同的维度,也永远不会有正确答案。 再例如,在高通量测序仪同样备受关注的成本维度上,虽然Ultima与华大智造都官宣过能够实现低于100美元的单个人类全基因组测序,但据行业内消息,华大智造T系列的实际成交价和UG100比起来仍然具有一定竞争优势。 对于用户来说,最终还是应当回到具体需求进行平台的选择,应保持关注、独立评估,既要关注准确性又要关注其实施成本、既要关注测序质量又要考虑灵活性,需要全面评估应用场景和使用目的,在预算范围和实际数据产出要求等多种权衡下做出最佳有效选择。 从华大智造与谷歌的合作互动和所提示对比结果来看,全新的T1+/T7+等高通量测序平台无疑为行业注入了活力。华大智造再次证明了DNBSEQ技术完全具备参与全球竞争的实力,幸运的是,DeepVariant的加持让MGI/CG的品牌更具影响力,为全球用户提供了一个高质量且兼具性价比的选择。 来源:我是建设者 |