10月16日,北京华大生命科学研究院最新成果以封面文章形式发表于《细胞》子刊《细胞系统》(Cell Systems)。该成果介绍了时空转录组去噪算法SpotGF,阐释了这套算法如何识别并过滤噪声基因,有效降低时空组数据中的噪声,并避免新的假阳性信号。
Cell Systems官网截图。
据悉,在理想情况下,基因表达应在其原位被捕获。但在实际操作中,不同细胞类型的差异、实验环境中难以预测的分子热运动、建库过程中的反转录和扩增步骤、数据分析中参数和算法的不当使用等情况都有可能增加噪声或假阳性的信号。因此,开发高效的去噪算法来获取准确的空间转录组数据,对于后续生物学问题的解读至关重要。
据介绍,在此研究中,团队开发了一种名为“SpotGF”的去噪算法,算法基于最优传输理论,定量分析了每个基因表达的扩散程度,从而准确识别并过滤那些因扩散而变得无效的基因。与以往依赖数学统计模型来调整原始基因表达量的去噪方法不同,SpotGF在去除无效基因的同时,保留了有效基因的原始表达,从而避免引入新的假阳性信号,提高了分析的准确性。
读特新闻记者了解到,SpotGF适用于多种生物信息学框架,对比目前被广泛使用的去噪算法如Magic、SpotClean、Sprod等,在各项指标上呈现出更优越的性能。并且,SpotGF显著提升了包括华大自主研发的时空组学技术“Stereo-seq”在内的一系列空间转录组数据的聚类效果,更准确地鉴定出了细胞类型的特征基因。
研究团队表示,这项研究成果为理解复杂生物系统中的基因调控网络、信号传导途径,以及细胞间的相互作用提供了强有力的工具。
据悉,北京华大生命科学研究院2021级国科大直博生杜琳为论文的第一作者,北京华大生命科学研究院的孙海汐和张博涵为论文的共同通讯作者。该研究得到了国家重点研发计划的资助。该研究依托深圳国家基因库完成全部生物信息学数据分析,原始测序数据存储于国家基因库序列归档系统CNSA。
编辑 孔盼成 审读 郭建华 二审 李怡天 三审 高灵灵