学术科研
2025年5月22日,应学院邀请,数据科学系叶鹏和张书聪两位老师在诚信楼832教室就微生物组数据统计推断专题,分享了他们近期最新研究成果。学院全体博士研究生参加了本次论坛。
叶鹏老师报告的题目是“Testing latent classes in microbiome data using beta-binomial regression models”。叶老师从研究背景、研究意义、研究方法等方面进行了详细介绍。在微生物组研究领域,所产生的数据通常涉及操作分类单元计数,往往存在过度离散和零膨胀等问题。此外,不同样本的测序深度也存在差异。针对这种情况,一般可采用zero-inflated beta-binomial model来处理这些问题。但在实际应用中,采用zero-inflated beta-binomial models前,必须确认数据是否存在零膨胀现象,这是因为若数据本不存在零膨胀,这种混合模型可能因不必要的复杂性并且难以解释,甚至可能因模型不适用出现收敛性问题。
通过直接比较观测到的零值数量与beta-binomial regression model预期值,开发了一种新的检验方法,用于检测beta-binomial regression model中因存在结构零的潜在类别所导致的零膨胀现象。建立了闭式检验统计量,并基于估计方程推导出其渐近分布。为评估其有效性,进行了大量模拟研究,并将该检验方法应用于微生物组数据中潜在类别的检测。
张书聪老师汇报的题目是“SVEM: Stochastic Variational EM Algorithm for High Dimensional Multinomial Data”,在讲座中介绍了针对微生物零膨胀计数数据的逻辑正态模型。在微生物测序数据中,由于测序技术的限制,测序深度往往是有限的,这就导致样本内往往不能够包含所有微生物的信息。其次,由于微生物的分布在每个样本内都有很大的不同,这就导致微生物测序数据中,往往会出现过多的零值。为了更精准的估计微生物成分,他们使用了零膨胀逻辑正态模型,引入了遵循多元正态分布的潜变量,经过逻辑变换,假设微生物组成分符合多项分布,来估计微生物成分,零膨胀比例,以及各组成分之间的相关关系。模型参数的求解使用了变分推断,通过最小化KL距离来逼近真实的后验分布,从而将复杂的积分问题转化为优化问题,使得参数估计更加高效,通过重参数化方法和disARM方法降低计算复杂度,提升计算精度,得到了有效估计。
这次报告会是我们学院就某一研究专题邀请老师为同学们开展的第一场学术专题报告会,具有重要的学术价值和实践意义:一方面,两位老师的研究针对微生物组数据分析中的关键难点——零膨胀和过度离散问题,提出了创新性的解决方案,为相关领域研究提供了方法论支持;另一方面,通过变分推断等现代统计学习技术的应用,展示了大数据时代统计建模的前沿发展方向。分享结束后,同学们与两位老师围绕理论方法适用性、遇到的挑战及困难,以及创新点等维度进行了热烈的讨论与探究。这种深度交流不仅启发了研究思路,更为博士生提供了接触学科前沿的机会,对提升博士生的科研创新能力具有积极作用。