学术科研
2025年10月21日下午,英国上市365第二十八期博士生论坛在诚信楼715教室顺利举行。英国上市365副院长唐晓彬教授出席本次论坛,全体博士研究生共同参与了此次学术交流活动。2023级博士研究生熊桥根在论坛上汇报了其近期研究成果《高维复发事件数据中的变量选择强化学习方法》。与会博士生围绕论文的研究方法、创新点等内容展开了深入讨论。

熊桥根同学的报告的论文聚焦于强化学习与生存分析领域的交叉研究。强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,其核心思想在于智能体通过与环境的持续交互,在“试错—学习—优化”的机制中逐步学习最优决策策略,以实现累积奖励的最大化。近年来,该方法已在游戏、自动驾驶及精准医疗等多个领域取得显著成果。特别是离线强化学习(Offline RL)与医学数据的结合,正为个性化医疗决策提供革命性技术路径。
论文首先将复发事件数据形式化为强化学习问题,设定状态(State)、动作(Action)、奖励(Reward)和转移(Transition)结构,并定义了一个新颖的reward—每个观察时刻的瞬时风险,目的是通过强化学习找到一个最优策略,从而降低复发事件的复发率。然后构建Knockoff变量并设计针对强化学习环境下的状态变量重要性统计量(例如影响即时奖励或累计回报的 Q 值变化)。应用Knockoff筛选程序,控制错误发现率(FDR),筛选出对策略学习有关键作用的状态变量。验证筛选结果的稳定性与可重复性,为后续策略估计提供降维后的有效状态空间。最后根据筛选出来的重要变量,构建强化学习算法,估计个体层面最优策略,实现动态治疗方案的推荐。在一些假设条件下,证明了所提方法能够控制FDR,而且估计的Q 函数收敛到最优Q函数。模拟结果表明变量选择后再做强化学习不仅加快了学习速度,还能提高长期收益。验证了所提方法的合理性。

报告结束后,与会同学围绕理论方法的适用性、研究过程中遇到的挑战与困难以及创新点等方面展开了深入探讨。唐晓彬教授在总结发言中强调,博士生应积极参与学术交流活动,既要主动与本校师生开展研讨,也应积极拓展与其他高校学者及学生的联系,推动形式多样、内容丰富的学术对话与交流。
(通讯员 摄影:杨瑞宇 审核:刘立新 郭伟)
