李金艳 杰出教授
Jinyan Li, Distinguished Professor
计算机科学与控制工程学院
持之以恒、深度思考、开明创新
李金艳,国家级海外人才项目获得者,于1991年以来长期致力于机器学习理论、数据挖掘算法、图概念创新以及生物信息学方面的前沿研究。其中包括数据挖掘概念“显露模式”(emerging patterns)的首创及其在基因表达数据问题上成功应用,该成果获得学术界普遍认可和广泛引用。提出了基于封闭模式(closed pattern)的最大二分子图(maximal biclique)高效挖掘新算法、并结合“双疏水假说”(double water exclusion)形成蛋白质相互作用绑定能量位点预测的新算法,进而实现对基因编辑应靶和脱靶效率的精确预测。提出了基于最小生成树(minimum spanning tree)和链式互编码(chain encoding)的融合二代三代测序读长数据纠错和数据压缩算法,显著提升了单细胞、混合细胞测序数据的分析质量。从事科研教学工作以来,共为新加坡国立大学、南洋理工大学以及悉尼科技大学培养了近20名博士学位毕业生。
发表了国际期刊论文148篇以及国际会议学术论文81篇。其中以第一作者发表40余篇,包括KDD、ICML、AAAI、ICDM、SDM、ICDT、TKDE、DMKD、Machine Learning、ECBB、Bioinformatics等数据挖掘和生物信息领域重要会议和期刊论文;以通讯作者发表70余篇,包括ICDE、PODS、TKDE、ISMB、ECCB、Nucleic Acids Research、PLoS Computational Biology、Bioinformatics等数据挖掘和生物信息领域重要会议和期刊论文。在生物信息领域重要期刊《Bioinformatics》上发表了20篇论文,是澳大利亚学者中发表频次最高作者之一。论文共引用超过11000次,其中最高单篇引用2000余次,另有一篇引用1430次,有14篇引用超过100次。H-index =52。担任计算生物学顶级期刊PLOS Computational Biology副主编(Associate Editor),并多次担任InCoB(International Conference on Bioinformatics)、GIW(International Conference on Genome Informatics)、ADMA(International Conference on Advanced Data Mining and Applications)等领域知名会议联合会议主席或技术委员会联合主席(co-chairs)。 |
学习经历: 1987年09月至1991年06月,国防科学技术大学,应用数学,学士 1991年09月至1994年04月,河北工业大学,计算机工程,硕士 1994年04月至1995月06月,华南理工大学,通信与电子,博士 1998年01月至2001年03月,澳大利亚墨尔本大学,计算机科学和软件工程,博士
工作经历: 1995年06月至1997年03月,香港城市大学,研究助理 1997年03月至1998年01月,墨尔本大学,初级研究员 2000年09月至2001年03月,墨尔本大学,研究员 2001年03月至2007年06月,新加坡科研局资讯通信研究院,研究员、资深研究员 2007年06月至2010年08月,南洋理工大学,副教授 2010年09月至2011年03月,新加坡国立大学,资深研究员 2011年03月至2017年01月,悉尼科技大学,副教授 2017年01月至2022年11月,悉尼科技大学,正教授(终身) 2022年11月至今, 中国科学院深圳理工大学计算机科学与控制工程学院杰出教授、深圳先进技术研究院研究员 |
生物信息、数据挖掘、机器学习。 |
具体学术贡献集中在三方面。 (1)“显露模式”( Emerging Patterns)概念的首创及其在基因表达生物信息学中的应用。攻读博士学位期间,在导师Guozhu Dong教授悉心指导下,在数据挖掘国际会议KDD99发表了题为“Efficient Mining of Emerging Patterns: Discovering Trends and Differences”的学术论文。首次提出了显露模式的概念和挖掘算法,开启了数据挖掘领域的一个研究新课题,并有效解决了生物信息学中标志性疾病基因子集识别问题(identification of signature disease gene groups)。该论文单篇引用次数达1430次(包括多次被生物信息、数据挖掘、机器学习、人工智能、数据库和分布式计算重要会议和期刊论文引用并拓展研究)。 显露模式广空间是对久负盛名的版空间(version space)的革新和推广。版空间是由美国工程学院院士Tom Mitchell教授(Carnegie Mellon University)于上个世纪七十年代提出。它对人工智能和机器学习产生了深远的影响,并为后来的归纳推理学习算法奠定了基础。但是,版空间理论有一个“实际应用普遍空集性”的严重缺陷。这个“普遍空集性”是指版空间在很多实际应用问题中都是空集。显露模式定义由点(x=100%)到线(x非零)弱化了版空间的一个限定条件。这个创新既维持了版空间的数学凸性,同时又扩展了空间内涵。使得显露模式空间不仅能被上下边界模式无失真精简表示,而且能克服空集普遍性问题。 应用显露模式的概念,提出了针对儿童淋巴性白血病的亚型诊断和治疗优化计算新方案。这是一个基于基因表达谱数据的创新算法。同传统方法相比,该方法显著提高了划分儿童白血病风险等级的精度。由于贡献突出,此项创新研究在2003年由远东经济评论(Far Eastern Economic Review)组织的大奖赛中被评为“亚洲技术革新金奖”(the Asian Innovation Gold Award), 其所领导的团队被称为“儿童癌症英雄”(Kids Cancer Heroes)。相关论文在癌症研究领域的国际著名期刊《Cancer Cell》上发表并被引用高达2200次。同时,也提出了疾病基因组 (disease gene group)的概念,并提出了基于显露模式或规则的从基因表达谱数据中发现疾病基因组的方法。相关文章相继在《Bioinformatics》、《Genome Informatics》等期刊和国际会议上发表,其中1篇论文引用次数超过500,6篇一作论文引用超过100。获得新加坡专利两项。 在显露模式空间理论和算法的不断丰富和进步过程中,进一步研究工作又提出了统计意义上的挖掘显露模式的新算法,多篇论文先后在数据库和数据挖掘领域重要会议ICML 2000,PODS 2005, KDD 2007,KDD 2010上发表。2016年,领导生物信息学团队对儿童癌症组学数据分析和模式挖掘,并获澳大利亚纽州杰出癌症研究项目奖 (Premier’s Awards for Outstanding Cancer Research project grant)。 这些在显露模式方面的研究成果得到过许多国内外知名学者的高度认可。例如,美国加州大学(Riverside)M.Pazzani教授2001年发表在数据挖掘重要期刊《Data Mining and Knowledge Discovery》上的论文对显露模式进行了详细描述,并指出这个数据挖掘概念和方法非常有趣、前途光明(“This is an interesting and very promising approach……”)。许多来自澳大利亚、美国和欧洲的专家学者和研究生仍在继续研究显露模式空间理论和算法。还有多本数据挖掘中英文教科书整章节地描述和介绍显露模式概念和算法(例如欧洲Nada Lavrac教授所著的教材《Foundations of Rule Mining》)。 (2)最大二分子图(maximal biclique subgraphs)的新算法及其在结构生物学领域的应用。提出了能将封闭模式(closed patterns)和最大二分子图一对一关联起来的新理论,相关论文发表在数据挖掘重要期刊《IEEE Transactions on Knowledge Discovery and Engineering》。证明了三个数学定理。其一,给定任意一个无自环的无向图,那么这个图的邻接矩阵的封闭模式数量一定是偶数;其二,这个图的邻接矩阵的封闭模式数量恰好是这个图的最大二分子图数量的两倍;其三,对于每一个最大二分子图,有且仅有一对封闭模式与之两组顶点集相吻合。上述三个理论保证了挖掘最大二分子图的算法有效性并将算法时间复杂度从经典的MICA算法的O(n^3*N)降低到O(nm*N)。由于最大二分子图个数呈指数型增长,这个复杂度降阶的算法对计算机科学和算法复杂度分析领域作出了显著贡献。该论文被包括Nucleic Acid Research、Bioinformatics、IEEE TKDE等在内的多篇顶级期刊论文引用。 最大二分子图的核心思想“致密性”启发了我的研究蛋白质相互作用的结构生物学工作,并以此提出了“水挤水密”双疏水绑定理论(Double Water Exclusion hypothesis)。“双疏水”理论认为圈内热点氨基酸的拓扑结构是致密的并符合最大二分子图的邻接特性。这阐明了蛋白质在相互作用过程中,其作用中心氨基酸不容纳任何水分子(之所谓“水挤”),其作用中心周围是一圈次能氨基酸(之所谓“水密”)。相关论文2009年在《Bioinformatics》以原创性论文发表,被 PLoS Computational Biology 和Journal of Computational Biology等计算生物学重要期刊引用。“双疏水” 绑定理论是对Clackson & Wells于1995年发表在《Science》上的O-环生物理论(O-ring hypothesis and theory)的精化。O-环理论只揭示了蛋白质相互作用能量热点部位是由一圈氨基酸包围并隔水,但没有对圈内热点氨基酸的拓扑结构作任何刻画。“双疏水”理论在与O-环理论精髓保持一致的同时,对圈内热点氨基酸的拓扑结构提出了独到又新颖的假设。 在结构生物学方面,进一步工作又提出了使用X-光原子震动频率数据(B-factor)和基于抗原三级结构的构象型B细胞表位的精确预测。首次提出了基于抗原三级结构空间数据和原子震动频率数据的两阶段机器学习方法。其独创性在于第二阶段的自我纠错聚类机制。与目前方法相比,该方法的总体预测性能提高了100-300%。研究结果在分子生物学顶级会议ISMB2014主题宣讲(整个澳洲唯一一篇)并在《Bioinformatics》以原创性论文发表。 在此基础上,针对与结构生物学相关的CRISPR基因编辑问题,进一步又提出了集群机器学习算法对基因编辑应靶和脱靶效率进行精确预测。两篇论文发表在《Bioinformatics》并在生物信息学顶级会议ECCB2018宣讲。包括Nature Protocol, Nature Biotechnology和 Nature Communications等生物技术领域重要期刊的多篇论文相继引用了这些成果。 以上一系列结构生物学方面的研究成果成功解决了蛋白质相互作用能量热点氨基酸精确预测的问题,并为研究蛋白质相互作用能量热点拓扑结构铺垫了可计算的数学基础。这些理论和算法对蛋白药物设计、病毒序列突变之后致病强弱评估、基因编辑靶点确认等起重要指导作用,也可直接应用到个体化癌症疫苗设计的绑定位点的预测问题。 (3) 二代和三代测序读长数据纠错及数据压缩。最近的学术贡献主要集中在提出新算法消除PCR以及测序过程中对读长产生的碱基替换、删除和插入错误,全面提高二代和三代读长数据质量;还有提出新算法对基因组序列数据纠错前后数据集高倍数、无失真、快速压缩。 2021年的一个创新算法是把短读长数据排序成最小生成树(minimum spanning tree)并提出利用“链式”互编码(mutually-referred chain encoding)方式对读长数据无失真压缩。数据压缩比达到30至50倍,比目前最好的方法好到30%。论文在重要期刊《PLoS Computational Biology》上发表。在短读长数据纠错方面,第一次提出了对miRNA测序读长数据纠错研究。算法核心思想是利用kmer“梯式”上下级真子集关系(kmer-lattice structure of supersets and subsets)对替换、删除和插入错误同时纠错。论文在重要期刊《Nucleic Acids Research》上发表。 团队所提出的一系列序列数据压缩算法对庞大、海量基因组数据集的高效传输和合作共享起到了重要作用。实验显示,这些算法对人类基因组序列数据集合的无失真压缩倍数高达1000 至2000多倍。压缩后文件的传输速度提高1000至2000多倍。显著缩短了数据传输时间,极大改善了数据共享以及科研合作时效。尤其会对人类、动物和植物疾病基因大型研究项目的数据管理和共享提供强有力的工具,对联合科学研究带来显著效益。 这些生物序列纠错算法和思想对单细胞或混合细胞DNA和RNA测序数据的质量提升带来重大影响。尽管目前的基因测序技术已经发展较为成熟,但是三代测序技术高达10%的碱基错误率和二代测序较短且含有1%错误率仍然是基因序列完美拼接难以逾越的障碍。而基因突变分析恰恰要求这些错误越少越好去准确辨识少量的真正基因突变位置。所提出的基于数据挖掘的纠错算法对这些数据进行了几乎完美的纠错。模拟实验显示,与当前最好算法相比,不仅没有引入新错误,而且更正了95%的碱基测序错误,起到了目前生物实验技术无法达到的巨大作用。这些算法技术在当前具有较强的不可替换性,为下游拼接100%完美基因组的研究工作提供了必要的数据质量保障。 |
电子邮件:jinyan.li@siat.ac.cn |