北京大学数据科学与工程所DLIB实验室

DLIB历史信息（2024年及之前）

本页面收录 Dlib 实验室 2024 年及之前的新闻、论文与成果。
最新内容请访问： 主页（2024+）

2024

本组硕士冯斌、博士刘泽群、硕士留学生Srbuhi Mirzoyan联合华盛顿大学助理教授王晟、博士后肖之屏和复旦大学教授徐盈辉等在国际顶尖人工智能期刊Nature Machine Intelligence （简称NMI，最新影响因子为18.8）上发表了题为：A bioactivity foundation model using pairwise meta-learning 的研究论文。论文提出了一个由ChEMBL数据库中160万个实验测量的生物活性数据训练而成的生物活性基础模型——ActFound。ActFound的核心思想是采用成对学习方法，学习同一组实验中两个小分子之间的相对生物活性差异，从而避开不同实验之间的生物活性的不兼容问题。该模型还利用元学习技术，帮助模型在仅有少量数据的情况下提升预测准确度。 [论文简介] [论文链接]

本组博士生杨君维联合华盛顿大学助理教授王晟、博士后肖之屏在国际顶尖人工智能期刊Nature Machine Intelligence （简称NMI，最新影响因子为18.8）上发表了题为：Poisoning medical knowledge using large language models 的研究论文。作为NMI封面文章，主编撰写2页推荐文章，获美国医学信息协会2025年“转化生物信息学突破进展” 论文开发了名为Scorpius的条件文本生成系统，该系统利用大模型为指定的药物-疾病关系对生成恶意文本。论文发现，只需要一篇恶意文本就能显著误导推理系统对相应药物-疾病关系的认知。同时，论文也提出了高效的防御手段来减少这种误导所产生的负面影响。 [论文简介] [论文链接]

张铭老师团队于 ICML2024 共有四篇高质量论文发表（ICML2024 共收到9473篇投稿，其中2609篇被接受，接受率为27.5%）。 [相关报道]
其中：
本组博士后琚玮、硕士生毛正阳等人合作发表的Hypergraph-enhanced Dual Semi-supervised Graph Classification提出了一个名为超图增强的对偶框架用于更好地进行半监督图分类； [论文链接]
本组博士生郑康杰等人合作发表的Multi-Scale Protein Language Model for Unified Molecular Modeling提出了一种多尺度的蛋白语言模型用以联合建模蛋白和小分子； [论文链接]
本组博士生杨君维、博士生郑康杰等人合作发表的Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective提出了Mol-AE，一种更高效的药物分子表示学习框架； [论文链接]
本组博士生顾怿洋等人合作发表的PGODE: Towards High-quality System Dynamics Modeling提出了一种名为原型图常微分方程的新方法来进行高质量的系统动力学建模。 [论文链接]

本组博士生覃义方等人在TKDE合作发表论文Learning Graph ODE for Continuous-Time Sequential Recommendation。论文提出了一种名为GDERec的连续时间序列推荐框架，利用图常微分方程模型用户偏好的动态变化。GDERec框架由两个定制化的图神经网络组成，以捕捉混合动力系统视角下的用户偏好。两个图网络模块通过自回归方式交替训练，能从时间上不规则的观测数据中学习有效的用户和物品表示。 [论文链接]

祝2024届毕业组员毕业快乐，未来可期！博士：刘泽群，硕士：薛逸飞，学士：陈滨琪、朱正佑、渡辺阿丽莎。

2024届博士毕业生刘泽群，获得2024年“ACM China北京地区优秀博士论文奖”，入职微软亚洲研究院。 [获奖链接]

本组博士毕业生沈剑豪、博士生袁野、博士生Srbuhi Mirzoyan等人在ICLR 2024上发表了题为：Measuring Vision-Language STEM Skills of Neural Models的研究论文。该论文评测了模型STEM科目K-12年级多模态基础知识能力，引入了一个新的挑战，用以测试神经网络模型的STEM技能。现实世界中的问题通常需要结合STEM（科学、技术、工程和数学）知识来解决。与现有的数据集不同，该数据集要求对STEM的多模态视觉-语言信息进行理解，是该领域中最大且最全面的数据集之一，包含448种技能和1,073,146个涵盖所有STEM学科的问题。 [论文链接] [数据集开源] [评测代码开源]

本组博士生袁野等人在NAACL 2024上发表了题为：Measuring Social Norms of Large Language Models的研究论文。该论文提出了一个新的挑战，旨在考察大型语言模型是否理解社会规范。与现有的数据集不同，该数据集要求对社会规范有基本的理解才能解答，涵盖了最广泛的社会规范技能，包含402项技能和12,383个问题，涉及从观点和争论到文化和法律等多种社会规范。接着，该论文提出了一种基于大型语言模型的多智能体框架，以提升模型对社会规范的理解能力。 [论文链接] [数据集开源] [评测代码开源]

本组博士生袁野等人在AAAI 2024上发表了题为：Preparing Lessons for Progressive Training on Language Models的研究论文。该论文提出了名为Apollo的大模型预训练加速算法。面对使用预训练的小模型来提高训练效率难以泛化的挑战，该论文提出了一种名为Apollo的新方法，该方法通过在低层训练期间学习高层功能来为扩展操作做好准备。该方法包括低值优先采样（LVPS）以训练不同深度，并通过权重共享来促进高效扩展。此外，该论文还引入了一种插值方法，以稳定地扩展模型深度。实验表明，Apollo在加速比方面达到了最新水平，甚至可以与使用预训练模型的方法相媲美。 [论文链接] [代码开源]

本组博士生罗钧宇等人在IEEE TPAMI 2024合作发表论文GALA: Graph Diffusion-based Alignment with Jigsaw for Source-free Domain Adaptation。 GALA是首篇针对图级别数据无源域适应的研究。GALA从以数据为中心的角度出发，提出利用扩散模型对目标域数据进行源域风格重建；同时引入无偏伪标签和图拼图技术，提升图模型在目标域的泛化表现。通讯作者为校友罗霄、肖之屏、琚玮，其余作者为顾怿洋、赵禹昇、袁境阳、张铭教授。 [论文链接]

本组博士生覃义方等人在TOIS合作发表论文A Diffusion Model for POI Recommendation。论文提出了一种名为Diff-POI的扩散模型，针对位置服务中的下一个兴趣点（POI）推荐任务，旨在采样用户的空间偏好以提供个性化推荐。 Diff-POI通过两个图编码模块编码用户的访问序列和空间特征，并引入基于扩散的采样策略来探索用户的空间访问趋势。模型利用扩散过程及其反向过程从后验分布中采样，并优化相应的得分函数。模型有效解决了现有POI推荐方法在地理位置多样化和建模用户兴趣演变方面的不足。 [论文链接]

2023

本组博士生刘泽群等人在ACL 2023上发表了题为：MolXPT: Wrapping Molecules with Text for Generative Pre-training的研究论文。论文提出了MolXPT，一种在SMILES（分子的序列表示）和文本中进行统一预训练的GPT模型。该文章在科学文献中检测分子名称，并将它们替换为相应的SMILES，通过这种方式学习SMILES和文本之间的交互关系。实验结果表明，MolXPT在MoleculeNet上优于分子性质预测的强基线模型，与文本到分子翻译中的最佳模型相比，使用不到一半的参数表现相当，并且在不进行微调的情况下实现了零样本分子生成，这体现了它在分子设计方面的巨大潜力。 [论文链接]

2023届博士毕业生王一帆，获得2024年“ACM SIGCSE China优秀博士论文奖”，入职对外经济贸易大学信息学院，任助理教授/硕士生导师。 [获奖链接]

祝2023届毕业组员毕业快乐，未来可期！博士：王一帆、沈剑豪，硕士：李帅、查玉安，学士：覃义方、刘成武、毛正阳、孙昉、詹致豪、段可飞、谢帆等。

2022

2022届博士毕业生琚玮，获得2023年“ACM SIGCSE China优秀博士论文奖”，2024年本组博士后出站入职四川大学计算机学院特聘副研究员。 [获奖链接]

祝2022届毕业组员乘风破浪宏图大展！博士：琚玮（留组做博士后），硕士：冯斌，学士：杨君维（留组直博）、袁新钰（MILA直博）、何嘉诚、王舒恺、李永康、谭淑敏。

本组博士后琚玮，本科生覃义方等人合作发表数据挖掘领域顶级会议ICDM 2022论文Kernel-based Substructure Exploration for Next POI Recommendation（通讯作者张铭教授），并荣获最佳论文提名奖。论文提出同时探索用户行为序列中时序影响和空间影响的POI推荐模型。该模型分别利用图神经网络和图核的优点去捕捉地理模块中的拓扑空间位置影响和序列模块中的高阶序列子结构影响，两者从互补的角度捕捉用户的行为偏好，并引入一致性学习框架通过知识交互的方式使两个模块相互增强，更加个性化地在搜索效率和兴趣发现两方面提升用户体验。[论文链接]

本组博士生王一帆领衔的论文DisenCite: Graph-based Disentangled Representation Learning for Context-specific Citation Generation被AAAI-22高分接收。该文基于构建的异构引文网络，提出了一个解耦合图神经网络用于提取“引用-被引”论文对中的文本和引用拓扑信息，并进行引用章节预测和特定位置的引文生成，所提出的模型DisenCite获得了当前的最佳性能。通讯作者为国防科技大学讲师宋伊萍（Dlib毕业博士）、张铭教授。其余作者为李帅，程超然，琚玮，王晟。[论文简介链接]

本组博士生刘泽群、本科生王舒恺、博士生顾怿洋、本科生张睿一等人合作发表自然语音领域顶会EMNLP 2021论文Graphine: A Dataset for Graph-aware Terminology Definition Generation（通讯作者张铭教授和校友王晟）。论文提出了一个大规模生物医学定义数据集，包含200w条左右的医学名词-定义对，涵盖227个子领域，并为每个领域构建了表示名词间关系的图，利用图上邻居结点的定义，辅助定义的生成。该工作提出一种融合图信息的Transformer模型，创新地利用局部和全局信息生成定义。该数据集与模型在定义生成上的表现显著超过基线模型，并能作为benchmark用于更多任务上。[论文链接][数据集][视频]

2021

本组博士生沈剑豪的Findings of EMNLP 2021论文（通讯作者张铭教授）Generate & Rank: A Multi-task Framework for Math Word Problems 提出了一种多任务数学问题求解框架，采用生成候选表达式再排序的方式求解数学问题，并联合训练生成和排序模块，在Math23K上准确率比之前的SOTA模型提升了7%。OpenAI团队的数学应用题求解相关论文中三处引用沈同学的论文，采用了与沈同学论文非常类似的思想，显著提升了模型求解数学问题的能力。[论文链接][论文简介链接][视频]

祝2021届毕业组员乘风破浪宏图大展！博士：宋卫平，硕士：王子昌，学士：袁野、顾怿洋、李昊、程超然、张子涵。

2020

2020届博士毕业生宋伊萍获得“ACM China北京地区优秀博士论文奖”，入职国防科大，2022年晋升为副教授，2022获军队院校数学教学比赛一等奖。

本组本科生史晨策、校友唐建等人的ICLR 2020论文GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation设计具有优良性质的化学分子结构是计算化学领域的一个基础问题。本文提出了一种基于自回归流模型的分子图生成模型GraphAF，在计算化学领域的分子性质优化任务上达到了目前最优的性能。[论文简介][视频]

本组本科生史晨策、校友唐建等人的ICML 2020论文A Graph to Graphs Framework for Retrosynthesis Prediction提出了新药发现中预测目标分子的合成路线的G2Gs模型。该模型通过一系列图变换，将产物分子转换（或称为翻译）到反应物分子，不依赖反应模版的方法，性能与基于模版的方法相近，也有更好的可扩展性。 [论文简介][视频]

本组博士生宋伊萍、刘泽群等人的ACL 2020论文Learning to Customize Model Structures for Few-shot Dialogue Generation Tasks 提出了低资源场景下的对话生成任务定制元学习模型CMAML，可以为每个任务定制一个具有独特的网络结构和参数的模型。在任务一致性、回复质量和多样性方面都优于所有对话系统基线模型，且在低资源文本生成任务上具有较强的通用性。[源码] [论文简介][视频]

UCLA博士生肖之屏一作、本组博士生宋卫平二作的KDD2020 高分论文TIMME: Twitter Ideology-detection via Multi-task Multi-relational Embedding提出了一种基于多任务学习的嵌入模型，依靠社交网络很好地解决了普通人的意识形态预测任务。作者收集并开源了一个大规模的Twitter 数据集，可用于用户社交网络分析、图机器学习、多视角网络表示学习、多任务学习等研究领域。 [源码] [论文简介][视频]

2019

本组博士生宋卫平、本科生史晨策、校友唐建等人的CIKM 2019论文AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks提出了基于全连接图的高阶特征交互表示学习模型，该模型可学习的特征组合阶数随层数的线性增加呈指数级增长，仅用2-3层神经网络即可学习到足够高阶的组合特征，实验结构优于现有模型。

本组博士生宋卫平等人在WSDM 2019论文 Session-based Social Recommendation via Dynamic Graph Attention Networks 中提出对用户自身动态兴趣和依赖用户当前兴趣的动态社交影响进行综合建模。首次将图神经网络(GNNs)应用于基于社交的推荐系统中，显著提升了推荐系统的精度。
宋卫平等人与Mila唐建教授合作发布的Github项目整理了基于深度学习的推荐系统论文、数据集等资源，并提供了基于特征的推荐、时序推荐、社交推荐等领域的代码库。

2018及之前

本组博士生宋伊萍等人的IJCAI 2018论文 An Ensemble of Retrieval-Based and Generation-Based Human-Computer Conversation Systems 提出了一种结合对话检索结果的对话生成方法，提升了对话语句的语义丰富度和对话质量。

本组刘卢琛博士等人的AAAI 2018论文提出了针对临床终点预测的异构时序事件联合表示学习的HE-LSTM模型，该模型可以较宽松地适应各种异构时序信息的记录形式，很大程度地保留和反映各个事件之间的关系，以及不同事件发生的频率结构，不仅仅是医疗时序序列预测，还可以用于交通信息、大规模在线学习等异构时序场景。
Luchen Liu, Jianhao Shen, Ming Zhang, Zichang Wang and Jian Tang. Learning the Joint Representation of Heterogeneous Temporal Events for Clinical Endpoint Prediction. AAAI’18 [源码]
“针对临床终点预测的异构时序事件联合表示学习”中文简介

本组博士生李想发表于IJCAI2016的论文StalemateBreaker: A Proactive Content-Introducing Approach to Automatic Human-Computer Conversation获得《每日邮报》报道和北大新闻报道。

本组博士毕业生唐建领衔发表的论文Visualizing Large-scale and High-dimensional Data提出的 LargeVis 是一种基于LINE的高维数据可视化算法，比 t-SNE 更快更稳定而且有更好的可视化效果；获得WWW 2016 Best Paper nominee奖项。

本组博士毕业生唐建领衔发表的论文LINE: Large-scale Information Network Embedding提出了高效的网络嵌入表征学习算法LINE，是图神经网络计算领域著名的算法，是WWW 2015被引最多论文（2022.3.8 谷歌学术引用超过5100余次）。

Jian Tang, Zhaoshi Meng, XuanLong Nguyen, Qiaozhu Mei, Ming Zhang. Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis. ICML 2014: 190-198机器学习顶会 ICML Best Paper

Works & Links

DLIB历史信息（2024年及之前）