本组博士生杨君维联合华盛顿大学助理教授王晟、博士后肖之屏在国际顶尖人工智能期刊Nature Machine Intelligence
(简称NMI,最新影响因子为18.8)上发表了题为:Poisoning medical knowledge using large language models 的研究论文。
论文开发了名为Scorpius的条件文本生成系统,该系统利用大模型为指定的药物-疾病关系对生成恶意文本。论文发现,只需要一篇恶意文本就能显著误导推理系统对相应药物-疾病关系的认知。同时,论文也提出了高效的防御手段来减少这种误导所产生的负面影响。
[论文简介][论文链接]
张铭老师团队于 ICML2024 共有四篇高质量论文发表(ICML2024 共收到9473篇投稿,其中2609篇被接受,接受率为27.5%)。
[论文简介] 其中:
本组博士后琚玮、硕士生毛正阳等人合作发表的Hypergraph-enhanced Dual Semi-supervised Graph
Classification提出了一个名为超图增强的对偶框架用于更好地进行半监督图分类;
[论文链接]
本组博士生郑康杰等人合作发表的Multi-Scale Protein Language Model for Unified Molecular
Modeling提出了一种多尺度的蛋白语言模型用以联合建模蛋白和小分子;
[论文链接]
本组博士生杨君维、博士生郑康杰等人合作发表的Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test
Objective提出了Mol-AE,一种更高效的药物分子表示学习框架;
[论文链接]
本组博士生顾怿洋等人合作发表的PGODE: Towards High-quality System Dynamics Modeling提出了一种名为原型图常微分方程的新方法来进行高质量的系统动力学建模。
[论文链接]
本组博士生覃义方等人在TKDE合作发表论文Learning Graph ODE for Continuous-Time Sequential Recommendation。
论文提出了一种名为GDERec的连续时间序列推荐框架,利用图常微分方程模型用户偏好的动态变化。GDERec框架由两个定制化的图神经网络组成,以捕捉混合动力系统视角下的用户偏好。
两个图网络模块通过自回归方式交替训练,能从时间上不规则的观测数据中学习有效的用户和物品表示。
[论文链接]
本组博士生袁野等人在NAACL 2024上发表了题为:Measuring Social Norms of Large Language Models的研究论文。
该论文提出了一个新的挑战,旨在考察大型语言模型是否理解社会规范。
与现有的数据集不同,该数据集要求对社会规范有基本的理解才能解答,涵盖了最广泛的社会规范技能,包含402项技能和12,383个问题,涉及从观点和争论到文化和法律等多种社会规范。
接着,该论文提出了一种基于大型语言模型的多智能体框架,以提升模型对社会规范的理解能力。
[论文链接][数据集开源][评测代码开源]
本组博士生袁野等人在AAAI 2024上发表了题为:Preparing Lessons for Progressive Training on Language Models的研究论文。
该论文提出了名为Apollo的大模型预训练加速算法。
面对使用预训练的小模型来提高训练效率难以泛化的挑战,该论文提出了一种名为Apollo的新方法,该方法通过在低层训练期间学习高层功能来为扩展操作做好准备。
该方法包括低值优先采样(LVPS)以训练不同深度,并通过权重共享来促进高效扩展。此外,该论文还引入了一种插值方法,以稳定地扩展模型深度。
实验表明,Apollo在加速比方面达到了最新水平,甚至可以与使用预训练模型的方法相媲美。
[论文链接][代码开源]
本组博士生罗钧宇等人在IEEE TPAMI 2024合作发表论文GALA: Graph Diffusion-based Alignment with Jigsaw for Source-free Domain
Adaptation。
GALA是首篇针对图级别数据无源域适应的研究。GALA从以数据为中心的角度出发,提出利用扩散模型对目标域数据进行源域风格重建;同时引入无偏伪标签和图拼图技术,提升图模型在目标域的泛化表现。
通讯作者为校友罗霄、肖之屏、琚玮,其余作者为顾怿洋、赵禹昇、袁境阳、张铭教授。
[论文链接]
本组博士生覃义方等人在TOIS合作发表论文A Diffusion Model for POI Recommendation。
论文提出了一种名为Diff-POI的扩散模型,针对位置服务中的下一个兴趣点(POI)推荐任务,旨在采样用户的空间偏好以提供个性化推荐。
Diff-POI通过两个图编码模块编码用户的访问序列和空间特征,并引入基于扩散的采样策略来探索用户的空间访问趋势。模型利用扩散过程及其反向过程从后验分布中采样,并优化相应的得分函数。
模型有效解决了现有POI推荐方法在地理位置多样化和建模用户兴趣演变方面的不足。
[论文链接]
本组博士生刘泽群等人在ACL 2023上发表了题为:MolXPT: Wrapping Molecules with Text for Generative Pre-training的研究论文。
论文提出了MolXPT,一种在SMILES(分子的序列表示)和文本中进行统一预训练的GPT模型。该文章在科学文献中检测分子名称,并将它们替换为相应的SMILES,通过这种方式学习SMILES和文本之间的交互关系。
实验结果表明,MolXPT在MoleculeNet上优于分子性质预测的强基线模型,与文本到分子翻译中的最佳模型相比,使用不到一半的参数表现相当,并且在不进行微调的情况下实现了零样本分子生成,这体现了它在分子设计方面的巨大潜力。
[论文链接]
本组博士后琚玮,本科生覃义方等人合作发表数据挖掘领域顶级会议ICDM 2022论文Kernel-based Substructure Exploration for Next POI
Recommendation(通讯作者张铭教授),并荣获最佳论文提名奖。论文提出同时探索用户行为序列中时序影响和空间影响的POI推荐模型。该模型分别利用图神经网络和图核的优点去捕捉地理模块中的拓扑空间位置影响和序列模块中的高阶序列子结构影响,两者从互补的角度捕捉用户的行为偏好,并引入一致性学习框架通过知识交互的方式使两个模块相互增强,更加个性化地在搜索效率和兴趣发现两方面提升用户体验。[论文链接]
本组博士生王一帆领衔的论文DisenCite: Graph-based Disentangled Representation Learning for Context-specific
Citation
Generation被AAAI-22高分接收。该文基于构建的异构引文网络,提出了一个解耦合图神经网络用于提取“引用-被引”论文对中的文本和引用拓扑信息,并进行引用章节预测和特定位置的引文生成,所提出的模型DisenCite获得了当前的最佳性能。通讯作者为国防科技大学讲师宋伊萍(Dlib毕业博士)、张铭教授。其余作者为李帅,程超然,琚玮,王晟。[论文简介链接]
本组博士生刘泽群、本科生王舒恺、博士生顾怿洋、本科生张睿一等人合作发表自然语音领域顶会EMNLP 2021论文Graphine: A Dataset for Graph-aware
Terminology Definition
Generation(通讯作者张铭教授和校友王晟)。论文提出了一个大规模生物医学定义数据集,包含200w条左右的医学名词-定义对,涵盖227个子领域,并为每个领域构建了表示名词间关系的图,利用图上邻居结点的定义,辅助定义的生成。该工作提出一种融合图信息的Transformer模型,创新地利用局部和全局信息生成定义。该数据集与模型在定义生成上的表现显著超过基线模型,并能作为benchmark用于更多任务上。[论文链接][数据集][视频]
本组博士生沈剑豪的Findings of EMNLP 2021论文(通讯作者张铭教授)Generate & Rank: A Multi-task Framework for Math Word
Problems
提出了一种多任务数学问题求解框架,采用生成候选表达式再排序的方式求解数学问题,并联合训练生成和排序模块,在Math23K上准确率比之前的SOTA模型提升了7%。OpenAI团队的数学应用题求解相关论文中三处引用沈同学的论文,采用了与沈同学论文非常类似的思想,显著提升了模型求解数学问题的能力。[论文链接][论文简介链接][视频]
本组博士生李想发表于IJCAI2016的论文StalemateBreaker: A Proactive Content-Introducing Approach to Automatic
Human-Computer Conversation获得《每日邮报》报道和北大新闻报道。
本组博士毕业生唐建领衔发表的论文Visualizing Large-scale and High-dimensional Data提出的 LargeVis 是一种基于LINE的高维数据可视化算法,比
t-SNE 更快更稳定而且有更好的可视化效果;获得WWW 2016 Best Paper nominee奖项。
本组博士毕业生唐建领衔发表的论文LINE: Large-scale Information Network
Embedding提出了高效的网络嵌入表征学习算法LINE,是图神经网络计算领域著名的算法,是WWW 2015被引最多论文(2022.3.8 谷歌学术引用超过5100余次)。
Jian Tang, Zhaoshi Meng, XuanLong Nguyen, Qiaozhu Mei, Ming Zhang. Understanding the Limiting
Factors of Topic Modeling via Posterior Contraction Analysis. ICML 2014: 190-198机器学习顶会 ICML Best Paper