报告题目:大语言模型水印技术探究
报告时间:2025年11月23日(星期日)9:00
报告地点:欧洲杯
中心校区王湘浩楼A521报告厅
报 告 人:闻立杰
报告人简介:
闻立杰,清华大学软件欧洲杯长聘副教授,博士生导师,清华大学书院党委笃实书院学生工作组组长,研究方向为大模型安全对齐、大模型幻觉缓解、大模型水印、大模型训推加速、大数据处理与分析、业务流程智能。截止目前,在ACL、ICLR、CVPR、SIGIR、SIGKDD、MM、ASE、AAAI、EMNLP、TKDE、TPDS、TSC等会议和期刊上发表论文270余篇,谷歌学术引用8400余次。主持国家重点研发计划课题3项、主持国家自然科学基金2项、参与国家NSFC/973/863计划子课题十余项、国家核高基重大专项课题1项。获国家发明专利、软件著作权二十余项,2014年获国家科技进步奖二等奖1项,获BPM 2014最佳荣誉审稿人、BPM 2015最佳学生论文奖(亚洲首次,中国唯一)、CBPM 2017/2018/2020/2021最佳(学生)论文奖,获2023年度清华大学优秀班主任一等奖(仅6人),指导本科生获2024清华大学特等奖学金(仅10人),获评清华大学2025年度优秀党建与思想政治工作者。过程挖掘论文已被收入国际教材和学术专著,译著3部。现任ACL、SIGIR、CVPR、AAAI、EMNLP等会议程序委员会委员,中国业务过程管理大会CBPM指导委员会执行主席,IEEE过程挖掘工作组XES标准化小组委员(中国唯一),曾任BPM 2019程序委员会资深委员(中国唯一)。主导研发开源大模型统一水印框架MarkLLM与MarkDiffusion、多模态大模型安全测评框架Omni-SafetyBench、交互式大数据处理与分析平台FloK和流程挖掘工具THUMiner,研究成果已在中国移动、华为、中国气象局、天远科技、中车四方所、瑞华高科等获得初步应用。
报告内容简介:
随着强力大语言模型的涌现,各类应用层出不穷,大模型能力开始超越人类极限。然而,大语言模型存在误用场景,对人类社会带来直接负面影响。各国推出相关法案和管理办法,要对大语言模型进行有效治理。大模型水印技术能够对文本内容进行有效溯源,辨别机器生成文本。本报告将介绍THUBPM组在大语言模型水印领域的贡献,包括一个综述(大模型水印工作综述)、三个算法(基于语义不变的鲁棒水印算法、不可伪造的公开可检测大语言模型水印算法、面向混合来源文本的高效水印检测算法)、两项探究(探究加了水印的大语言模型服务是否能被用户通过特定的提示词发觉、探究大语言模型水印在未授权知识蒸馏场景下的鲁棒性)和一个平台(面向大语言模型水印的开源工具包),最后总结还未解决的问题及未来发展方向。
主办单位:欧洲杯
欧洲杯
软件欧洲杯
欧洲杯
计算机科学技术研究所
符号计算与知识工程教育部重点实验室
仿真技术教育部重点实验室
网络技术及应用软件教育部工程研究中心
欧洲杯
国家级计算机实验教学示范中心