学术报告:“情智”一体的视听语音识别与合成研究

题目“情智”一体的视听语音识别与合成研究


时间2024年10月15日,上午10点


地点南开大学津南校区人工智能北楼 102会议室


摘要在人工智能大模型时代,情智一体的视听语音识别与合成研究不仅是技术发展的趋势,更是满足人机交互自然化、个性化需求的关键。自动线索语音识别与生成主要用于智能无障碍人机交互。其中线索语编码系统利用唇型和手势对发音的编码来辅助听障人群无障碍交流。基于我们首次提出的中文线索语系统,对于线索语识别,我们最近提出了一种基于参数高效低秩Transformer的跨模态互学习框架以促进快速地多模态交互。对于线索语视频生成,我们提出了一种思维链提示学习的线索语视频扩散生成框架,利用大语言模型和动作提示工程来捕捉文本描述与细粒度手势特征的复杂解析关系,提高生成的姿态视频的准确性和鲁棒性。此外,我还将针对在语音视觉对齐方面讲述基于人脸信息的个性化语音生成以及个性化语音到人脸图像生成的相关工作进展。


个人简介:刘李博士目前是香港科技大学(广州)的助理教授、博导。她在法国格勒诺布尔阿尔卑斯大学和法国国家科学研究中心共属的GIPSA-lab获得博士学位。曾担任加拿大Ryerson University的博士后研究员。她的主要研究方向是视听语音识别与生成、多模态学习以及人工智能等。她目前在人工智能领域已以第一作者或通讯作者发表论文近50篇,其中包括此领域顶级杂志和会议TPAMI, TMM, TASLP, Neurips, ICCV, IJCAI, ACM MM, ICASSP等。她现担任国际IEEE机器学习信号处理委员会MLSP Member Nominations & Election分会主席。她曾担任2022年语音信号处理顶会ICASSPLocal Chair (China site)以及2024 ICASSP Area Chair。她获得了广东省珠江青年人才、以及深圳市海外高层次人才-孔雀人才称号。作为项目负责人,她主持国自然面上项目以及青年项目、国自然重点项目子课题、广东省区域联合基金-青年基金项目、2024 CCF-腾讯犀牛鸟项目、2023腾讯AI Lab犀牛鸟专项计划以及2022阿里巴巴创新研究计划项目等。她曾在2017年荣获法国Sephora Berribi数学与计算机领域女性科学家奖。她团队文章获得2024年第16国际社会机器人学会议ICSR最佳学生论文提名奖以及20222023深圳市科协人工智能优秀论文奖。