学术动态
当前位置: 首页 科学研究 学术动态 正文
物信讲坛第一百九十讲“AI大模型的计算性能(On Large AI Model Efficiency)”
发表日期:2023-12-27 阅读:

主讲人:蔡剑飞

开始时间:2023-12-29 10:00

地点:物信学院一楼报告厅

报告人简介:

蔡剑飞,IEEE Fellow, 莫纳什大学信息与技术学院的教授,目前是莫纳什大学数据科学和人工智能系主任。在此之前,他是南洋理工大学(NTU)教授、担任视觉与交互计算系主任、计算机通信系主任、数据科学与人工智能研究中心副主任。他的主要研究兴趣包括计算机视觉和多媒体。蔡剑飞教授在国际会议和期刊上发表技术论文200余篇。他曾获ACCV, ICCM, IEEE ICIP和MMSP论文奖,担任IEEE T-IP、T-MM、T-CSVT和Visual Computer的副主编,并担任ICCV、ECCV、ACM多媒体、ICME和ICIP的区域主席。2016-2018年,他担任IEEE CAS VSPC-TC主席。他曾担任IEEE ICME 2012年度程序委员会主席,2019-2020他担任了IEEE T-MM最佳论文奖委员会的联合主席。他将担任2024年ACM Multimedia会议的大会主席。

报告内容简介:

chatGPT 或 GPT-4 等大型深度学习模型是推动近期新一轮 AI 蓬勃发展的关键因素,产生了巨大的社会和经济影响。例如,即使是 GPT-3(ChatGPT 的前身)也经过了五万亿个单词的训练,并配备了 1750 亿个参数。随着深度学习模型越来越大,训练和推理效率问题变得更加紧迫,以使计算资源有限的普通研究人员能够访问大型模型或部署在边缘设备上。在这次演讲中,我将介绍我的小组在这方面所做的一些工作,特别是关于当前流行的网络架构——变压器的效率问题。(Large deep learning models such as chatGPT or GPT-4 have been the key factor in driving the recent new round of AI booming, resulting in huge social and economic impacts. For example, even GPT-3 (the predecessor of ChatGPT) was trained on half a trillion words and equipped with 175 billion parameters. With the deep learning models become larger and larger, the training and inference efficiency issues become more pressing in order to make large models accessible by common researchers with limited computing resources or deployable on edge devices. In this talk, I will introduce a few works that been done in my group along this line, particularly on the efficiency issues of the current prevailing network architecture – Transformers.)