大型语言模型:2024年回顾与2025年趋势
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:大型语言模型的发展日新月异,未来会有更多的大型语言模型走进人类的生产和生活之中。本文来自编译,希望对您有所启发。
图片来源:Scholaris/Pixabay
探索人工智能(AI)机器学习的应用已成为常态,大型语言模型如今(LLMs)正处于聚光灯下。去年,大型语言模型在多项研究中被应用,以揭示心理学、神经科学及其他多个领域的复杂性。
利用人类认知和心理学原理来评估大型语言模型将是今年的一个增长领域。在利用科学家从心理学和人类行为中了解到的知识来评估AI大型语言模型方面,研究人员只是触及了表面。例如,去年的一项人工智能研究利用认知心理学,从一系列旨在发现人类启发式和偏见的任务中,检验了大型语言模型的合理性。
准确理解人脑如何处理言语和语言,可以加速AI在多种现实应用中的进展,例如脑机接口、AI机器学习、机器人技术、神经技术、儿童发展、谈话疗法、语音合成器、自然语言处理、残疾人辅助技术、商业聊天机器人、语音识别产品、机器翻译、自动驾驶汽车、心理学、精神病学、医学诊断、制药、生物技术和医疗保健。
2025年,在人类语音和语言领域,会话人工智能将会有更多的探索。去年,大幸运模型在研究生物大脑方面取得了进展。例如,2024年PNAS一项由Goldin-Meadow等人进行的研究使用大型语言模型来确定儿童学习语言的能力。这一发现有可能在儿童发育、语言治疗和人工智能发展方面为临床医生起到辅助作用。
2025年另一个值得关注的趋势是使用大型语言模型从大量复杂的生物数据中识别模式,这些数据是通过成熟的脑活动成像和记录技术捕获的。未来预计使用大型语言模型和神经活动数据的研究将整体增加,预计增幅最大的研究将是使用功能磁共振成像(fMRI)、脑磁图(MEG)和脑电图(EEG)等非侵入性方法记录的神经数据,甚至通过直接在头皮上打印的临时数字电子纹身(e-tattoo)进行记录。
另一项2024年发表在《自然机器智能》上的研究比较了多种大型语言模型与实际人脑活动记录,发现大型语言模型与人脑正在趋同。具体而言,该研究表明,所研究的大型语言模型表现出与生物大脑中负责声音和语言处理的区域相似的层级处理。
在2025年,一个新兴趋势将是评估大型语言模型与人类神经科学专家在预测能力方面的对比。去年,发表在《自然人类行为》(Nature human Behaviour)杂志上的一项研究表明,大型语言模型的预测能力在确定神经科学结果方面优于人类神经科学专家,这是人工智能的一个里程碑。
同样在2024年,OpenAI的大型语言模型GPT-4在一项发表在《欧洲放射学》上的研究中,与人类神经放射学家进行了对比测试,任务是诊断真实世界的脑肿瘤临床MRI报告。科学家们发现,GPT-4的表现可以作为临床医生的神经放射学咨询工具,并为最终的神经放射学诊断提供有用的第二意见。
在神经科学领域之外,预计大型语言模型将更多地整合到面向消费者的产品中,尤其是在交通运输领域。例如,普渡大学(Purdue University)的研究人员在2024年进行了一项研究,该研究采用了一种基于大型语言模型的对话式人工智能,名为Talk2Drive,它可以解释人类的语音命令,以引导自动驾驶汽车。这项研究是首个在真实世界自动驾驶汽车上进行多场景实地实验的研究。
2025年值得关注的一个重要趋势是,在整个研究生命周期中,科学家可能会越来越多地将大型语言模型作为一种研究工具,用于各种功能,如信息收集、编辑、格式化、语法检查、同义词搜索、后台数据收集、已发表的研究搜索、数据库清理、数据分析、统计报告、写作、重写、头脑风暴、合成数据生成、数据标签生成等。
在过去的一年里,艾伦人工智能研究所(Ai2)、华盛顿大学、哥本哈根大学和普林斯顿大学的研究人员进行的一项预印本研究显示,在被调查的800多位在Semantic Scholar上验证的已发表作者中,有80.9%的人称其研究的一个或多个领域使用了大型语言模型。
随着越来越多的研究人员在科学研究过程中将大型语言模型作为辅助技术,预计这一数字将继续上升。另一个值得关注的趋势是,越来越多的人呼吁在大型语言模型的使用过程中提高透明度和信息披露。
过去的一年是人工智能和科学交叉领域的非凡发现之年。预计会有更多的研究评估大型语言模型与人类专家的能力,以及更多地使用大型语言模型来进行实际的研究。利用人类行为和应用心理学来理解大型语言模型的有效性和能力,将是2025年及以后的一个重要增长领域。
译者:Teresa