当前位置: 首页 > 新闻动态 > 通用培训 > 著名教授论坛 > 正文
著名教授论坛

著名教授论坛第754讲:知识驱动的数据合成:人工智能时代语言学的功能转型

发布时间 : 2026-06-15 点击量:

本网讯 2026年6月13日上午,由广东外语外贸大学人力资源部(教师发展中心)主办、语言学习与人工智能研究院承办的著名教授论坛第754讲在广外白云山校区第七教学楼407顺利举行。讲座由北京大学中文系詹卫东教授主讲,广外语言学习与人工智能研究院王治敏教授主持,讲座主题为“知识驱动的数据合成:人工智能时代语言学的功能转型”。

讲座现场

詹卫东教授系统探讨了大语言模型兴起背景下,计算语言学如何实现角色转型与任务调整,指出语言学与人工智能分别代表了“know why”与“know how”两种研究范式。他由乔姆斯基生成语法与辛顿深度学习之间的“辛乔之争”引入,探索了两种方法论的差异,二者目标一致但路径迥异。当前,数据驱动的AI虽表现出色,却存在表层数据盲区,缺乏解释力;而语言学方法虽精准,却难以规模化。因此,融合的关键就在于将语言学知识转化为可被AI学习、生成和验证的高质量数据,以此弥补大模型的深层能力短板。

詹卫东教授提出,应在乔姆斯基“观察、描写、解释”三充分基础上,增加“生成”充分,作为检验语言学理论的新标准。这一观点意味着语言学功能的根本性拓展:它不仅要能够解释语言现象,更要能够“生成”语言世界,将抽象的理论知识转变为机器可以自动生成并验证的高质量数据。

詹卫东教授

实践层面,詹卫东教授展示了基于知识库驱动的空间认知评测体系(SPACE)。通过设计固定的空间布局和模板规则,程序自动生成涵盖语法判断、信息抽取、空间推理等六个递进任务的文本数据。实验表明,这一知识驱动的方法成效显著,使得大模型在空间推理任务上的正确率近乎翻倍提升,并在后续研究中继续突破,充分验证了高质量合成数据的巨大潜力。研究已扩展至“空间+社会关系”“空间+时间”等复合领域。

在自由交流环节,詹卫东教授就语言生成、多模态推理与模型训练等议题与在场师生深入互动,指出大模型对隐含常识的覆盖有限、静态图像与动态空间推理存在矛盾,强调垂类模型应注重类别覆盖率与数据质量而非单纯堆砌数据量。

本次讲座为语言学与人工智能的交叉研究提供了全新视角,展示了知识驱动方法在提升AI认知能力方面的巨大潜力,为语言学知识转化为AI可理解、可训练的数据资源,实现人机智能的融合发展开辟了新路径。

合影

人力资源部(教师发展中心)

语言学习与人工智能研究院

初稿:徐丹璐

复审:张哲 朱思达

终审:王治敏

关闭