在2023年5月10日斯坦福数据科学大会上,计算机科学研究员Rylan Schaeffer将发表一篇他在arXiv.org预印本服务器上发表的论文。这篇论文质疑人工智能大语言模型(LLM)展现出新兴语言能力的断言。Schaeffer研究表明,尽管LLM可以生成流畅和连贯的文本,但它们并未真正理解语言或构建复杂的语义表征。
涌现能力指的是智能机器中突然出现且难以预料的新技能。随着人工智能技术的快速发展,智能机器开始展现出设计者本身也无法预测的新技能,这使得我们对其内部运行机制的理解越来越模糊。
Schaeffer的研究并不低估人工智能的突飞猛进,也不否定涌现能力的可能性与存在性。相反,他的研究显示,许多当前对涌现能力的断言似乎是由于对此现象的评估方式的偏差造成的。如果真是这样,在人工智能安全与协调方面,我们可能面临更大困境,因为我们检测涌现能力的方法存在问题。
“涌现能力”这个术语是由谷歌大脑、DeepMind和斯坦福大学研究人员在2022年的一篇论文中提出的。Schaeffer注意到,他们的研究采用了一种极端的“要么全是要么全非”的方法来衡量新兴能力。如果人工智能不是完美的,在涌现能力达到完美之前,它不会被记录。这可能会使一项新技能看起来像是突然和不可预测地出现,而实际上人工智能正以稳定的速度提高任务完成能力。
当被问及意见时,首先报告涌现能力的研究人员赞扬Schaeffer及其团队的怀疑态度和精心的分析。不过,他们仍然认为,扩大这些人工智能语言模型会带来质的变化。
技能不必是新兴的,人工智能模型的能力也可以大大增强,并且潜在危险。这就是为什么准确测量人工智能的发展至关重要。像许多同事一样,Schaeffer关注人工智能研究领域的整体进展如此之快,以至于冲破了科学方法的坚定控制。Schaeffer说:“处理这些大型人工智能模型的问题是,你无法访问这些模型。你甚至无法输入,因为这些模型由私人公司控制。”Schaeffer说,独立研究人员通常必须构建数据集,并将其发送给公司在其模型上运行。然后,公司对输出进行评分,并将其发送回研究人员。Schaeffer指出,这些公司有动机夸大人工智能能力的积极方面,以帮助销售产品,同样也会最小化可能对业务有害的副作用。