特朗普前律师迈克尔·科恩臭名昭著地使用AI生成了一份法律文件,并将其提交给联邦法官,而所使用的AI是谷歌的Bard(现在更名为Gemini),结果却编造了虚假的法庭案件。
这还不是最糟糕的情况。两名纽约律师几乎毁掉了他们的职业生涯,因为他们提交了一份充满ChatGPT幻觉的法律文件。但这些法律失误只是问题的一小部分。我们正陷入一片AI生成内容的海洋,后果远比几个尴尬的律师要严重得多。
想一想:当一份让学生进入医学院的论文实际上是由GPT-4撰写的,或者一份让某人在顶级律师事务所获得职位的分析是由Claude创建的,会发生什么?我们可能会面临这样一种未来:我们的医生、律师,甚至航空公司飞行员都可能依靠AI助手作弊通过关键考试。
当然,现有的机构也不完美。即使在顶尖医学院,教授们也表示许多学生缺乏基本知识。但AI可能会加剧这一能力危机。这不仅仅是关于学术诚信的问题——更关乎公共安全和专业能力的基础。
问题不仅限于此。新闻业已经因为虚假新闻的指责受到了重创,现在面临着生存威胁。当AI能比任何人类记者更快地生成令人信服的文章时,我们如何信任突发新闻?社交媒体的局面变得更加混乱,语言模型武装的机器人可以用令人毛骨悚然的类人帖子淹没平台。
当前的检测方法失效了
问题很明显:我们迫切需要一种方法来区分AI生成的内容和真实内容。但问题在于——随着AI变得越来越智能,传统的检测方法却变得越来越无效。
当前检测AI生成文本的方法通常依赖于分析写作模式、词汇使用或微妙的语言标记。但随着语言模型变得越来越复杂,它们学习模仿人类的独特性,达到惊人的准确度。它们可以生成具有多样句式结构的文本,插入口语表达,甚至偶尔犯错——这一切都为了让文本听起来更像人类写的。
关键问题在于成本。如果你想检测由高精度AI模型生成的内容,你需要一个高精度的AI检测模型。然而,最先进的模型通常运行成本过高,难以大规模部署。像X这样的社交媒体平台已经在努力维持收支平衡。
在处理规模如此庞大的用户群体时,利用大型AI模型的成本显然不可行。面对6 亿活跃用户,大型AI模型的运行费用过高,难以负担。
Danube-3:微型AI检测器
在这种背景下,H2O.ai推出了Danube-3,一个微型AI模型。与需要庞大计算资源的AI巨头不同,H2O.ai采用了不同的方法。他们创造了一个既小巧又高效的模型,能够在智能手机上运行,但在语言任务中却表现出色。
Danube-3在高达6万亿个标记上进行了训练,达到了与更大模型相媲美的性能水平。在10-shot HellaSwag基准测试中——这是一个常识推理的测试——Danube-3的表现超越了苹果备受推崇的OpenELM-3B-Instruct,并与微软的Phi3 4B不分伯仲。这对于一个旨在高效运行在边缘设备上的模型来说,实属不易。
Danube-3的推出正逢其时。随着AI生成内容的泛滥,这一紧凑型模型提供了实际的应对措施。它能够在智能手机上运行,将强大的AI检测功能从数据中心带到日常设备中。
教育行业特别受益于此。随着AI辅助作弊现象的增加,教授们可以使用Danube-3来筛查大量论文,识别那些需要更深入检查的作业。
尽管Danube-3在AI检测方面展现了出色的性能,但它并不是解决所有问题的灵丹妙药。随着检测方法的不断进步,生成内容的AI模型也在不断提升。我们正处于一场技术博弈中,双方都在不断适应对方的策略。
Danube-3可能无法单独解决所有AI内容危机,但它确实代表了一种前进的方向,让我们能够在与AI共存的过程中掌控更多主动权。它是迈向一个能够在AI影响下保持控制的未来的重要一步。