自诞生之初,人工智能大模型便深陷 “幻觉” 问题的泥沼。所谓 “幻觉”,是指大语言模型会将虚构信息当作真实内容输出。这一现象绝非偶然失误,实则暴露出当前 AI 技术的核心短板 —— 大语言模型尚未触及真正意义上的智能本质。

上月,编程工具 Cursor 突发 “政策调整” 风波。用户收到通知称,该工具未来将限制为单设备使用。消息迅速引发热议,随后 Cursor 首席执行官 Michael Truell 紧急辟谣:“这是 AI 机器人的错误回复,用户仍可在多设备上正常使用。” 这场闹剧不仅让用户虚惊一场,更将人工智能系统的稳定性问题暴露无遗。
技术瓶颈:幻觉成 AI 进化绊脚石
历经多年迭代,AI 技术虽在图像识别、语音交互等领域成绩斐然,但在信息真实性判断上仍表现欠佳。即使是 OpenAI、谷歌、DeepSeek 等行业巨头推出的模型,也难以避免输出错误信息。更令人担忧的是,此类错误非但没有随着技术进步减少,反而呈上升趋势。尽管 AI 在数学运算、代码编写方面有所提升,但在处理复杂事实性内容时,依然难以满足用户需求。
AI 系统本质上基于 “复杂数学模型” 构建,通过分析海量数据优化性能。然而,算法天生缺乏辨别信息真伪的能力。测试显示,新版 AI 系统的 “幻觉率” 甚至高于旧版本。Vectara 首席执行官 Amr Awadallah 坦言:“我们投入大量精力,却始终无法彻底解决‘幻觉’问题。”Okahu 首席执行官 Pratik Verma 也指出:“甄别 AI 回复的真实性耗时耗力,若不解决这一问题,AI 系统将难以发挥预期价值。”
OpenAI 的内部测试数据同样不容乐观:在 PersonQA 标准测试中,o3 模型 “幻觉率” 达 33%,几乎是 o1 模型(16%)的两倍;最新的 o4-mini 模型更是高达 48%。SimpleQA 测试中,o3 和 o4-mini 的 “幻觉率” 分别为 51% 和 79%。面对如此高的错误率,OpenAI 坦言,由于 AI 训练数据量过于庞大,难以定位问题根源。
破局困境:现有方案收效甚微
华盛顿大学研究人员虽开发出追溯 AI 行为源头的新方法,但面对海量训练数据,该工具仍难以全面解释模型运行机制。Hannaneh Hajishirzi 无奈表示:“我们依然不清楚这些模型究竟如何工作。”Vectara 长期测试发现,通过总结新闻内容检测 “幻觉率”,结果却显示错误率不降反升。
曾经,OpenAI 坚信 “数据投喂越多,AI 越智能”,但现实却事与愿违 —— 当 AI 几乎学习完所有互联网英文信息后,“幻觉” 问题反而愈发严重。这意味着,传统的技术路径已难以突破瓶颈,亟需寻找新的解决方案。
当前,工程师尝试借助 “强化学习” 提升 AI 性能。在数学、编程等领域,该技术通过试错机制取得一定成效,但在处理复杂语义信息时,效果仍不尽人意。此外,推理模型采用分步解题策略,虽然有助于拆解复杂问题,但每一步都可能产生 “幻觉”,步骤越多,错误累积风险越高。
尽管 AI 已能展示推理过程,方便用户定位错误,但研究发现,这些 “思考步骤” 有时与最终答案并无关联。Anthropic 研究人员 Aryo Pradipta Gema 指出:“AI 看似在‘思考’,实则很多步骤是多余的。”
未来展望:降低幻觉率的探索方向
部分专家认为,彻底消除 AI “幻觉” 几乎不可能,只能通过技术手段降低错误率。例如,让 AI 主动识别知识盲区,直接向用户表明 “无法回答”;引入 “检索增强生成” 技术,让 AI 在生成答案前检索外部文档,减少对记忆数据的依赖。
美国东北大学学者 Usama Fayyad 则提出,“幻觉” 这一表述存在误导性,过度拟人化掩盖了 AI 的本质。他强调,AI 生成错误信息与人类幻觉存在本质区别 ——AI 没有主观意图和意识,应避免用情感化词汇模糊技术本质。未来,唯有跳出固有思维,探索新的技术路径,才有可能真正突破 AI “幻觉” 的困境。
声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。