一旦大规模语言模型在医学测试中取得高分,人们就期望它们成为个人的“人工智能健康助手”。然而,一项在英国进行、发表在《自然医学》上的研究表明,这些实验室“尖子生”的表现在面对真实用户时会出乎意料地“下降”,而且它们在帮助公众做出健康决策方面的有效性并不超过互联网搜索引擎。这一发现给目前正在取得进展的人工智能医疗应用敲响了科学警报。人们是否高估了当前大规模语言模型帮助公众做出健康决策的能力?目前,世界卫生系统正在构建大规模语言模型,作为国家的“健康第一道防线”,让人们在治疗前进行自我评估和管理。然而,这项研究揭示了重要的差距。这意味着即使是在标准中表现良好的人工智能模型当面对现实场景中的普通人时,标准化测试可能会出现重大问题。牛津互联网研究所的科学家设计了一个现实的实验。约 1,300 名英国参与者被邀请模拟 10 种常见的健康场景,包括感冒、贫血和胆结石,并决定采取什么行动,例如拨打紧急电话或预约全科医生。参与者被随机分配使用三种传统大规模语言模型(GPT-4o、Llama3 或 CommandR+)之一或互联网搜索引擎作为对照。结果显示出有趣的“人类和机器之间的差异”。在没有人类受试者的情况下进行测试时,人工智能的表现非常好,平均识别出 94.9% 的疾病,并为一半以上的病例提供适当的建议。然而,当普通大众使用同样的模型时,疾病识别率直线下降至35%以下,行动建议的准确率也低于35%。han 45%,这甚至比互联网搜索引擎好不了多少。科学家们进一步分析了对话笔录,发现有两个典型的“沟通盲点”:我看到了。这是因为普通人往往难以准确、完整地描述症状,而人工智能可以生成看似合理但实际上具有误导性的答案。这种双向信息偏差可能会导致最初在测试中表现良好的模型在实际应用中受到影响。这也表明,将现有的大规模语言模型直接应用于公共卫生咨询时仍需谨慎。这是因为现实世界的人机交互具有许多临床测试无法预测的复杂性。用AI开发医疗助手,不仅需要技术迭代,更需要深入理解当健康与焦虑交叉、当健康与焦虑交叉时,人与机器如何更好地“对话”。氩气与日常用语相交。 (科技期刊)