雷锋网清华刘洋团队论文：揭示为何 70B 的医疗模型，反而不如 8B 会问诊丨ILCR 2026 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

雷锋网
清华刘洋团队论文：揭示为何 70B 的医疗模型，反而不如 8B 会问诊丨ILCR 2026 Telegraph | 原文

清华刘洋团队论文：揭示为何 70B 的医疗模型，反而不如 8B 会问诊丨ILCR 2026 - 雷锋网

在医疗人工智能的发展历程中，能力评估方式在很大程度上塑造了技术演进的方向。过去相当长一段时间里，医疗 AI 的进步主要围绕医学知识获取与推理展开，模型是否“足够聪明”通常通过医学考试题、临床问答数据集等静态基准来衡量。在这一评价框架下，模型只需在信息完整、问题封闭的条件下给出正确答案，便被视为具备较高的医疗能力。随着大语言模型的兴起，这一路径迅速取得突破性进展，多种系统在 MedQA 等测试中达到甚至超过人类专家水平，使得“医疗 AI 是否已经成熟”一度成为行业内的乐观判断。然而，随着这些模型被逐…

Powered by BroadcastChannel & Sepia