🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
雷锋网
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
Telegraph
|
原文
Telegraph
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026 - 雷锋网
在医疗人工智能的发展历程中,能力评估方式在很大程度上塑造了技术演进的方向。 过去相当长一段时间里,医疗 AI 的进步主要围绕医学知识获取与推理展开,模型是否“足够聪明”通常通过医学考试题、临床问答数据集等静态基准来衡量。在这一评价框架下,模型只需在信息完整、问题封闭的条件下给出正确答案,便被视为具备较高的医疗能力。 随着大语言模型的兴起,这一路径迅速取得突破性进展,多种系统在 MedQA 等测试中达到甚至超过人类专家水平,使得“医疗 AI 是否已经成熟”一度成为行业内的乐观判断。 然而,随着这些模型被逐…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia