🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
机器之心
5千段真实对话,262名医生参与,OpenAI开源基准测试HealthBench:评估LLM对医疗的作用
Telegraph
|
原文
Telegraph
5千段真实对话,262名医生参与,OpenAI开源基准测试HealthBench:评估LLM对医疗的作用 - 机器之心
编辑 | LbP 改善人类健康将是人工智能 (AI) 的重要目标之一。如果能够有效开发和部署,大型语言模型(LLM)将有望扩大健康信息的获取渠道,支持临床医生提供高质量的医疗服务,并帮助人们维护自身和社区的健康。 为了实现这一目标,科学家需要保证模型既实用又安全。评估测试对于了解模型在医疗环境中的表现至关重要。尽管学界和业界已经在这方面投入很大,但是现有大部分评估基准并未反映现实情况。它们往往缺乏针对专家医学意见的严格验证,使模型的优化空间大打折扣。 OpenAI 的 Health AI 团队推出了 H…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia