🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
机器之心
多模态Deep Research,终于有了「可核验」的评测标准
Telegraph
|
原文
Telegraph
多模态Deep Research,终于有了「可核验」的评测标准 - 机器之心
Deep Research Agent 火了,但评测还停在「看起来很强 」。 写得像论文,不等于真的做了研究。 尤其当证据来自图表、截图、论文图、示意图时:模型到底是「看懂了」,还是 「编得像懂了」? 俄亥俄州立大学与 Amazon Science 联合牵头,联合多家高校与机构研究者发布 MMDeepResearch-Bench(MMDR-Bench),试图把多模态 Deep Research 的评估从「读起来不错」,拉回到一个更硬的标准:过程可核验、证据可追溯、断言可对齐。 MMDR-Bench 与评测框架相关资源已公开:…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia