🔔科技频道[奇诺分享-ccino.org]⚡️

Deep Research Agent 火了，但评测还停在「看起来很强」。写得像论文，不等于真的做了研究。尤其当证据来自图表、截图、论文图、示意图时：模型到底是「看懂了」，还是「编得像懂了」？俄亥俄州立大学与 Amazon Science 联合牵头，联合多家高校与机构研究者发布 MMDeepResearch-Bench（MMDR-Bench），试图把多模态 Deep Research 的评估从「读起来不错」，拉回到一个更硬的标准：过程可核验、证据可追溯、断言可对齐。 MMDR-Bench 与评测框架相关资源已公开：…