爱范儿
刚刚,DeepSeek 又发新模型,小而美玩出新高度
刚刚,DeepSeek 又发新模型,小而美玩出新高度
爱范儿
刚刚,DeepSeek 又发新模型,小而美玩出新高度
就在刚刚,DeepSeek 开源了一个 3B 模型 DeepSeek-OCR。虽然 3B 体量不大,但模型思路创新的力度着实不小。 众所周知,当前所有 LLM 处理长文本时都面临一个绕不开的困境:计算复杂度是平方级增长的。序列越长,算力烧得越狠。 于是,DeepSeek 团队想到了一个好办法。既然一张图能包含大量文字信息,而且用的 Token 还少,那不如直接把文本转成图像?这就是所谓的「光学压缩」⸺用视觉模态来给文本信息「瘦身」。 而 OCR 正好天然适合验证这个思路,因为它本身就是在做「视觉→文本」的转换,而且效果还能量化评估。