DeepSeek-OCR 2:视觉因果流

2026-01-28 09:25:054


🤖 我们提出 DeepSeek-OCR 2,旨在探索一种新型编码器 ——DeepEncoder V2 的可行性,该编码器能够根据图像语义动态重新排序视觉令牌。

📚 传统视觉语言模型(VLMs)在将视觉令牌输入大型语言模型(LLMs)时,总是采用固定的光栅扫描顺序(从左上到右下)和固定位置编码进行处理。

❌ 然而,这与人类视觉感知相悖,人类视觉遵循由内在逻辑结构驱动的灵活且语义连贯的扫描模式,尤其对于布局复杂的图像,人类视觉会呈现出具有因果关联性的顺序处理特征。

💡 受这一认知机制启发,DeepEncoder V2 被设计为赋予编码器因果推理能力,使其能够在基于 LLM 进行内容解读之前,智能地重新排序视觉令牌。

🔍 本研究探索了一种新型范式:是否可以通过两级级联的一维因果推理结构有效实现二维图像理解,从而提供一种有望实现真正二维推理的新架构方案。

💻 代码和模型权重已公开,可通过网页链接获取。

同为股份:公司关于AI视觉ISP技术的产品也已经有成熟产品线投放市场

星宸科技:公司核心研发团队具有丰富的SoC芯片设计经验,核心IP均为自研,已形成AI、ISP、音频、视频、显示、感知等核心IP

富满微:公司长期深耕视觉领域,是以视频为中心的芯片和完整解决方案提供商致力于为客户提供高性能视频编解码IPC以及NVR SoC芯片、图像信号处理器ISP芯片

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

标签: DeepSeek芯片

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。