云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代|界面新闻

云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代

云知声发布首个工业级文档智能基础大模型 Unisound U1-OCR，实现从 OCR 2.0 到 3.0 的跨越。该模型采用 ViT+LLM 架构，搭载 NaViT 架构实现分辨率动态处理，3B 量级参数兼顾效率与语义理解能力。其首创“语义驱动+动态聚焦”策略，强化空间对齐模块，提升长文档逻辑连贯性，推理效率提升 80% 以上。

近日，云知声正式推出首个工业级文档智能基础大模型 Unisound U1-OCR，凭借技术创新实现从 OCR 2.0 到 3.0 的跨越，完成从 “字符感知” 到 “文档认知” 的质的飞跃，树立文档智能行业新标杆。

该模型采用 ViT+LLM 架构，视觉编码器搭载 NaViT 架构实现分辨率动态处理，3B 量级参数兼顾计算效率与语义理解能力。其首创 “语义驱动 + 动态聚焦” 策略，先构建文档 “语义地图” 再提取内容；强化空间对齐模块解决空间盲区问题，搭配 Multi-Token Prediction 技术提升长文档逻辑连贯性，推理效率提升 80% 以上。多任务协同强化训练则实现结构还原、分类与抽取的深度对齐，有效遏制定位幻觉。

在权威评测中，U1-OCR 斩获多项 SOTA：OmniDocBench V1.5 以 95.1 分领先主流模型，D4LA、DocLayNet 评测 F1 分数分别达 90.8、95.9，医疗等强业务场景表现超越更大规模通用 VLM 模型。

此外，模型打造 “坐标 - 文本 - 语义” 融合架构，实现像素级定位与结果溯源；融入医疗、金融等行业知识，50 余种业务文书分类准确率超 99%；支持私有化离线部署，十多页文档数秒即可处理，同时可适配非标准拍照、花式排版等极端复杂场景，为工业级文档智能落地提供核心技术支撑。

云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代

历史搜索全部删除

热门搜索

云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代

评论

云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代

云知声发布 Unisound U1-OCR 大模型 首创工业级文档智能基础 开启 OCR 3.0 时代

评论

云知声发布 Unisound U1-OCR 大模型 首创工业级文档智能基础 开启 OCR 3.0 时代

云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代

云知声发布 Unisound U1-OCR 大模型首创工业级文档智能基础开启 OCR 3.0 时代