近日,云知声正式推出首个工业级文档智能基础大模型 Unisound U1-OCR,凭借技术创新实现从 OCR 2.0 到 3.0 的跨越,完成从 “字符感知” 到 “文档认知” 的质的飞跃,树立文档智能行业新标杆。
该模型采用 ViT+LLM 架构,视觉编码器搭载 NaViT 架构实现分辨率动态处理,3B 量级参数兼顾计算效率与语义理解能力。其首创 “语义驱动 + 动态聚焦” 策略,先构建文档 “语义地图” 再提取内容;强化空间对齐模块解决空间盲区问题,搭配 Multi-Token Prediction 技术提升长文档逻辑连贯性,推理效率提升 80% 以上。多任务协同强化训练则实现结构还原、分类与抽取的深度对齐,有效遏制定位幻觉。
在权威评测中,U1-OCR 斩获多项 SOTA:OmniDocBench V1.5 以 95.1 分领先主流模型,D4LA、DocLayNet 评测 F1 分数分别达 90.8、95.9,医疗等强业务场景表现超越更大规模通用 VLM 模型。
此外,模型打造 “坐标 - 文本 - 语义” 融合架构,实现像素级定位与结果溯源;融入医疗、金融等行业知识,50 余种业务文书分类准确率超 99%;支持私有化离线部署,十多页文档数秒即可处理,同时可适配非标准拍照、花式排版等极端复杂场景,为工业级文档智能落地提供核心技术支撑。
评论