百度大脑开放日OCR专场在上海召开,“高效算法+高能模型”让识别超精准旅游

在对“降本增效”的绝对追求下,OCR 技术的应用创新,为整个产业“智能化”升级带来有效助力。

10月31日,百度大脑开放日 OCR 文字识别专场在上海召开,百度 AI 技术生态部产品经理为开发者们详细介绍了百度大脑最新的开放能力,百度视觉技术部韩钧宇深入分享了百度大脑 OCR 文字识别方向的最新技术与趋势,并邀请华夏保险上海分公司、快合财税等企业通过实际案例讲述了如何基于百度大脑 OCR 技术,进行企业内部智能化升级的全新思路。百度 OCR 产品经理进一步分享了交通、教育、医疗等更多行业应用的案例并进行了实际的产品演示。活动现场座无虚席,互动活跃。

百度大脑 AI 开放平台面向广泛的企业和开发者,提供最先进、最全面的 AI 能力,不断降低 AI 应用落地的门槛。截至目前,已开放218项 AI 技术能力,达到24小时快速集成,开发者规模持续快速增长并突破150万。

而基于深度学习的百度 OCR 技术更是获得了持续领先性的成果。2019年,在由工信部、公安部和网信办组织的,中国最高等级商业领域人工智能技术竞赛的90+队伍中,百度 OCR 脱颖而出,获得唯一 A 级别证书,同时还获得 ICDAR2019 MLT 文字检测竞赛冠军等荣誉。

“百度 OCR 基础技术的持续领先,离不开更好效果的算法创新和更高性能的模型压缩。”韩钧宇介绍到。百度 OCR 文字识别算法具备准确、多场景、多语种、多平台的特性,通用中英文字符识别准确率达95%以上,支持文档、随拍、网图、街景、商品,手写等常见文字场景,并且支持中、英、日、韩、法、德、意等20多种语种,还支持云端、嵌入式、私有化等请求部署方式。

而端到端识别、卡证票据识别、公式识别、文字编辑等解决方案则能够更好地解决具体场景的技术痛点问题,提升模型精度和运算效率,让识别更加准确高效。

未来,OCR 技术的行业应用趋势将向综合方案和定制平台两个方向发展。教育、医疗、交通、财税等场景都已实现通用化的综合解决方案,而 iOCR 自定义模板文字识别和垂类 OCR 模型训练平台等定制平台将针对更丰富的客户需求满足个性定制。

此次专场,百度大脑邀请到了华夏保险上海分公司和快合财税两家企业客户根据自身结合百度 OCR 技术的实际应用落地进行了案例分享。

▲左:华夏保险上海分公司新技术应用处经理於维佳 右:快合财税产品总监宁寿辉

华夏保险上海分公司新技术应用处经理於维佳表示:“百度大脑 OCR 提供的解决方案,让我们在面临手工录入发票信息出错率高、效率低等行业痛点时,能够显著地节约成本、提升财务报销业务流程效率。”

华夏保险上海分公司,通过应用百度大脑 iOCR 自定义模板文字识别和 EasyDL 定制化物体检测,实现二维码检测、增值税发票识别,进而实现报销单据影像分组及票面识别的自动化业务流程,年节省人力等成本核算达到1000万元。

快合财税产品总监宁寿辉则在现场讲到,基于百度 iOCR 财会票据识别平台搭建的快合财税智能记账 SaaS,结合一台自动馈纸式扫描仪,就能够将快合财税的会计做账效率提升3倍,每年帮助几百家代账公司在做账报税环节合计省出2000万元的成本。

最后,百度 OCR 产品经理更加系统化地详细介绍了金融财税之外更多行业应用方案。目前,百度 OCR 已经广泛应用于财税票据、身份验证、内容审核、教育、保险医疗、交通以及拍照识别/翻译等领域,并且为了满足不同客户的各种需求,百度大脑除了提供近40款垂类文字识别产品外,还提供了自定义模板文字识别开发平台 iOCR,针对特殊版式的票据可快速定制识别模板。通过这些案例,能够看出在这些应用场景中,百度 OCR 充分发挥着的优势:丰富的接口、支持自定义模板、高可用的服务确保用户业务持久稳定、低价/多样的付费方式,以及支持部署至私有云。

AI 的大力发展,让不同行业逐步走上了智能化升级之路,而随着基础能力的进一步开放,百度 OCR 技术将获得更多的业界专家和开发者的支持,在技术不断突破的同时,百度 OCR 技术也通过百度大脑 AI 开放平台全面开放给第三方使用,打破封闭的研发生态,积极推动技术在具体场景上的落地。从而积累更为领先的技术,探索更多的应用场景,赋能更多的合作伙伴,创造更多的价值。

最后,对百度于2019年度公开发表的 OCR 文字识别领域创新技术算法,进行简单介绍:

文字检测:

基于主干、候选回归、候选区域及精细化二次回归,文字检测算法可对任意文字形状进行精确表示,解决任意形状长行文字检测问题,在公开数据集合达到 SOTA 检测定位效果。

详情请参见文章:C. Zhang, et al, Look More ThanOnce: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

借鉴目标检测中的经验,为提升检测速度,研究者通过单阶段模型结构与多分支输出设计对文字候选区域表达,多任务学习、单阶段训练可以取得两阶段、多阶段相当的效果,并提升速度。

详情请参见文章:P. Wang, et al A Single-Shot Arbitrarily-ShapedText Detector based on Context Attended Multi-Task Learning, in Proc.of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498

端到端识别:

现有文字识别系统以两阶段、多阶段检测、序列识别模型级联为主,非规则文字识别效果精度不足。为克服同时识别规则和非规则文字效果不佳的问题,我们提出端到端 OCR 识别 TextNet 算法,通过共享主干、透视 RoI 变换实现文字检测、空间注意力机制序列识别耦合设计,同时提升非规则行的文字识别效果。

详情请参见文章:Y. Sun, et al, TextNet: IrregularText Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

针对中文大类别识别场景,我们引入弱标注数据的概念,针对街景场景只标注关键词信息,忽略非重要信息,无需精确位置标注,避免大量精标注全监督数据高成本低效率问题。

基于端到端-部分监督学习方法,弱标注成本是精标注的1/90,弱标识数据量从2万扩增到40万,单模型平均编辑距离 AED 错误率相对降低20%。取公开英文数据集,端到端部分监督学习在 ICDAR 15端到端评测达到单模型尺度 SOTA 效果。

详情请参见文章:Y. Sun, et al, Chinese Street ViewText: Large-scale Chinese Text Reading with Partially Supervised Learning,in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

大规模公开数据集:

为进一步推动中文场景文字识别领域发展,通过构建新的 ICDAR 2019-LSVT 大规模街景文字、ICDAR 2019-ArT 任意形状文字集合,百度携学术界举办两项 ICDAR 2019场景文字识别的国际赛事,提供源于百度真实场景图像数据45万,奖金17,800美金,吸引业内各大企业、知名高校研究单位118支参数队伍有效提交结果339个,各大主流媒体报道20余次。百度团队在 ICDAR 2019国际会议期间受邀做总结报告并为获奖单位颁奖,展现近年来 OCR 识别技术的快速发展与应用新高度。

详情请参见文章:C. Chng, et al, ICDAR 2019RobustReading Challenge on Arbitrary-Shaped Text-ArT,inProf. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al,ICDAR 2019 Competitionon Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07145

文字编辑:

针对文字编辑和风格迁移任务,我们提出了业界首个文本行级别的文字编辑解决方案 SRNet。该方案主要思想是将文字属性迁移和背景纹理修复任务进行解耦监督学习,并且让网络自适应学习两者的融合,以端到端优化方式达到鲁棒的文字编辑功能。

详情请参见文章:L. Wu, et al Editing Text in the Wild, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.03047

进入https://ai.baidu.com/tech/ocr/general,了解更多百度 OCR 信息。