随着信息技术的迅猛发展,光学字符识别(OCR)技术在各行各业中的应用日益广泛。为满足企业对于信息抽取精度、版式覆盖全面性、迭代速度与灵活度的不断提升的需求,合合信息基于深度学习算法和能力,对其文字识别训练平台进行了优化升级,为企业提供低代码、自动化的一站式OCR开发解决方案。

合合信息文字识别训练平台是面向零基础的开发者或实际业务人员的全流程一站式OCR开发平台。针对文本检测、文字识别、文档分类、信息抽取等任务,基于先进的深度学习算法,提供了集模型创建、数据标注、模型训练、模型测试、模型部署于一体的机器学习服务。

用户仅需通过简单的框选和点击操作,即可在Textin Studio的可视化界面中迅速完成模型的创建、数据标注、训练、测试以及部署,有效解决了定制化识别开发门槛高、周期长的问题。

值得一提的是,合合信息文字识别训练平台内置了五大预训练算法模型,包括信息抽取(锚点)、信息抽取(K-V)、信息抽取(NLP)、信息抽取(长文本)以及分类识别。这些模型能够灵活应对固定版式、半固定版式、不固定版式的单页与多页文档的信息抽取与分类需求,不仅提升了识别的准确性,还降低了模型训练的难度。

此外,平台还具备数据回流功能。通过搭建数据回流交换平台,平台能够连接业务平台与文字识别训练平台,将实际业务中产生的标注信息数据进行整合、统计后回流至训练平台,从而不断提升模型的识别准确率,实现真正的智能化和终身自主学习。

在数据标注环节,合合信息文字识别训练平台也展现出了其独特的创新。通过系统自动标注数据,人工仅需进行复核,极大地降低了数据标注的耗时与人力成本。同时,当训练数据不足时,平台还能基于模板和语料知识库自动生成海量虚拟训练数据,从而快速扩充训练集,提升模型训练效果。

某上市城商行已通过私有化部署该平台,成功实现了身份证、驾驶证、发票等多种证照票据的自动识别,满足了多业务场景的需求。同时,通过搭建数据回流交换平台,该行实现了对OCR服务的统一管理,提升了审核效率。


推荐内容