基于Paddle的表格结构化技术精讲：原理到实战

无限期视频有效期

24节节数

469人学习人数

2.9分

课程评分

IT 节气

升级再获取57荣耀值升级成黄金讲师

1 课程数量

469 学生人数

高级算法专家

一枚十八线算法专家，带你在AI领域快速遨游...

你将收获

了解表格识别目前的研究现状及痛点

掌握表格结构识别的经典网络模型

掌握表格结构识别的数据构建方法

掌握表格识别训练、评估、推理实战全流程

适用人群

希望掌握基于深度学习的表格识别模型理论的学员希望快速上手表格识别项目实战并用于工作中的从业者

课程介绍

随着各类文档的爆炸性增长，文档智能领域的研究蓬勃发展。其中，表格是各类文档中常见的页面元素，如何高效地从文档中找到表格并获取内容与结构信息即表格识别，是文档智能的一个重要领域。

本课程就是讲述文档智能领域的一个分支：表格结构化识别。这里不得不说的是目前一个非常流行的开源项目PaddleOCR（Star达到25.1k），它的一个分支PPStructure更是此开源项目的一个亮点，用于解决文档智能（版面分析、版面恢复、表格结构化、信息抽取等）领域的问题。

本课程也是在该开源项目基础上，从背景到难点、从传统方法到深度学习、从数据到训练、从模型理论到实战，全面讲解表格结构化识别技术：

1）算法模型：着重讲解LGPMA（海康威视）、TableMASTER（平安财险）、TableRec-RARE（PPstructurev1）、SLANet（PPstructurev2）模型；

2）语料构建：提供开源数据、标注工具（PPOCRLabelv2）、自动生成工具（TableGeneration）三个维度的语料构建方法

3）项目实战：讲解PPstructure表格识别的关键源码，并全流程实现项目环境安装、准备自己的数据集、修改配置文件、模型训练及评估、模型导出环节

课程目录