Python 提取 PDF 表格数据

Python 提取 PDF 表格数据
共24节 744人在学 课程详情
  • 课程导学

    • 课程导学
  • 表格提取初体验:Camelot 使用入门

    • Camelot 的安装和基本使用
    • 表格提取的原理:lattice 和 stream
    • 可视化表格的轮廓
    • 默认参数不是万能的
  • 精准识别表格:Camelot 参数详解

    • 准确获取单元格内容:split_text
    • 过滤无用的字符:strip_text
    • 指定表格的识别区域:table_areas
    • 表格嵌套表格:table_regions
    • 有背景颜色的表格:process_background
    • 控制表格线条的粗细:line_scale
    • 合并相近的线条:line_tol
    • 复制单元格的文本:copy_text
    • 移动合并单元格的位置:shift_text
    • 表格检测的行间距:row_tol
    • 调整文本的纵向间距:edge_tol
    • 设置表格各列的宽度:columns
  • 提取表格数据实战

    • 中文 PDF 表格提取注意事项
    • 提取单页有线框 PDF 表格
    • 一页多个表格和纵向表格
    • 提取多页有线框 PDF 表格
    • 提取单页无线框 PDF 表格
    • 提取多页无线框 PDF 表格
  • 课程总结

    • 课程总结

    订阅失败

    Python 提取 PDF 表格数据
    Python 提取 PDF 表格数据 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    指定表格的识别区域:table_areas

    课程介绍

    【为什么开这门课】

    有时在整理分析数据时 ,数据源是 PDF 文件,如果直接从 PDF 文件复制粘贴数据的话,会碰到格式错位、数据有误的情况,或者有很多页 PDF ,复制粘贴起来很麻烦,是个体力活。

    使用 Python 的 Camelot 包来自动化解析 PDF 中的有线框和无线框表格,代码简洁高效,而且可以把数据保存到 Excel、CSV 等文件中,便于对数据进行对比分析,极大地提高了数据处理的效率。

     

    【课程设计大纲】

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 758人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22197人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4222人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 794人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 844人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5161人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1511人在学

    Python Django 深度学习 小程序

    钟翔 · 2333人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 605人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 3998人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~