Python 提取 PDF 表格数据

Python 提取 PDF 表格数据
共24节 742人在学 课程详情
  • 课程导学

    • 课程导学
  • 表格提取初体验:Camelot 使用入门

    • Camelot 的安装和基本使用
    • 表格提取的原理:lattice 和 stream
    • 可视化表格的轮廓
    • 默认参数不是万能的
  • 精准识别表格:Camelot 参数详解

    • 准确获取单元格内容:split_text
    • 过滤无用的字符:strip_text
    • 指定表格的识别区域:table_areas
    • 表格嵌套表格:table_regions
    • 有背景颜色的表格:process_background
    • 控制表格线条的粗细:line_scale
    • 合并相近的线条:line_tol
    • 复制单元格的文本:copy_text
    • 移动合并单元格的位置:shift_text
    • 表格检测的行间距:row_tol
    • 调整文本的纵向间距:edge_tol
    • 设置表格各列的宽度:columns
  • 提取表格数据实战

    • 中文 PDF 表格提取注意事项
    • 提取单页有线框 PDF 表格
    • 一页多个表格和纵向表格
    • 提取多页有线框 PDF 表格
    • 提取单页无线框 PDF 表格
    • 提取多页无线框 PDF 表格
  • 课程总结

    • 课程总结

    订阅失败

    Python 提取 PDF 表格数据
    Python 提取 PDF 表格数据 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    默认参数不是万能的

    课程介绍

    【为什么开这门课】

    有时在整理分析数据时 ,数据源是 PDF 文件,如果直接从 PDF 文件复制粘贴数据的话,会碰到格式错位、数据有误的情况,或者有很多页 PDF ,复制粘贴起来很麻烦,是个体力活。

    使用 Python 的 Camelot 包来自动化解析 PDF 中的有线框和无线框表格,代码简洁高效,而且可以把数据保存到 Excel、CSV 等文件中,便于对数据进行对比分析,极大地提高了数据处理的效率。

     

    【课程设计大纲】

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 717人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22083人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4200人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 787人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 838人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5152人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1506人在学

    Python Django 深度学习 小程序

    钟翔 · 2318人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 598人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 3982人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~