当前位置:主页 > python教程 > python提取pdf数据保存excel

python用pdfplumber提取pdf表格数据并保存到excel文件中

发布:2023-02-28 08:54:09 59


我们帮大家精选了python相关的编程文章,网友那平晓根据主题投稿了本篇教程内容,涉及到python提取pdf的数据、python提取pdf表格数据、python保存excel文件、python提取pdf数据保存excel相关内容,已被489网友关注,下面的电子资料对本篇知识点有更加详尽的解释。

python提取pdf数据保存excel

pdfplumber操作pdf文件

python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者、创建时间、修改时间…)及表格、文本、图片等信息,基本可以满足较为简单的格式转换功能。

一、pdfplumber安装及导入

跟其他包一样,支持使用pip安装,安装命令:

pip install pdfplumber

安装成功后,可直接用import导入,导入命令:

import pdfplumber

二、pdfplumber基础使用

1、基础知识

(1)pdfplumber有2个基础类

PDF和Page,PDF用来处理整个文档,Page用来处理整个页面。

用法简介
pdfplumber.PDF .metadata,获取pdf基础信息,返回字典格式,包含作者、创建时间等。 .pages,返回pdfplumber.Page实例的列表,每一个实例包含pdf每一页的信息
pdfplumber.Page pdfplumber核心功能,对PDF的大部分操作都是基于这个类,包括提取文本、表格等

(2)pdfplumber读取pdf文件方式

pdfplumber.open(‘文件路径’),返回pdfplumber.PDF类的实例。

如果pdf有密码,加入password参数:

pdfplumber.open(‘文件路径’,password=‘密码’)

2、获取pdf基础信息

读取pdf文件,并输出pdf文件的基础信息

import pdfplumber
# 打开pdf文件,有密码加入password参数
pdf_info =pdfplumber.open(r'test.pdf')
meta_data = pdf_info.metadata  # pdf的基础信息
page_con = len(pdf_info.pages)  # 获取pdf的总页数
print('pdf文件的基础信息:\n', meta_data)
print('pdf共%s页' % page_con)

3、pdfplumber提取表格数据

提取表格数据主要用到extract_tables()和extract_table()两种方法,这两种提取方式各有不同。

用以下pdf文档,作为演示文档。

(1)extract_tables()方法

输出文档所有表格,返回一个嵌套列表,其结构层次为table-row-cell。如:

#extract_tables()用法
with pdfplumber.open(r'test.pdf') as pdf_info:  # 打开pdf文件
    page_one = pdf_info.pages[0]  # 选择第一页
    page_one_table =page_one.extract_tables()  # 获取pdf文档第一页的所有表格数据
    for row in page_one_table:
       print('第一页的表格数据:', row)


(2)、extact_table()方法

不会返回文档的所有表格,仅返回行数最多的表格数据,如存在多个行数相等的表格,则默认输出顶部表格数据。返回的数据结构层次为row-cell,表格的每一行都为一个单独的列表,列表中的元素即为原表格的各个单元格的数据。如:

# extract_table()用法
with pdfplumber.open(r'test.pdf') as pdf_info:  # 打开pdf文件
    page_one = pdf_info.pages[0]  # 选择第一页
    page_one_table = page_one.extract_table()
    for row in page_one_table:
        print(row)

三、提取pdf表格数据并保存到excel中

完整版,提取pdf表格数据并保存到excel中

import pdfplumber
from openpyxl import Workbook

class PDF(object):
    def __init__(self, file_path):
        self.pdf_path = file_path
        # 读取pdf文件
        try:
            self.pdf_info = pdfplumber.open(self.pdf_path)
            print('读取文件完成!')
        except Exception as e:
            print('读取文件失败:', e)

    # 打印pdf的基本信息、返回字典,作者、创建时间、修改时间/总页数
    def get_pdf(self):
        pdf_info = self.pdf_info.metadata
        pdf_page = len(self.pdf_info.pages)
        print('pdf共%s页' % pdf_page)
        print("pdf文件基本信息:\n", pdf_info)
        self.close_pdf()

    # 提取表格数据,并保存到excel中
    def get_table(self):
        wb = Workbook()  # 实例化一个工作簿对象
        ws = wb.active  # 获取第一个sheet
        con = 0
        try:
            # 获取每一页的表格中的文字,返回table、row、cell格式:[[[row1],[row2]]]
            for page in self.pdf_info.pages:
                for table in page.extract_tables():
                    for row in table:
                        # 对每个单元格的字符进行简单清洗处理
                        row_list = [cell.replace('\n', ' ') if cell else '' for cell in row]
                        ws.append(row_list)  # 写入数据
                con += 1
                print('---------------分割线,第%s页---------------' % con)
        except Exception as e:
            print('报错:', e)
        finally:
            wb.save('\\'.join(self.pdf_path.split('\\')[:-1]) + '\pdf_excel.xlsx')
            print('写入完成!')
            self.close_pdf()

    # 关闭文件
    def close_pdf(self):
        self.pdf_info.close()

if __name__ == "__main__":
    file_path = input('请输入pdf文件路径:')
    pdf_info = PDF(file_path)
    # pdf_info.get_pdf() # 打印pdf基础信息
    # 提取pdf表格数据并保存到excel中,文件保存到跟pdf同一文件路径下
    pdf_info.get_table()

总结

到此这篇关于python用pdfplumber提取pdf表格数据并保存到excel文件中的文章就介绍到这了,更多相关python提取pdf数据保存excel内容请搜索码农之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持码农之家!


参考资料

相关文章

  • python编写扫雷游戏的代码详解

    发布:2020-07-10

    我们给大家分享了一篇关于用python写一个扫雷经典游戏的实例代码,大家可以测试运行下。


  • Python实现企业微信的自动打卡功能实例方法

    发布:2021-04-30

    下面就通过Python程序来实现自动打卡,原理很简单,用Python设置定时任务,然后通过adb操作手机,完成打卡功能,感兴趣的朋友跟随小编一起看看吧


  • Python numpy.array()生成相同元素数组方法总结

    发布:2019-06-08

    今天小编就为大家分享一篇Python numpy.array()生成相同元素数组的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧


  • 浅谈Python基础之I/O模型

    浅谈Python基础之I/O模型

    发布:2022-10-10

    给大家整理一篇关于Python的教程,下面小编就为大家带来一篇浅谈Python基础之I/O模型。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧


  • Python中如何合并两个字典教程

    发布:2022-10-21

    给网友朋友们带来一篇关于Python的教程,字典是Python语言中唯一的映射类型,在我们日常工作中经常会遇到,下面这篇文章主要给大家介绍了关于Python中如何优雅的合并两个字典(dict)的相关资料,文中通过示例代码介绍的非常详细


  • 《Python编程:从入门到实践》第八章:函数

    发布:2018-12-01

    8-1 消息 编写一个名为display_message() 的函数,它打印一个句子,指出你在本章学的是什么。调用这个函数,确认显示的消息正确无误。 # -*- coding : utf-8 -*-def display_messages(): print(本章学习的是函数)if __name__ == __main__: display_messages() 结果: 8-2 喜欢的图书 编写一个名为favorite_book() 的函数,其中包含一个名为title 的形参。这个函数打印一条消息,如One


  • 如何解决Python中Dataframe通过print输出多行时显示省略号问题

    发布:2020-02-22

    今天小编就为大家分享一篇在Python中Dataframe通过print输出多行时显示省略号的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧


  • 《Python编程:从入门到实践》第五章:if语句

    发布:2018-12-01

    5-1 条件测试 编写一系列条件测试;将每个测试以及你对其结果的预测和实际结果都打印出来。你编写的代码应类似于下面这样: car = subaruprint(Is car == subaru? I predict True.)print(car == subaru) print(\nIs car == audi? I predict False.)print(car == audi) 详细研究实际结果,直到你明白了它为何为True 或False 。 创建至少10个测试,且其中结果分别为True 和Fals


  • python3 用ssh隧道连接mysql的操作

    发布:2021-05-07

    这篇文章主要介绍了python3 使用ssh隧道连接mysql的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧


网友讨论