［Python］將PDF轉存圖片－Lung-Yu,Tsai 的部落格

當有大量PDF的內容需要擷取，但是資料量較多時，需要耗費較多人力，故透過程式將PDF轉成圖片檔案。

1. 首先，為了美觀先製作 ProgressBar：

from __future__ import print_function
import sys
import re

class ProgressBar(object):
    DEFAULT = 'Progress: %(bar)s %(percent)3d%%'
    FULL = '%(bar)s %(current)d/%(total)d (%(percent)3d%%) %(remaining)d to go'

    def __init__(self, total, width=40, fmt=DEFAULT, symbol='█',
                 output=sys.stderr):
        assert len(symbol) == 1

        self.total = total
        self.width = width
        self.symbol = symbol
        self.output = output
        self.fmt = re.sub(r'(?P<name>%\(.+?\))d',
            r'\g<name>%dd' % len(str(total)), fmt)

        self.current = 0

    def __call__(self):
        percent = self.current / float(self.total)
        size = int(self.width * percent)
        remaining = self.total - self.current
        bar = '[' + self.symbol * size + ' ' * (self.width - size) + ']'

        args = {
            'total': self.total,
            'bar': bar,
            'current': self.current,
            'percent': percent * 100,
            'remaining': remaining
        }
        print('\r' + self.fmt % args, file=self.output, end='')

    def done(self):
        self.current = self.total
        self()
        print('', file=self.output)
        

def main():
    from time import sleep

    progress = ProgressBar(5, fmt=ProgressBar.FULL,symbol="█")

    for x in range(progress.total):
        progress.current += 1
        progress()
        sleep(0.1)
    progress.done()
    
if __name__ == "__main__":
    main()

進入正題，將PDF檔轉換為圖片檔：

import sys, fitz, os, datetime
import argparse
from UITools import ProgressBar

def PDF2Images(pdfPath, imagePath,image_name="images_"):
    
    startTime_pdf2img = datetime.datetime.now()# spending time start counting.
    pdfDoc = fitz.open(pdfPath)
    
    pageCount = pdfDoc.pageCount
    progress = ProgressBar(pageCount, fmt=ProgressBar.FULL,symbol="█")
    
    for pg in range(pageCount):
        page = pdfDoc[pg]
        rotate = int(0)
        # default image size：792X612, dpi=96
        zoom_x = 1.5 #(1.33333333-->1188x918)
        zoom_y = 1.5
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pix = page.getPixmap(matrix=mat, alpha=False)

        # check folder exists
        if not os.path.exists(imagePath):
            os.makedirs(imagePath)

        fn = imagePath + '/' + image_name +'%s.png' % pg
        pix.writePNG(fn) # save imgages
        
        # show progress
        progress.current += 1
        progress()
    endTime_pdf2img = datetime.datetime.now()   
    
    print("pdf2img time =",(endTime_pdf2img - startTime_pdf2img).seconds,"s")

def main(src,dst):
    PDF2Images(src, dst)
    
    
if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='Process some integers.')
    parser.add_argument("-i", "--input", type=str,
                        help='an pdf filename for process source file.')
    parser.add_argument("-o",'--output', type=str,
                        help='an folder path for output images.')
    parser.add_argument("-fn",'--filename', type=str,
                        help='an filename prefix for output images.')

    args = parser.parse_args()
    shell_args = args._get_kwargs()	
    kwargs = dict(shell_args)
    
    main(kwargs['input'],kwargs['output'])

安裝相關套件

pip install pyMuPDF

執行範例：

python pdf2images.py -i "demo.pdf" -o imgs

python

Lung-Yu,Tsai

Lung-Yu,Tsai 的部落格

Lung-Yu,Tsai 發表在痞客邦留言(0) 人氣()

E-mail轉寄

Lung-Yu,Tsai 的部落格

Author Personal website

Tygr portfolio

Technology Record and Shared Space

［Python］將PDF轉存圖片

歷史上的今天

留言列表

文章搜尋

文章分類

Revit 二次開發 (2)

Security (2)

Program (14)

Machine Learing (16)

Infrastructure (5)

Software Engineering (2)

熱門文章

最新文章

文章精選

QR Code

最新留言

誰來我家

參觀人氣

RSS訂閱

Lung-Yu,Tsai 的部落格

Author Personal website Tygr portfolio Technology Record and Shared Space

［Python］將PDF轉存圖片

歷史上的今天

留言列表

文章搜尋

文章分類

Revit 二次開發 (2)

Security (2)

Program (14)

Machine Learing (16)

Infrastructure (5)

Software Engineering (2)

熱門文章

最新文章

文章精選

QR Code

最新留言

誰來我家

參觀人氣

RSS訂閱

Author Personal website

Tygr portfolio

Technology Record and Shared Space