Python批量排版案例如何实现？

wen python案例 2026-06-07 14:17:38 2

Python批量排版案例如何实现？自动化文档与Excel排版的实战指南

📖 目录导读

为什么需要批量排版？——痛点与效率价值
核心工具与库——Python生态中必知的神器
实战案例一：Word文档批量排版、页眉页脚、字体与段落）
实战案例二：Excel表格批量排版（列宽、边框、条件格式、分页）
实战案例三：PDF/图片排版合并（批量生成标签、报表）
常见问题与问答（踩坑点与解决方案）
SEO优化与注意事项（代码可读性、异常处理、速度优化）

为什么需要批量排版？

在日常工作中,经常遇到这样的场景：你需要处理100份合同、500张产品标签、或者1000行统计报表，如果手动调整每份文件的字体、段落缩进、表格边框、页边距，不仅耗费大量时间，还极易出错。

批量排版的意义在于： 通过Python脚本统一控制格式、内容与布局，让原本需要数小时的工作在几分钟内完成，且格式绝对一致。

核心工具与库

库名称	适用场景	核心功能
`python-docx`	Word文档排版	操作段落、字体、表格、页眉页脚、分节符
`openpyxl`	Excel2010+ 表格排版	读写单元格、设置列宽、行高、边框、条件格式、打印区域
`reportlab`	PDF生成与排版	精确控制页面布局、嵌入字体、表格与图片
`Pillow`	图片排版与拼接	调整图片尺寸、添加水印、合并图片为PDF
`PyMuPDF`	PDF解析与排版	修改现有PDF的页面尺寸、旋转、添加注释

实战案例一：Word文档批量排版

场景： 将100份合同草稿统一设置标题为黑体二号、正文为宋体小四、页边距上下2.54cm、左右3.18cm，并添加“机密”水印。

步骤拆解：

from docx import Document
from docx.shared import Pt, Cm, RGBColor
from docx.enum.text import WD_ALIGN_PARAGRAPH
import os
def batch_format_word(folder_path, template_name="report.docx"):
    for file in os.listdir(folder_path):
        if file.endswith(".docx"):
            doc = Document(os.path.join(folder_path, file))
            # 1. 设置所有段落：标题样式 + 正文样式
            for para in doc.paragraphs:
                if para.style.name.startswith("Heading"):
                    para.alignment = WD_ALIGN_PARAGRAPH.CENTER
                    for run in para.runs:
                        run.font.name = "黑体"
                        run.font.size = Pt(22)  # 二号
                else:
                    para.alignment = WD_ALIGN_PARAGRAPH.LEFT
                    for run in para.runs:
                        run.font.name = "宋体"
                        run.font.size = Pt(12)  # 小四
            # 2. 设置页边距
            section = doc.sections[0]
            section.top_margin = Cm(2.54)
            section.bottom_margin = Cm(2.54)
            section.left_margin = Cm(3.18)
            section.right_margin = Cm(3.18)
            # 3. 添加水印（利用页眉填充图像）
            header = section.header
            # 此处可插入图片路径，或使用图片叠加文字
            doc.save(os.path.join(folder_path, "formatted_" + file))
batch_format_word("./contracts/")

关键点： 使用python-docx直接修改所有段落样式，避免逐个元素调整。

实战案例二：Excel表格批量排版

场景： 200个不同区间的销售报表，需要统一设置表头加粗、列宽根据内容自适应、边框实线、打印时每页显示标题行。

代码示例：

import openpyxl
from openpyxl.styles import Font, Border, Side, Alignment, PatternFill
from openpyxl.utils import get_column_letter
import glob
def batch_format_excel(pattern="*.xlsx"):
    files = glob.glob(pattern)
    thin_border = Border(
        left=Side(style='thin'),
        right=Side(style='thin'),
        top=Side(style='thin'),
        bottom=Side(style='thin')
    )
    header_font = Font(bold=True, size=12, color="FFFFFF")
    header_fill = PatternFill(start_color="4472C4", end_color="4472C4", fill_type="solid")
    for f in files:
        wb = openpyxl.load_workbook(f)
        for ws in wb.worksheets:
            # 1. 自动调整列宽
            for col_idx, cell in enumerate(ws[1], 1):
                max_len = 0
                for row in ws.iter_rows(min_row=1, max_col=col_idx, max_row=ws.max_row):
                    val = str(row[0].value) if row[0].value else ""
                    max_len = max(max_len, len(val))
                ws.column_dimensions[get_column_letter(col_idx)].width = max_len + 2
            # 2. 设置表头样式
            for cell in ws[1]:
                cell.font = header_font
                cell.fill = header_fill
                cell.alignment = Alignment(horizontal="center", vertical="center")
            # 3. 添加边框
            for row in ws.iter_rows(min_row=1, max_row=ws.max_row, max_col=ws.max_column):
                for cell in row:
                    cell.border = thin_border
            # 4. 设置打印标题行（重复表头）
            ws.print_title_rows = "1:1"
            ws.page_setup.orientation = "landscape"  # 横向打印
        wb.save(f"formatted_{f}")
batch_format_excel("*.xlsx")

注意： 打印标题行仅在保存为.xlsx有效，如果是旧版.xls需用xlwt。

实战案例三：PDF/图片排版合并

场景： 生成1000张产品标签（每张包含品名、规格、条码），按3×4排列在一张A4纸上。

from reportlab.lib.pagesizes import A4
from reportlab.lib.units import mm
from reportlab.pdfgen import canvas
from PIL import Image
import pandas as pd
def generate_labels(csv_data, output="labels.pdf"):
    data = pd.read_csv(csv_data)
    pages = A4  # 210x297mm
    canvas_obj = canvas.Canvas(output, pagesize=pages)
    width, height = pages
    cols, rows = 3, 4
    margin = 10 * mm
    card_w = (width - 2*margin) / cols
    card_h = (height - 2*margin) / rows
    for idx, row in data.iterrows():
        col = idx % cols
        r = idx // cols % rows
        page_num = idx // (cols * rows)
        if idx % (cols*rows) == 0 and idx != 0:
            canvas_obj.showPage()  # 换页
        x = margin + col * card_w
        y = height - margin - (r+1) * card_h
        # 绘制卡片边框
        canvas_obj.setStrokeColorRGB(0,0,0)
        canvas_obj.rect(x, y, card_w, card_h)
        # 添加文字
        canvas_obj.drawString(x+5*mm, y+card_h-10*mm, f"品名: {row['name']}")
        canvas_obj.drawString(x+5*mm, y+card_h-25*mm, f"规格: {row['spec']}")
        # 假设有条码图片
        barcode_path = f"./barcodes/{row['barcode']}.png"
        try:
            img = Image.open(barcode_path)
            img.thumbnail((50*mm, 20*mm))
            canvas_obj.drawImage(barcode_path, x+5*mm, y+5*mm, width=50*mm, height=20*mm)
        except:
            pass
    canvas_obj.save()
generate_labels("products.csv")

常见问题与问答

❓ Q1: 批量排版时如何避免内存溢出？

A: 如果文件超过1000份，不要一次性全部加载到内存，使用for file in files循环逐个处理并保存，若Word文档极大（上百页），考虑使用python-docx的流式处理模式，或先用docx2txt提取文本再重写。

❓ Q2: 排版后部分字体丢失怎么办？

A: 确保系统安装了目标字体，对于跨平台服务器，推荐使用英文通用字体（如Arial）或包含中文字符的OpenType字体，并指定run.font.name='SimSun'后，再将字体文件嵌入到PDF/WORD中。

❓ Q3: 如何批量排版不同结构的文档？

A: 使用模板引擎（Jinja2 + python-docx）> 对文档进行变量替换，或者先分析文档结构（通过xml.etree.ElementTree解析docx），统一修改对应XML节点。

❓ Q4: 批量排版后出现单元格错位或图片丢失？

A: 建议在每次排版前先备份原始文件，使用openpyxl时，如果原始表格有合并单元格，必须先解除合并再重新设置格式；对于图片，使用绝对路径或相对项目根目录的路径。

SEO优化与注意事项

为了让你的Python批量排版脚本更容易被搜索引擎收录,请注意以下几点：中关键词前置**：本文标题即为“Python批量排版案例如何实现”，批量排版”为核心词。

内链与段落锚点：文章中通过目录锚点（如#实战案例一：Word文档批量排版）增加爬虫抓取的深度，且每个案例都包含一个清晰的方法名。
代码块注释：每条代码后跟随中文注释，便于读者理解逻辑，同时增加关键词密度。
实用性导向：案例全部基于真实工作场景（合同、报表、标签），比纯理论教程更易获得SEO权重。
安全建议：若需处理敏感数据（如合同中的客户信息），建议在代码中添加脱敏函数（def desensitize(text):），避免隐私泄露。

最后的小技巧： 将整个脚本打包成.exe或Docker镜像，配合schedule库实现定时自动排版，进一步拓展应用场景。

通过以上三个案例,你应该已经掌握了Python批量排版的完整方法论，从Word到Excel再到PDF，核心思路是一致的：先拆解排版规则，再找到对应的库API，最后用循环和条件判断实现自动化，下次遇到类似场景，不妨打开终端，用Python脚本替代机械重复的手动操作。

标签：批量排版实现案例

本文地址： https://www.dfhcn.com/post/1579.html

文章来源： wen