前言
最近在使用pandas做数据分析的相关工作,过程中涉及到PDF报表的生成处理。因为工作环境的原因,使用的包必须是开源,切要满足能够定义静态模板,使其与动态数据分离,所以网上找了一圈以后发现了ReportLab, z3c.rml及Preppy这一套组合。
ReportLab是使用Python编写的用于创建PDF文档的开源引擎,以及Preppy也是一个开源的文本预处理器。当然,提供ReportLab的企业提供了名为rlextra的软件包,其能够解析基于Preppy设计的报表模板。不过由于收费的原因,不能使用。不过幸运的是,有一个名为z3m.rml的开源包,可以完成解析模板的功能。
安装包
首先如下所示安装z3m.rml,Preppy及ReportLab这3个包,所有这些包都是直接发布到Python Package Index (PyPI)的,所以直接使用pip install即可安装。
pip install z3c.rml preppy reportlab
使用ReportLab生成PDF
假设已经存在模板文件的情况下,如下几句简单代码即可完成PDF生成工作。
import preppy
from z3c.rml import rml2pdf
// 指定编码解决模板包含中文问题
source_text = open(template_name, 'r', encoding='utf-8').read()
template = preppy.getModule(template_name, sourcetext=source_text)
// 准备报表数据
datas = [...]
rmlText = template.get(datas)
pdf = rml2pdf.parseString(rmlText)
with open('test.pdf', 'wb') as file:
file.write(pdf.read())
当然ReportLab作为专门生成PDF的库,也直接通过编写Python代码的方式直接编写PDF结构,但是并不推荐将PDF结构的定义放入代码中,还是将模板定义与动态内容分离更加直观,维护也更加方便。
使用Preppy定义模板
Preppy作为专为ReportLab使用的模板系统,有别于现在流行的Django和Jinja,具有以下的特点:
- 轻量级,因为语法简单也容易学习
- 完全由Python实现
- 能够将.prep后缀的模板文件编译成.pyc的二进制代码
- 调试很容易,能够定位到具体出错的行
常用的语法,与Django类似
// 显示定义模板传入参数
{{def(a,b,c)}}
// 一般表达式
{{expression}}
// 相对复杂的表达式,可能跨行
{{eval}}
a_complex("and", "very", "verbose", function="call")
{{endeval}}
// 任何Python的脚本,包括导入包
{{script}}
from datetime import datetime
today = datetime.today()
{{endscript}}
// 条件,循环表达式
{{if EXPR}}...{{elif EXPR}}...{{else}}...{{endif}}
{{while CONDITION}}...{{else}}...{{endwhile}}
{{for EXPR}}...{{else}}...{{endfor}}
知道了以上的内容就能够开始模板的开发了,是不是很简单。当然对于ReportLab来说,Preppy定义的模板包含如下几个重要组成部分,只有很好的理解了这些关键组成部分及相互关联才能更好的编写模板文件,下面代码示例简单介绍了模板的组成部分及功能用法。
<!--RML模板的文档定义 -->
<!DOCTYPE document SYSTEM "rml.dtd">
<!--document节点是模板文件的根节点,filename是必要属性,但并没什么用,最终生成的PDF文件名称还是依靠代码控制 -->
<document filename="example_01.pdf">
<!--template节点通过绝对定位的方式定义PDF布局, 一般定义不变的静态内容,比如页头,页尾什么的-->
<!--showBoundary属性将显示frame的边框,用于开发调试-->
<template showBoundary="0">
<!--pageTemplate用于具体页面定义,通过添加多个pageTemplate定义可以实现多页面不同布局,具体控制是在下面的story节点完成-->
<pageTemplate id="main">
<!--pageGraphics节点放直接绘制的绝对定位元素,例如线条,图形,图片,文本等,静态内容的样式控制也必须在此定义-->
<pageGraphics>
<!-- 使用drawString来绘制页面标题 -->
<fill color="red"/>
<setFont name="Times-Roman" size="24"/>
<drawString x="100" y="700"> Hello!</drawString>
<!-- 通过place节点可以将可变元素包含在pageTemplate中,例如blockTable,para等 -->
<place x="300" y="500" width="250" height="250">
<blockTable style="blocktablestyle1">
<tr>
<td>A block </td><td>table</td>
</tr>
<tr>
<td>inside </td><td>a place tag.</td>
</tr>
</blockTable>
</place>
</pageGraphics>
<!-- frame节点用来定义动态内容,具体动态内容是在story节点完成 -->
<frame id="first" x1="100" y1="400" width="150" height="200"/>
<frame id="second" x1="400" y1="400" width="150" height="200"/>
</pageTemplate>
</template>
<!-- 动态元素的样式定义节点 -->
<stylesheet>
<!-- 定义了pageTemplate中的blockTable样式 -->
<blockTableStyle id="blocktablestyle1">
<blockFont name="Courier-Bold"/>
<blockFont name="Helvetica-BoldOblique" size="8"/>
<blockTextColor colorName="green"/>
</blockTableStyle>
<!-- 定义了story中的para样式 -->
<paraStyle name="textstyle1"
fontName="Helvetica"
fontSize="9"
textColor="blue"/>
</stylesheet>
<!-- 定义了frame中显示的动态内容,及显示逻辑,默认情况下是按照frame的定义顺序装满一个frame后,动态内容自动放入下一个frame中,如果没有即生成到下一页 -->
<story>
<!-- 手动指定之后的2个para节点放入id为second的frame中 -->
<nextFrame name="second"/>
<para style="textstyle1">
Welcome to RML!
</para>
<para>
This is the "story". This is the part of the RML document where
your text is placed.
</para>
<!-- 手动指定之后的1个para节点放入id为first的frame中 -->
<nextFrame name="first"/>
<para>
It should be enclosed in "para" and "/para" tags to turn it into
paragraphs.
</para>
<!-- 可以将固定尺寸的元素定义到story中 -->
<illustration width="50" height="100" borderStrokeWidth="1" borderStrokeColor="black">
<image file="files/rml2pdf.gif" x="10" y="10"/>
</illustration>
</story>
</document>
关于RML的一些通用约定
- 模板元素的颜色定义支持基于html命名格式(例如:red),RGB格式(例如:"#004A8D)及 CMYK (例如:#ff99001f);
- 定位用的x,y坐标指的是元素的左下角;
- 元素尺寸单位,输入纯数字时默认是points,当然可以指定mm,cm,in等单位;
- 类似blockTable的样式定义中使用到的start,stop属性的元组值,是表示(列,行)