Python第15课:一道自习题:十九大报告共多少次提到“创新”?
时间 2019-01-28 上午
主讲 自习
地点 四楼电教室
自习题:
十九大报告全文共3.2万字,用python运算,共多少次提到“创新”二字?
分析:
这种任务,对python来说是轻而易举的。
这是一个字符串处理的任务,使用切片函数split处理起来十分容易。例如:
a="张三,李四,王五"
b=a.split(",")
c=len(b)
b切片后,变成一个列表,用len函数求出其元素个数。如果要计算有几个切割符号,则减一。
完成这一任务,还需要将十九大全文导入到程序变量中,使用包python-docx来完成。
参考答案:
import docx
file=docx.Document("E:\\19.docx")
jg=0
zi=0
for i in range(len(file.paragraphs)):
jg+=len(file.paragraphs[i].text.split("创新"))-1
zi+=len(file.paragraphs[i].text)
print("十九大报告全文共%s个字,共%s次提到“创新”二字"%(zi,jg))
运行结果:
十九大报告全文共32737个字,共59次提到“创新”二字
实现方法很多,答案仅供参考。
关于docx包:
docx包的全称是python-docx,可以使用命令pip install python-docx来安装,在pycharm则直接添加。
file导入后,是按段读取的。
遍历:for i in range(len(file.paragraphs))
file.paragraphs[i] 表示第i段
file.paragraphs[i].text 则是第i段的文本内容