通常一门语言的学习都是由学习语法开始的,而本人在学习的过程中发现语法是很容易忘记的,即使学习完了假如不使用的话还是不会这门语言,因此本文通过一个具体的需求来学习python,一步一步走入python的世界。
题干:数据库为mysql,数据库名称为db,给定一张article表,其中包含字段keywords,内容为填写的文章关键词且用空格分隔多个关键词。
实现功能:统计所有文章的关键词及其个数,存入数据表中。
功能分析:
读取所有文章的keywords字段,按照空格分隔,统计出现频次。
创建关键词统计表,将统计结果存入表中。
实现文章增量记录的读取与处理。
将python文件打包布置到服务器上,定时执行。
在项目开始之前,确保python开发环境已经装好,如何安装在此就不赘述。本人使用的是python2.7,win7系统,所有的代码以python2.7为例。
下面,将一步步的介绍如何实现上面设定的小功能。
读取Mysql数据库
第一步需要连接mysql,并读取article表中的keywords字段,为后续操作做准备。
Python操作mysql数据库用到的是MySQLdb包,使用命令pip install MySQLdb即可。
#引入MySQLdb 库,命名为mdb
import MySQLdb as mdb
##连接数据库
try:
#建立数据库连接
conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
#获取操作游标
cursor = conn.cursor()
except:
print "Could not connect to MySQL server."
exit(0)
数据库连接成功后,读取article表,就要用到cursor.execute函数,并设置异常处理。
#引入MySQLdb 库,命名为mdb
import MySQLdb as mdb
##连接数据库
try:
#建立数据库连接
conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
#获取操作游标
cursor = conn.cursor()
except:
print "Could not connect to MySQL server."
exit(0)
##处理数据
try:
table_name = 'article'
sql = 'SELECT article_id,keywords FROM '+ table_name
count = cursor.execute(sql)
print count
except:
import traceback
traceback.print_exc()
finally:
conn.commit()
cursor.close()
conn.close()
cursor.execute函数得到是返回记录个数。
如果返回有记录,则处理keywords 字段的数据,并统计词频。思路是,定义一个空的字典{}用于存放统计结果;遍历记录,通过空格拆分字段,去除空字符后,与字典进行比对,若存在字典中则对应词条频次加1,若不存在则向字典中新增词条频次为1。
#引入MySQLdb 库,命名为mdb
import MySQLdb as mdb
##连接数据库
try:
#建立数据库连接
conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
#获取操作游标
cursor = conn.cursor()
except:
print "Could not connect to MySQL server."
exit(0)
##处理数据
try:
table_name = 'article'
sql = 'SELECT article_id,keywords FROM '+ table_name
count = cursor.execute(sql)
#print count
if(count>0):
results = cursor.fetchall() #取出全部数据集
results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
##获取各关键词数目
kw_list={} #存放词频统计结果的字典
#遍历数据结果集
for r_id,row in results:
last_id = r_id #记录依次赋值,直到最后一条记录id
kw_str = ('%s' % row) #字段转成字符类型
kw_str = kw_str.strip() #去除文本前后空格
if(kw_str!=''):
kw_arr = kw_str.split(' ')
for kw in kw_arr:
kw = kw.strip()
if (kw!=''):
if (kw_list.has_key(kw)):
kw_list[kw] = kw_list[kw] + 1
else:
kw_list[kw] = 1
print kw_list
except:
import traceback
traceback.print_exc()
finally:
conn.commit()
cursor.close()
conn.close()
打印kw_list即可看到计算出的关键词频次统计。其中,results = list(results)
这句非常重要,python从数据库中取出的数据是元组,通过list()函数转换成列表之后即可执行遍历操作。中文关键词字段处理时,总是报编码错误,加上kw_str = ('%s' % row)
语句将字段转成字符类型即可。
至此,文章关键词的频次统计功能完成了,需要将统计结果存入数据表中。
操作Mysql数据库
设计关键词统计表article_keyword表,表结构如下图所示。
统计结果写入表中,会出现两种情况,一种是表中存在的词,直接累加更新频次即可;另一种是不存在的词,则需要新增词。
为了规避每循环一次就执行一次更新或者新增的数据库操作,提升数据库访问性能,采用批量执行的方式。具体代码实现如下所示:
#引入MySQLdb 库,命名为mdb
import MySQLdb as mdb
##连接数据库
try:
#建立数据库连接
conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
#获取操作游标
cursor = conn.cursor()
except:
print "Could not connect to MySQL server."
exit(0)
##处理数据
try:
table_name = 'article'
sql = 'SELECT article_id,keywords FROM '+ table_name
count = cursor.execute(sql)
#print count
if(count>0):
results = cursor.fetchall() #取出全部数据集
results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
##获取各关键词数目
kw_list={} #存放词频统计结果的字典
#遍历数据结果集
for r_id,row in results:
last_id = r_id #记录依次赋值,直到最后一条记录id
kw_str = ('%s' % row) #字段转成字符类型
kw_str = kw_str.strip() #去除文本前后空格
if(kw_str!=''):
kw_arr = kw_str.split(' ')
for kw in kw_arr:
kw = kw.strip()
if (kw!=''):
if (kw_list.has_key(kw)):
kw_list[kw] = kw_list[kw] + 1
else:
kw_list[kw] = 1
#print kw_list
##结果写入关键词统计表中
update_values = [] ##update的值
insert_values = [] ##insert的值
for key,value in kw_list.items():
kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")
if(kw_count>0): #表中存在当前词
update_values.append((key,int(value)))
else: #表中不存在当前词
insert_values.append((key,int(value)))
#执行批量更新语句
if (len(update_values)>0):
sub_str = ''
sub_str_in = ''
for k,v in update_values:
sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
sub_str_in += "'"+k+"',"
sub_str_in = sub_str_in.strip(',')
sub_str_in = '(' + sub_str_in + ')'
sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
#原始数量+本次计算数量
cursor.execute(sql_update)
#执行批量插入语句
if (len(insert_values)>0):
cursor.executemany('insert into zk_article_keyword(name,count) values(%s,%s)', insert_values)
except:
import traceback
traceback.print_exc()
finally:
conn.commit()
cursor.close()
conn.close()
本文使用mysql 自带的语句构建批量更新,实例如下:
UPDATE tablename
SET field = CASE id
WHEN 1 THEN 3
WHEN 2 THEN 4
WHEN 3 THEN 5
END
WHERE id IN (1,2,3)
意思是,更新tablename表中的field 字段,当id=1时field =3;当id=2时field =4;当id=3时field =5。
MySQLdb提供了executemany函数执行数据库批量插入操作。
至此,实现了关键词统计结果批量写入数据库中的功能。
分页处理大数据量
以上的操作是一次性读取所有文章并循环处理记录。如果数据量较大,一次性读取的记录太多,会极大影响执行效率,甚至产生内存错误。
为了规避这类错误的发生,采用分页处理的方式,设定每次处理的记录数量,并记录最后一个读取到的记录ID,直至数据读取完成。
#引入MySQLdb 库,命名为mdb
import MySQLdb as mdb
import random,time
##连接数据库
try:
#建立数据库连接
conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
#获取操作游标
cursor = conn.cursor()
except:
print "Could not connect to MySQL server."
exit(0)
##处理数据
number = 20 #设置每次处理的记录条数
last_id = 0 #每次循环的最后一个处理记录ID
try:
table_name = 'article'
while True:
if (last_id>0):
sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
elif(last_id==0):
#从第一个记录开始执行
sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)
count = cursor.execute(sql)
if(count>0):
results = cursor.fetchall() #取出全部数据集
results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
##获取各关键词数目
kw_list={} #存放词频统计结果的字典
#遍历数据结果集
for r_id,row in results:
last_id = r_id #记录依次赋值,直到最后一条记录id
kw_str = ('%s' % row) #字段转成字符类型
kw_str = kw_str.strip() #去除文本前后空格
if(kw_str!=''):
kw_arr = kw_str.split(' ')
for kw in kw_arr:
kw = kw.strip()
if (kw!=''):
if (kw_list.has_key(kw)):
kw_list[kw] = kw_list[kw] + 1
else:
kw_list[kw] = 1
#print kw_list
##结果写入关键词统计表中
update_values = [] ##update的值
insert_values = [] ##insert的值
for key,value in kw_list.items():
kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")
if(kw_count>0):
update_values.append((key,int(value)))
else:
insert_values.append((key,int(value)))
#执行批量更新语句
if (len(update_values)>0):
sub_str = ''
sub_str_in = ''
for k,v in update_values:
sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
sub_str_in += "'"+k+"',"
sub_str_in = sub_str_in.strip(',')
sub_str_in = '(' + sub_str_in + ')'
sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
#print sql_update
#原始数量+本次计算数量
cursor.execute(sql_update)
#执行批量插入语句
if (len(insert_values)>0):
cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
else:
break #跳出while循环
except:
import traceback
traceback.print_exc()
finally:
conn.commit()
cursor.close()
conn.close()
设置每次读取记录数number,并记录每次循环处理的最后一个记录ID(last_id),使用while循环来读取、处理数据,直到没有数据则跳出循环。
定时执行增量数据
以上实现了对article表中所有记录的分页读取与批量处理,但在实际作业中,article表中的记录是会不断新增的,不可能每次都对全部记录执行操作,因此需要在每次执行程序后记录最后一个记录的ID,下次执行程序前读取文章ID,从该记录之后读取数据。
解决此问题的方式,我采用了通过一个txt文件记录文章ID,文件名为bak.txt,初识值为0,每次程序执行先读取该文件记录的ID,程序执行完后将处理的最后一篇文章的ID放入文件中。这里就包含了python对txt文件的读取和写入功能,具体代码如下所示:
#引入MySQLdb 库,命名为mdb
import MySQLdb as mdb
import random,time
##读取bak.txt文件中记录的ID
txt_id = 0 #文件中记录的ID
file_obj = open('bak.txt')
try:
txt_id = file_obj.read()
finally:
file_obj.close()
##连接数据库
try:
#建立数据库连接
conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
#获取操作游标
cursor = conn.cursor()
except:
print "Could not connect to MySQL server."
exit(0)
##处理数据
number = 20 #设置每次处理的记录条数
last_id = int(txt_id) #每次循环的最后一个处理记录ID
try:
table_name = 'article'
while True:
if (last_id>0):
sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
elif(last_id==0):
#从第一个记录开始执行
sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)
count = cursor.execute(sql)
if(count>0):
results = cursor.fetchall() #取出全部数据集
results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
##获取各关键词数目
kw_list={} #存放词频统计结果的字典
#遍历数据结果集
for r_id,row in results:
last_id = r_id #记录依次赋值,直到最后一条记录id
kw_str = ('%s' % row) #字段转成字符类型
kw_str = kw_str.strip() #去除文本前后空格
if(kw_str!=''):
kw_arr = kw_str.split(' ')
for kw in kw_arr:
kw = kw.strip()
if (kw!=''):
if (kw_list.has_key(kw)):
kw_list[kw] = kw_list[kw] + 1
else:
kw_list[kw] = 1
#print kw_list
##结果写入关键词统计表中
update_values = [] ##update的值
insert_values = [] ##insert的值
for key,value in kw_list.items():
kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")
if(kw_count>0):
update_values.append((key,int(value)))
else:
insert_values.append((key,int(value)))
#执行批量更新语句
if (len(update_values)>0):
sub_str = ''
sub_str_in = ''
for k,v in update_values:
sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
sub_str_in += "'"+k+"',"
sub_str_in = sub_str_in.strip(',')
sub_str_in = '(' + sub_str_in + ')'
sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
#print sql_update
#原始数量+本次计算数量
cursor.execute(sql_update)
#执行批量插入语句
if (len(insert_values)>0):
cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
else:
break #跳出while循环
except:
import traceback
traceback.print_exc()
finally:
conn.commit()
cursor.close()
conn.close()
##获取处理完的最后一条记录ID,写入文件中
file_obj = open('bak.txt', 'w')
file_obj.writelines(str(last_id))
file_obj.close( )
需要注意的是last_id 的初始值不再是0,需要改成从txt文件中读取的文章ID即last_id = int(txt_id)
。
另,python对于数据类型要求很严格,字符串的连接必须要先强制转换成字符型,数值类型亦然。
至此,所有的代码书写完成。
Python文件打包成exe
写完python脚本以后,需要在IDLE运行才能执行程序,而文章可能每天都会更新,因此需要脚本能够定期自动运行,所以考虑将python脚本打包成exe文件,设置成定时任务。
Python文件打包成exe有两种工具:py2exe和pyInstaller,根据网友推荐选择pyInstaller进行python文件打包。步骤如下所示:
- 官网下载pyInstaller,解压到任意文件夹下。本人下载的版本是PyInstaller-3.2.1,解压到D盘。
- 在pyInstaller文件目录下,点击(Shift+鼠标右键)在弹出菜单栏中选择“在此处打开命令窗口”。在命令窗口中输入
setup.py install
进行安装。 - 若安装报错,则还需要安装PyWin32,输入
import win32com
若不报错则表示安装成功。 - 在命令窗口输入
pyinstaller.py -F D:/PyRoot/getkws.py
,执行完成后在pyInstaller目录下生成了名字为python文件名的文件夹getkws,打开后看到如下内容。
- 打开dist文件夹,即可看到生成好的getkws.exe文件。
exe文件生成成功后,在系统自带的系统工具-任务计划程序中“创建基本任务”,选择执行文件并设置定时间隔,设定完成后即可。
至此,使用Python实现文章关键词分割、统计的功能就全部实现了。
本文通过一个简单的需求,运用python语言一步步的介绍了功能的解决思路和python的编程写法,其中遇到了很多的坑,例如中文乱码、字符串连接、批量修改、文件打包等。有问题的出现才会激发解决问题的冲动,不懂的就去百度谷歌,一个个的解决、实现、最终完成,很有成就感。虽然这只是一个小小的功能,代码的书写也比较基础,却也明白了python整个开发流程和部署,算是对本人python入门项目的一次梳理。