oracle大数据量python导入实践-1w/s

在项目中需要将一个80w+的csv数据(200+m)导入到oracle库,一开始使用的是Navicat for Oracle的导入工具。跑了五六分钟之后绝望了,因为才跑了2%,按这样的速度跑半天都跑不完。
回想了一下老本行mysql,觉得Oracle应该也会有一个批量插入的高效率语句的写法。于是翻看了oracle的官方文档精通 Oracle+Python,第 1 部分:查询最佳应践

一次多行

大型的插入操作不需求多次的单独插入,这是因为 Python 通过 cx_Oracle.Cursor.executemany 方法完全支持一次插入多行。
限制执行操作的数量极大地改善了程序性能,因此在编写存在大量插入操作的应用程序时应首先考虑这一功能。 

呲!这就是我想要的。
迅速仿造官方的demo写了一个简易的导入脚本,跑了一下,138.7s也就是将近2分多钟就跑完了这200多m,差不多88w行的数据。附上性能测试

总行数: 885640
2017-05-17 14:11:24
===begin===
2017-05-17 14:11:24
prepare end
2017-05-17 14:11:26 => 1 - 10000 ( 9999 ) finish
2017-05-17 14:11:27 => 10001 - 20000 ( 9999 ) finish
2017-05-17 14:11:28 => 20001 - 30000 ( 9999 ) finish
2017-05-17 14:11:30 => 30001 - 40000 ( 9999 ) finish
2017-05-17 14:11:31 => 40001 - 50000 ( 9999 ) finish
2017-05-17 14:11:33 => 50001 - 60000 ( 9999 ) finish
2017-05-17 14:11:34 => 60001 - 70000 ( 9999 ) finish
2017-05-17 14:11:35 => 70001 - 80000 ( 9999 ) finish
2017-05-17 14:11:37 => 80001 - 90000 ( 9999 ) finish
2017-05-17 14:11:38 => 90001 - 100000 ( 9999 ) finish
2017-05-17 14:11:39 => 100001 - 110000 ( 9999 ) finish
2017-05-17 14:11:42 => 110001 - 120000 ( 9999 ) finish
2017-05-17 14:11:44 => 120001 - 130000 ( 9999 ) finish
2017-05-17 14:11:45 => 130001 - 140000 ( 9999 ) finish
2017-05-17 14:11:46 => 140001 - 150000 ( 9999 ) finish
2017-05-17 14:11:47 => 150001 - 160000 ( 9999 ) finish
2017-05-17 14:11:49 => 160001 - 170000 ( 9999 ) finish
2017-05-17 14:11:50 => 170001 - 180000 ( 9999 ) finish
2017-05-17 14:11:51 => 180001 - 190000 ( 9999 ) finish
2017-05-17 14:11:53 => 190001 - 200000 ( 9999 ) finish
2017-05-17 14:11:56 => 200001 - 210000 ( 9999 ) finish
2017-05-17 14:11:58 => 210001 - 220000 ( 9999 ) finish
2017-05-17 14:12:00 => 220001 - 230000 ( 9999 ) finish
2017-05-17 14:12:02 => 230001 - 240000 ( 9999 ) finish
2017-05-17 14:12:04 => 240001 - 250000 ( 9999 ) finish
2017-05-17 14:12:06 => 250001 - 260000 ( 9999 ) finish
2017-05-17 14:12:10 => 260001 - 270000 ( 9999 ) finish
2017-05-17 14:12:14 => 270001 - 280000 ( 9999 ) finish
2017-05-17 14:12:16 => 280001 - 290000 ( 9999 ) finish
2017-05-17 14:12:17 => 290001 - 300000 ( 9999 ) finish
2017-05-17 14:12:19 => 300001 - 310000 ( 9999 ) finish
2017-05-17 14:12:25 => 310001 - 320000 ( 9999 ) finish
2017-05-17 14:12:26 => 320001 - 330000 ( 9999 ) finish
2017-05-17 14:12:28 => 330001 - 340000 ( 9999 ) finish
2017-05-17 14:12:29 => 340001 - 350000 ( 9999 ) finish
2017-05-17 14:12:30 => 350001 - 360000 ( 9999 ) finish
2017-05-17 14:12:51 => 360001 - 370000 ( 9999 ) finish
2017-05-17 14:12:53 => 370001 - 380000 ( 9999 ) finish
2017-05-17 14:12:54 => 380001 - 390000 ( 9999 ) finish
2017-05-17 14:12:56 => 390001 - 400000 ( 9999 ) finish
2017-05-17 14:12:58 => 400001 - 410000 ( 9999 ) finish
2017-05-17 14:13:36 => 410001 - 420000 ( 9999 ) finish
2017-05-17 14:13:37 => 420001 - 430000 ( 9999 ) finish
2017-05-17 14:13:39 => 430001 - 440000 ( 9999 ) finish
2017-05-17 14:13:40 => 440001 - 450000 ( 9999 ) finish
2017-05-17 14:13:42 => 450001 - 460000 ( 9999 ) finish
2017-05-17 14:13:43 => 460001 - 470000 ( 9999 ) finish
2017-05-17 14:13:45 => 470001 - 480000 ( 9999 ) finish
2017-05-17 14:13:47 => 480001 - 490000 ( 9999 ) finish
2017-05-17 14:13:48 => 490001 - 500000 ( 9999 ) finish
2017-05-17 14:13:50 => 500001 - 510000 ( 9999 ) finish
2017-05-17 14:13:51 => 510001 - 520000 ( 9999 ) finish
2017-05-17 14:13:52 => 520001 - 530000 ( 9999 ) finish
2017-05-17 14:13:54 => 530001 - 540000 ( 9999 ) finish
2017-05-17 14:13:56 => 540001 - 550000 ( 9999 ) finish
2017-05-17 14:13:57 => 550001 - 560000 ( 9999 ) finish
2017-05-17 14:13:59 => 560001 - 570000 ( 9999 ) finish
2017-05-17 14:14:01 => 570001 - 580000 ( 9999 ) finish
2017-05-17 14:14:03 => 580001 - 590000 ( 9999 ) finish
2017-05-17 14:14:05 => 590001 - 600000 ( 9999 ) finish
2017-05-17 14:14:06 => 600001 - 610000 ( 9999 ) finish
2017-05-17 14:14:07 => 610001 - 620000 ( 9999 ) finish
2017-05-17 14:14:09 => 620001 - 630000 ( 9999 ) finish
2017-05-17 14:14:10 => 630001 - 640000 ( 9999 ) finish
2017-05-17 14:14:11 => 640001 - 650000 ( 9999 ) finish
2017-05-17 14:14:13 => 650001 - 660000 ( 9999 ) finish
2017-05-17 14:14:14 => 660001 - 670000 ( 9999 ) finish
2017-05-17 14:14:16 => 670001 - 680000 ( 9999 ) finish
2017-05-17 14:14:17 => 680001 - 690000 ( 9999 ) finish
2017-05-17 14:14:19 => 690001 - 700000 ( 9999 ) finish
2017-05-17 14:14:20 => 700001 - 710000 ( 9999 ) finish
2017-05-17 14:14:23 => 710001 - 720000 ( 9999 ) finish
2017-05-17 14:14:28 => 720001 - 730000 ( 9999 ) finish
2017-05-17 14:14:34 => 730001 - 740000 ( 9999 ) finish
2017-05-17 14:14:37 => 740001 - 750000 ( 9999 ) finish
2017-05-17 14:14:40 => 750001 - 760000 ( 9999 ) finish
2017-05-17 14:14:43 => 760001 - 770000 ( 9999 ) finish
2017-05-17 14:14:46 => 770001 - 780000 ( 9999 ) finish
2017-05-17 14:14:49 => 780001 - 790000 ( 9999 ) finish
2017-05-17 14:14:51 => 790001 - 800000 ( 9999 ) finish
2017-05-17 14:14:55 => 800001 - 810000 ( 9999 ) finish
2017-05-17 14:15:15 => 810001 - 820000 ( 9999 ) finish
2017-05-17 14:15:17 => 820001 - 830000 ( 9999 ) finish
2017-05-17 14:15:19 => 830001 - 840000 ( 9999 ) finish
2017-05-17 14:15:20 => 840001 - 850000 ( 9999 ) finish
2017-05-17 14:15:22 => 850001 - 860000 ( 9999 ) finish
2017-05-17 14:15:24 => 860001 - 870000 ( 9999 ) finish
2017-05-17 14:15:27 => 870001 - 880000 ( 9999 ) finish
2017-05-17 14:15:28 => 880001 - 890000 ( 5639 ) finish
2017-05-17 14:15:28
execute end

请按任意键继续. . .
[Finished in 138.7s]

从这里可以看出,1w行的数据1s就可以搞定了,这效率杠杠的。文末献上粗糙的python导入脚本。

困难回顾

在实际操作时,可能会遇到以下问题

1.ORA-12899: value too large for column

大意就是值越界的,原来的数据库是没有这个问题的,于是猜测是编码集的原因,由于我用的是utf8,与库的编码集不一致,于是乎一个汉字被转成\uxxxx之类的。

解决方法:在脚本加入os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8',让数据库自行转换编码。

2. ORA-03135: connection lost contact

意思就是说与数据库的连接断开的,原因是我的执行时间太长,超过了Oracle设置允许的最大时间

解决方法:在Oracle安装目录下找到/network/admin/sqlnet.ora,如博主的目录/app/oracle/product/11.2.0/dbhome_1/network/admin/sqlnet.ora。在该文件追加
sqlnet.expire_time = 60
时间单位:分钟
取值范围:大于0
默认取值:无


以下是python demo

# -*- coding: utf8 -*-

import cx_Oracle
import csv
import time
import os

# 编码转换
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

M = []
csvfile = file('C:\Users\Administrator\Desktop\Table.csv', 'rb')
reader = csv.reader(csvfile)


for line in reader:
    try:
        M.append((line[0],line[1],line[2],line[3]))
    except AttributeError:
        pass

csvfile.close() 



#创建数据库连接
conn = cx_Oracle.connect('oracle', '123456', '192.168.102.126:1521/ORCL')

#获取操作游标
cursor = conn.cursor()

print len(M)

print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
print '===begin==='

cursor.prepare("INSERT INTO MY_TABLE (ID, COMPANY, DEPARTMENT, NAME) VALUES (:1,:2,:3,:4)")

print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
print 'prepare end'

for i in range(1, 31):
    begin = (i - 1) * 30000
    end = i * 30000
    cursor.executemany(None, M[begin:end])
    print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())), '=>', begin, '-', end, '(',  len(M[begin:end]), ')','finish'

print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
print 'execute end'

conn.commit()
#885640
print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
print 'end'

r = cursor.execute("SELECT COUNT(*) FROM MY_TABLE")
print cursor.fetchone()

#关闭连接,释放资源
cursor.close()
conn.close()

听说使用数据泵的导入导出效率更高,有机会尝试一下。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容