销售最重要的就是数据 ,数据一般来源于网站,b2b, 还有一些会展的会刊。
这里要学习的,就是beautifulSoup网站, 一段段小小的代码,5分钟可以帮你节约输入六个小时。
首先看看代码,
__author__ = 'lixiang'
#coding:utf-8
from bs4 import BeautifulSoup
import urllib2
import re
from openpyxl import Workbook
urls = ['','',''] #网站保密
links = []
for url in urls:
request = urllib2.Request(url)
response = urllib2.urlopen(request)
source = response.read()
response.close()
soup = BeautifulSoup(source)
urlLink = soup.find_all(href=re.compile("custom_exhibitor"))
number = len(urlLink)
for numbers in range(number):
links.append(urlLink[numbers]['href'])
count = 2
wb = Workbook()
ws =wb.active
for url in links:
thtext=[]
tdtext=[]
text=[]
text1=[]
request = urllib2.Request(url)
response = urllib2.urlopen(request)
source=response.read()
response.close()
soup =BeautifulSoup(source)
thtext = soup.find_all("th")
tdtext = soup.find_all("td")
length = len(thtext)
for i in range(length):
a = thtext[i].string
text.append(a)
for j in range(length):
try:
b = tdtext[j].string.lstrip()
except AttributeError:
b = tdtext[j].string
text1.append(b)
print text1[1]
if count >1 :
ws.append([text[i]for i in range(length)])
count = count -1
else:
pass
ws.append([text1[j]for j in range(length)])
wb.save('文件名.xlsx')
以上代码,比较满意的是,可以爬数据了,但是有几个问题, 如何让源代码可读性,比如是否可以实现类。 以及多线程加快爬虫速度。
这是下一次迭代的事情。
感谢互联网,感谢知识,这就是效率吧。