简述
以前购买了51Talk的课程,上了一段时间没有再上了,现在课程剩两个月了,还有150节课,为了能够不浪费,自己只能含泪每天上两节课来弥补以前懒惰造成的后果,结果发现课程太难约了,尤其是好的老师还有指定的时间的课程,自己想找收藏1000+以上的老师,还要一页一页的翻,可是结果也只能是事倍功半,1000+的老师太难找了,并且我自己的预约时间更是没有课,太惨了,最近刚学了Python,想着能不能通过爬虫来预约课程,于是就有了这个脚本51TalkBookLesson来预约收藏1000+老师的课。
功能
- 只预约菲律宾老师的课,不会预约到欧美外教4次次卡的课
- 自动预约指定时间,指定收藏数的老师的课
- 当所有的课程预约完成后,程序就会自动退出
Scrapy
为什么使用Scrapy
Scrapy中的CrawlSpider能够通过Rule规则提取对应的链接并进跟进请求,非常的方便,不需要我们自己一步一步的去请求每一个URL,这非常适合51Talk中老师比较多,页面比较多的情况。
登录
由于51Talk预约课程是需要登录的,所以我使用Cookie来进行账号的识别,我们需要为每一个请求的header添加一个Cookie
都有什么请求
1、搜索菲律宾老师的请求
def get_request_url(self):
urls = []
for lesson in self.need_book_lessons:
for i in range(1,self.allowed_page + 1):
url = u'http://www.51talk.com/reserve/index?type=ph&Date={0}&selectTime={1}&course=fiveone&pageID={2}&useSearch=y'.format(lesson.split('_')[0],lesson.split('_')[1],i)
print url
# yield url
urls.append(url)
return urls
2、老师的信息课程列表的详情
rules = (
Rule(LinkExtractor(allow=('http://www.51talk.com/teacher/info/t\d{7,10}')),process_request='request_teacher',callback='parse_teacher_lesson',follow=False,),
)
follow=False
是因为,老师详情页面会有一些推荐老师,这些老师可能是欧美外教,是需要使用4次次卡的,我们禁止跟进这些意外情况。
3、预约课程
r = session.post("http://www.51talk.com/reserve/doReserve", data=payload)
这些请求我们都需要添加Cookie,请求1是需要放在start_urls里面的,请求2的链接是通过Rule规则提取出来的,预约课程请求我则使用python的requests模块,之所以不使用scrapy的FormRequest,是因为FormRequest会被放在已经添加在Scrapy队列里的页面spider请求后面,当前面这些Spider请求完成之后,才能执行我们的预约课程,可是到那时候课程估计已经都没有了,我们需要的是当找到课程之后能够马上请求
Cookie的获取
1、在根目录下创建一个名字为cookie的文件
2、我们需要先登录51Talk网站,在开发模式下的控制台输入 document.cookie按回车,将cookie输出并粘贴到cookie文件,不需要双引号
Python中reques模块中的请求,Cookie的格式是字符串类型的,可以直接使用,而scrapy.http中的Request的Cookie格式是字典格式的,那么我们就需要将cookie文件中字符串类型cookie转换成字典,下面是转换方法:
def get_cookies(self,cookie):
cookie_list = cookie.split(';')
cookie_dic = {}
for cookie_key_value in cookie_list:
a_cookie = cookie_key_value.split('=')
cookie_dic[a_cookie[0]] = a_cookie[1]
return cookie_dic
Cookie的添加
搜索菲律宾老师
的链接是需要放在start_urls中的,所以这些请求是start_requests(self):
方法来生成请求的,那么就需要通过重写该方法并为该请求加上Cookie
def start_requests(self):
cookie_text = self.get_cookies(self.cookie)
# urls = self.get_request_url();
for url in self.get_request_url():
yield Request(url,cookies=cookie_text)
老师的信息课程列表的详情
的链接是Rule规则提取的,那就需要在Rule中的process_request
参数中的方法来进行处理,我写的Rule中的process_request
的值是request_teacher
,那就需要定义这样的一个方法来处理Cookie:
def request_teacher(self, request):
cookie_text = self.get_cookies(self.cookie)
tagged = request.replace(cookies=cookie_text)
return tagged
预约课程
的链接是需要进post的请求的,我们使用下面的方法:
session = requests.session()
session.headers.update({"Cookie": self.cookie})
r = session.post("http://www.51talk.com/reserve/doReserve", data=payload)
使用
配置
- 1、如果你想预约1000+收藏的老师课,以及指定时间段的课,这些都可以设置,在TeacherSpider.py文件配置你需要的设置和预约的课程,具体配置如下:
allowed_page = 10 #允许每个上课时间所爬取得最大页数
min_faver_count = 1000 #外教老师最少的收藏数
need_book_lessons = ['20170524_44','20170524_45']
你可以修改以上参数来预约相应的的老师及课程,其中need_book_lessons
中的参数20170524_44
代表2017年5月24日的21:30的课程,_
前面的代表日期,后面的代表第几节课,时间从6
点开始,数字从13
开始,每半个小时数字加1
,6:30
则为14
,7:00
为15
,依次类推,将你需要预约课程的时间添加到need_book_lessons
中
- 2、当cookie和指定时间段课程都已经配置好时我们就可以来进行爬虫的执行了,在终端中
cd
到工程根目录,然后执行scrapy crawl TeacherSpider -a cookie=cookie
就可以可以愉快地约课了。
提示
- 如果你在一个指定的日期取消了20次课程,就再也取消不了,找客服也没用,请看这里。
- 其实51Talk真正的好老师有时候根本就没有一个课可以约,如果你真想约那就自己找到老师的QQ号(找不到可以问客服要的哟),联系老师本人约课。