最近刚刚离职,想面试一下爬虫工作试试,怎么说呢,为了这件事纠结了好久,具体就不多说了,下面就是为了面试的一些准备。。
我感觉,scrapy能够满足大量的需求,除非反爬虫特别变态,在考虑自己写框架来处理,所以研究的方向主要在如何让scrapy更加高效的处理爬虫
概念
异步:
阻塞
多线程
作者:严肃链接:https://www.zhihu.com/question/19732473/answer/20851256来源:知乎著作权归作者所有,转载请联系作者获得授权。“阻塞”与"非阻塞"与"同步"与“异步"不能简单的从字面理解,提供一个从分布式系统角度的回答。1.同步与异步同步和异步关注的是消息通信机制 (synchronous communication/ asynchronous communication)所谓同步,就是在发出一个调用时,在没有得到结果之前,该调用就不返回。但是一旦调用返回,就得到返回值了。换句话说,就是由调用者主动等待这个调用的结果。而异步则是相反,调用在发出之后****,这个调用就直接返回了,所以没有返回结果。换句话说,当一个异步过程调用发出后,调用者不会立刻得到结果。而是在调用发出后,被调用者通过状态、通知来通知调用者,或通过回调函数处理这个调用。典型的异步编程模型比如Node.js举个通俗的例子:你打电话问书店老板有没有《分布式系统》这本书,如果是同步通信机制,书店老板会说,你稍等,”我查一下",然后开始查啊查,等查好了(可能是5秒,也可能是一天)告诉你结果(返回结果)。而异步通信机制,书店老板直接告诉你我查一下啊,查好了打电话给你,然后直接挂电话了(不返回结果)。然后查好了,他会主动打电话给你。在这里老板通过“回电”这种方式来回调。2. 阻塞与非阻塞阻塞和非阻塞关注的是程序在等待调用结果(****消息,****返回值)时的状态.阻塞调用是指调用结果返回之前,当前线程会被挂起。调用线程只有在得到结果之后才会返回。非阻塞调用指在不能立刻得到结果之前,该调用不会阻塞当前线程。还是上面的例子,你打电话问书店老板有没有《分布式系统》这本书,你如果是阻塞式调用,你会一直把自己“挂起”,直到得到这本书有没有的结果,如果是非阻塞式调用,你不管老板有没有告诉你,你自己先一边去玩了, 当然你也要偶尔过几分钟check一下老板有没有返回结果。在这里阻塞与非阻塞与是否同步异步无关。跟老板通过什么方式回答你结果无关。
[知乎解释](https://www.zhihu.com/question/19732473)
感觉并没有什么用,说的都是一个东西
异步和多线程有什么区别?其实,异步是目的,而多线程是实现这个目的的方法。
所以 ,效率不行 ,加线程就好了,至于具体怎么加。
两个方面吧
1,爬去的时候,一次爬几个url
2,存入数据库的时候,不管是否存入,直接进行爬取(想想,其实更好的是爬取和存入相分离,这不就是scrapy吗)
项目
ip问题(这个问题应该可以解决,github上有)
分布式(参见博客)
js采集(仅仅实现selenimu或者无头)
项目:
等等再说吧。
好了,明天要开始工作了,网站的信息也需要填充了