chrome的附加功能多一点,建议用chrome浏览器,因为这个浏览器能多开,问题也就解决了,也没有必要再去找其他浏览器了。[这个方法可以比较方便爬取淘宝天猫等反爬手段比较厉害的网站]
想必各位朋友碰到过网站会检测自动化程序,然后导致页面不能载入,举个栗子:
现在我在实现51job的HR端部分功能的自动化,
但是就是登录不进去,而且还不能利用本地cookie登录,
结果在console里面一查: window.navigator.webdriver 返回的是true,
这就是网站的一种检测方式,识别到是自动化软件
我百度了一下,有一种方案:
设置为开发者模式,具体操作为
self.options = webdriver.ChromeOptions()
# self.options.add_argument(generate_user_agent(device_type="desktop"))
# self.options.add_argument('lang=zh-CN,zh,zh-TW,en-US,en')
self.options.add_experimental_option('excludeSwitches', ['enable-automation'])
self.driver = webdriver.Chrome(options=self.options)
上面这个方案实施了后,页面不能检测到webdriver,但是依旧登录不上,不知道哪里的问题,调用本地存的cookie也是不行,难道还是识别到了自动化软件。
然后又找到了另外一种方案,调用本地的浏览器【推荐】。
这个方案是目前最佳的方案,因为可以不反复启动浏览器,只要不退出,程序就可以直接利用打开的浏览器,但是这个方案有几个需要注意的地方。
- 需要定位到chrome.exe(就是安装谷歌浏览器的那个开启浏览器的那个文件,为了方便,可以添加进系统path(这个就不用介绍了,和你配置python的path一样的),然后利用以下方式启动浏览器)
chrome.exe --remote-debugging-port=9527 --user-data-dir="C:\selenium_xxx\AutomationProfile"
上面的参数里面 9527 就是你要开辟的控制端口这里可以随便改,
但是不要用常用的那些端口比如(80,443,8080,27017....)
然后后面的那个--user-data-dir="这里面的链接经过测试,
可以这么写C:\xxxxx\AutomationProfile" xxxx是你随便写的:>>>
个人推荐:建议设置为selenium_text selenium_taobao selenium_kanzhun这样的格式
不同的就是可以开启不同的账号,如果都用这个位置,可能会发现哪怕用不同的端口,但是程序只会第一个调用的成功。
所以:不同的端口做不同的事情,用不同的文件夹位置放账户配置信息。哪怕这次窗口关闭了,
你下次调用这个窗口打开一样的页面,只要不到cookie失效时间,你登录的信息都还是存在的。
python里面的链接方式:我是写在类里面的__init__
里面的,所以有个self
self.options = webdriver.ChromeOptions()
self.options.add_argument("--no-sandbox") # 这里的信息是附加信息,可以不设置,但是推荐设置
self.options.add_argument('--disable-gpu') # 这里的信息是附加信息,可以不设置,但是推荐设置
self.options.add_experimental_option("debuggerAddress", "127.0.0.1:9527")
self.driver = webdriver.Chrome(options=self.options)
公司要求三套账号登录,所以我就改了端口,还有后面的那个dir位置,就可以成功开启三个本地调用的浏览器了。
当然还有另外的方式【不推荐】
下载不同版本的chrome,还要下载对应版本的chromedirver略显麻烦。
顺道一提:建议各位学习各个程序功能的小伙伴,为了程序的可拓展性,程序里面的可能变的参数,建议单独设置一个配置文件,然后把那些信息放配置文件里面,这样复制文件也很方便,只要改配置文件信息就好了。比如我上面的那个端口信息,我是设置到配置文件里面,因为不同的程序会开不同的窗口,python3.6+ 可以利用f-string 很方便的,我喜欢写个python_config.py
的文件放配置信息,我一般放在该项目下单独创建的一个helper
的目录下面 所以可以这样子写 : 在文件上面导入模块的时候写
from helper import python_config
这样子后面就可以这样子用这个自定义的配置文件了。
options.add_experimental_option("debuggerAddress", f"127.0.0.1:{python_config.CHROME_PORT}")