仅供练习使用,代码注释很详细
收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。
昨天加了个班,对一些老代码进行了重构和测试,大部分都可以用。
欢迎 star
模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。
虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。
1
CriseLYJ OP 顶一下
|
2
ThunderMonkey 2019-03-07 10:10:10 +08:00
已 star,正好学习
|
3
zhihaofans 2019-03-07 10:10:28 +08:00 via Android
厉害
|
4
kylix 2019-03-07 10:12:19 +08:00
顶一下,已 star
|
5
zhila 2019-03-07 10:12:46 +08:00
感谢大佬分享
|
6
zhihaofans 2019-03-07 10:13:13 +08:00 via Android
Done 的 github 打错了
|
7
CallMeReznov 2019-03-07 10:14:52 +08:00
|
8
zhangneww 2019-03-07 10:22:34 +08:00
支持一下!
项目里并没有 V2EX 的登录呀? |
9
senggai 2019-03-07 10:25:03 +08:00
妙啊...
|
10
ARhen 2019-03-07 10:45:21 +08:00
厉害
|
11
toono 2019-03-07 10:48:50 +08:00 via iPhone
优秀
|
12
CriseLYJ OP 多谢支持,真心感谢
|
13
CriseLYJ OP @zhihaofans 我去改掉,嘻嘻
|
15
hellojay 2019-03-07 11:02:09 +08:00
厉害厉害
|
16
exceloo 2019-03-07 11:03:18 +08:00
验证码是怎么解决的?
|
17
bonfy 2019-03-07 11:06:59 +08:00
好像 repo 里没有 V2 啊,我没看错吧
|
18
coeo91 2019-03-07 11:12:23 +08:00 via iPhone
验证码怎么过的
|
19
newmind 2019-03-07 11:15:04 +08:00
这么多网站 也是个强人
|
20
zxcvsh 2019-03-07 11:29:57 +08:00 via iPhone
项目没看,但是楼主有自动化识别验证码方面的研究可以单独开贴讲解一下
|
23
claymore94 2019-03-07 11:33:42 +08:00
验证码看了下是下载验证码图片到本地 input 阻塞,手动输入的
|
24
tanranran 2019-03-07 11:35:08 +08:00
666
mobaidalao |
25
CriseLYJ OP 还是要你们多多支持,嘻嘻
|
26
Lninn 2019-03-07 12:26:52 +08:00 via Android
不得不承认你很强👍
|
27
fazero 2019-03-07 12:33:42 +08:00 via iPhone
雪球网可以吗
|
28
zwpaper 2019-03-07 12:39:14 +08:00 via iPhone
解决了广大爬虫的第一步,有想法
|
30
CriseLYJ OP 我会去尝试你们给我提的建议!
|
31
daydaydayup 2019-03-07 13:00:21 +08:00 via iPhone
star 一波
|
32
CriseLYJ OP @daydaydayup 多谢支持,哈哈😆
|
33
wulin 2019-03-07 13:15:55 +08:00
star 支持一波
|
35
CriseLYJ OP 评论是怎样加图片的啊啊啊啊啊啊
|
36
exip 2019-03-07 13:27:30 +08:00 via Android
像微信这种需要手机端扫码的怎么破?
|
38
leesymbol 2019-03-07 13:41:59 +08:00
谢谢
|
39
xpresslink 2019-03-07 13:45:23 +08:00
star 为敬。
|
40
CriseLYJ OP @xpresslink 多谢兄弟
|
41
Etuloser 2019-03-07 13:57:40 +08:00
|
42
CriseLYJ OP 谢谢你们🙏
|
43
martyartrt1 2019-03-07 14:05:15 +08:00
1688 搞一个
|
44
CriseLYJ OP OOK
|
45
CriseLYJ OP @martyartrt1 可以尝试
|
46
wutiaojian 2019-03-07 14:12:13 +08:00
验证码是滑块的,请问有么?
|
47
justff 2019-03-07 14:13:46 +08:00
淘宝登录脚本 测试结果是
File "taobao.py", line 32, in login login_links.click() selenium.common.exceptions.ElementNotVisibleException: Message: element not visi ble |
48
WaJueJiPrince 2019-03-07 14:14:18 +08:00
@CriseLYJ 嗨,我看了您的 github 中的采集淘宝的爬虫代码,您采用的是 Sphash 的方式,但是淘宝应该需要登陆才能采集商品页面吧?也就是当我点击一类商品的时候会出现这种页面
https://i.loli.net/2019/03/07/5c80b61730d91.png 也就是要求登陆,请问您是怎么解决的呢?而且我在代码中似乎没有看到有关 Cookie 的信息。 |
49
beneo 2019-03-07 14:18:05 +08:00
@WaJueJiPrince 我也有同样的疑问,哈哈
|
50
CriseLYJ OP @wutiaojian bilibili 那个就是
|
51
WaJueJiPrince 2019-03-07 14:31:01 +08:00
@beneo 您破解过淘宝登陆的验证码的那个吗?淘宝现在好像又升级了,似乎能检测到 Selenium,您有什么解决方案吗?
|
52
CriseLYJ OP 等我写说明文档
|
53
tikazyq 2019-03-07 14:45:20 +08:00 via iPhone
支持,可以加入到 crawlab 做测试哈
|
55
Liang 2019-03-07 14:52:13 +08:00
大众点评、美团
|
57
dadama 2019-03-07 14:52:59 +08:00 via Android
想问一下淘宝的登录,验证码
|
58
CriseLYJ OP 哈哈
|
59
ligthdawn 2019-03-07 15:18:56 +08:00
楼主有试过淘宝登录的吗?公司的电脑,不管上淘宝的哪个商品网页,一律要登录,手动拉滑动条都登录不了。因为前阵子一直在用 selenium 绕过淘宝的登录,也绕不过去,一直提示拉滑动条,后面不了了之。怀疑公司的 ip 给拉进淘宝的恶意名单了,不管上哪个淘宝商品网页就要登录,切到另一个淘宝商品网页又要登录,很烦。楼主有好办法吗?
|
60
littleangel 2019-03-07 15:19:29 +08:00
star 已递给大佬
|
61
woshipanghu 2019-03-07 15:20:55 +08:00
美团外卖试试看 挺难搞定的
|
62
jucelin 2019-03-07 16:03:46 +08:00
LZ 试试这个 http://wsjs.saic.gov.cn
|
63
oszlso 2019-03-07 16:12:19 +08:00
登陆 Apple ID
|
64
saltxy 2019-03-07 16:34:37 +08:00
大佬,已 star
|
65
konikoo 2019-03-07 16:35:43 +08:00
淘宝的反爬虫很厉害,不知道 lz 这个的成功率是多少。
之前查过比较好的解决方案是用 pyppeteer |
66
konikoo 2019-03-07 16:39:19 +08:00
@ligthdawn 用 pyppeteer, 不要用 selenium,webdriver 一启动就直接被判定为爬虫,之后哪怕手动输入密码都不会验证通过。
或者玄学一下,用 firefox59.0.2 这个版本。同样的脚本和 selenium。这个版本的火狐绝大概率不会出现反爬虫。 |
67
WaJueJiPrince 2019-03-07 16:45:53 +08:00
@konikoo 淘宝的判断 Selenium 的原理是什么呢?
|
68
laoyuan 2019-03-07 16:55:33 +08:00
没有煎蛋妹子图差评
|
69
konikoo 2019-03-07 17:04:08 +08:00
@WaJueJiPrince 你可以上网搜下,记得是会检查一个属性是不是为真。直接在浏览器的控制台也可以查看,手动启动和 selenium 启动之后的属性是相反的。
|
70
CriseLYJ OP 被禁言了。。。
|
71
ismyyym 2019-03-07 17:23:25 +08:00
你这个背景颜色,看着字好难受
|
73
aoe2ex 2019-03-07 17:27:03 +08:00
加星星,加星星
|
74
whitewolf 2019-03-07 17:28:50 +08:00
赶紧 star 一下 t
|
76
halfer53 2019-03-07 17:38:32 +08:00
@WaJueJiPrince window.navigator.webdriver === true,当然,这只是最基本的反爬虫
|
77
WaJueJiPrince 2019-03-07 17:40:23 +08:00
@halfer53 谢谢 这个看到了 但是感觉淘宝应该不会只是设置了这个
|
78
hiyouli 2019-03-07 17:49:18 +08:00
哎哟,这个不得了呢。
|
79
CriseLYJ OP 多谢支持
|
80
becauseIdo 2019-03-07 18:07:51 +08:00
66666
|
81
zhou00 2019-03-07 18:45:49 +08:00
感谢分享
|
82
lance7in 2019-03-07 19:29:59 +08:00
佩服佩服
|
83
CriseLYJ OP 多谢支持💗💗
|
84
CriseLYJ OP 🙆🏻♂️🙆🏻♂️🙆🏻♂️
|
86
CriseLYJ OP 可以回去再试试
|
87
515576745 2019-03-07 22:17:45 +08:00
淘宝那个之前研究过几天,发现用 selenium 基本都是暴毙,不管怎么修改 driver 内部属性淘宝还是能检测出来,直接出来滑动条。期待 lz 更新。~
另外知乎 lz 是自己分析 js 吗?我看好多网上的爬虫分析都是到 js 这块就放弃了。。 |
89
CriseLYJ OP 新增下载网易云的音乐!如果时间够多,我会尝试下载会员音乐!
|
90
CriseLYJ OP 帖子不能沉,
|
91
kajweb 2019-03-08 00:30:53 +08:00
https://mp.dayu.com
这个搞一下? |
92
lovestudykid 2019-03-08 01:07:47 +08:00
有 reCAPTCHA 的登陆怎么搞
|
93
May725 2019-03-08 01:08:05 +08:00
强啊
|
94
enrolls 2019-03-08 01:41:38 +08:00
关于对无头的检测,@konikoo 提及的 navigator.plugins.length == 0 是特征之一。https://antoinevastel.com/bot%20detection/2017/08/05/detect-chrome-headless.html
|
95
theks 2019-03-08 02:39:58 +08:00 via Android
不错。如果能持续维护、适配就好了。加油。
|
97
CriseLYJ OP 顶一下
|
98
Sxxiong 2019-03-08 10:02:05 +08:00
大佬你好 我是个初学者 想问问 selenium+webdriver 能很好的判断网页加载完成吗 因为看到有时候浏览器标签页 logo 还在 loading 代码执行了登录 另外还有模拟点击的话 怎么避免网络影响 有没有适合初学者看的文档推荐一下
附一个用 request 没解决的网站: https://eu.battle.net/shop/zh/checkout/key-lookup |
99
cmlhaha 2019-03-08 10:07:08 +08:00 via Android
顶一下,标记
|