懂 Python selenium 的大神进，请教个问题 - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3581 days ago, the information mentioned may be changed or developed.

Python selenium 的 webdriver 如何可以获取到一个 url get 请求下的所有子资源的请求？比如图片， js,jsoup 之类的；需求是想做爬虫，但有些信息在页面上并不显示，只有在子请求返回的 jsoup 里才有，我要找到这个 jsoup 的 url 请求，然后再单独发起一次 get 即可获取到我想要的数据；不要问为什么不直接 F12 从 network 里抓包找到对应的 http 接口，这个接口带有签名，只有通过 selenium 访问生成签名后，再基于带有签名的 url 去拿数据，这也是为什么要用 selenium 的原因。我目前的思路有两个：

基于 scapy 抓包，找到对应的 url ，再单独发起请求。 2.打开 chrome://net-internals/#events 进行监听找到对应的 url 。这两个方法都比较麻烦，不知道 selenium 有没有自带的接口可以获取到所有 url 的请求， get_log （）　里也没找到。或者说 selenium 如果能直接捕获到子 url 请求的结果也可以，比如某个子请求的 url 返回的 jsoup 。理论上一定是捕获到了的，要不然后无法生成最终页面，只是不知道如何单独提取出来。

8 replies • 2016-08-16 00:03:24 +08:00

1

ziXiong

Aug 15, 2016

不太明白为什么要找到 url 后单独发请求。直接通过 selenium 模拟行为，触发你想要的页面加载不可以吗

2

billion

Aug 15, 2016

首先你需要知道那个子请求时怎么触发的，例如屏幕往下滚动，还是点某个按钮。

通过调用 webdriver 接口，或者的直接执行 javascript 来模拟这些触发条件。

3

billzhuang

Aug 15, 2016

有同样的需求，真巧

4

lxy

Aug 15, 2016

找到他生成签名的方式。

5

kukuwhu

OP

Aug 15, 2016

@ziXiong 页面显示的内容不完整，比如 jsoup 里有５个字段，页面中只用了３个，另外两个通过页面无法抓取。

6

kukuwhu

OP

Aug 15, 2016

@billion 并不是通过外部控件触发，而是类似 ajax ，自动发起的。

7

lisztli

Aug 15, 2016

不一定非得跟 selenium 过不去，使用 twisted 或者 tornado 给出的 demo 中的 proxy 的例子，将经过 proxy 的全部流量都写到磁盘上，然后请求结束后，去对应的文件中找你需要的信息去。

8

zeq

Aug 16, 2016 via Android

有个东西叫 splash 能满足你的要求

About · Help · Advertise · Blog · API · FAQ · Solana · 5399 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 70ms · UTC 08:16 · PVG 16:16 · LAX 01:16 · JFK 04:16
♥ Do have faith in what you're doing.