郁闷，折腾了一周的爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 157 天前的主题，其中的信息可能已经有所发展或是发生改变。

辛辛苦苦解码 js ，绕开反爬机制，结果他认证的时候加了个手机实名，我艸。

郁闷

解码

实名

28 条回复 • 2024-08-31 22:02:06 +08:00

ccloving

157 天前

用影刀

littleG

157 天前

爬虫写的好，牢饭少不了。

ospider

157 天前

国内的网站还是别搞了，现在已经完全没有任何法治可言了，惹急了人家给上边塞点钱，你这就是破坏计算机信息系统安全罪。

guoguobaba

157 天前

@ospider 我做的是 rpa ，客户自己存用户名密码啊

ospider

157 天前

@guoguobaba #4 so ？我的意思就是现在你讲道理已经讲不明白了……

privateproxies

157 天前

哈哈 1 千头草泥马汹涌而来

julyclyde

157 天前

@ospider 你觉得“不想被爬”是违法的吗？

yanw

157 天前

@guoguobaba 可以了解下相关判例

macaodoll

157 天前 via iPhone

手机号注册吗？好多家接码平台，随便搞的

yb2313

157 天前

人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向

happybabys

157 天前

高端的食材只需要简单的烹饪

somebody1

157 天前

到解码 js 的时候就该用 playwright ，selenium 这种快速搞定，自己的时间比机器的资源值钱

guoguobaba

157 天前 via iPhone

@somebody1 selenium 也需要解 js 啊，瑞数了解一下

somebody1

157 天前

@guoguobaba #13
不用你解，直接从页面抓取结果

xinghusp

157 天前

@guoguobaba 兄弟别搞了。我正在经历这破事，甚至于对方公司都没有报案也不愿意配合作证，这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用，也无反爬机制。

fbichijing

157 天前

@yb2313 我倒觉得适度的爬虫是很有存在的必要性的，至少对个人来说是这样，可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它，客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。

jianchang512

157 天前

国内即便你遵守 robots.txt, 也一样可能吃牢饭

NoOneNoBody

157 天前

最近在重拾前端做自动化，一些网页或网站打开就自动提取信息
不过倒不是爬大量页面，就是打开哪个是哪个，减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行，单机单 ip 遇到 5 秒反爬确实搞不了，我以前都是爬外站多，没什么线下问题，最多把我“升级”称为“中国黑客”，笑

zeusho871

157 天前

不要实名的话这个框架好一点 drissionpage
playwright selenium 有特征不用去特征版本的就会被检测

WeaPoon

156 天前

@xinghusp #15 哎。

llbqwhtxi

156 天前

之前用 selenium 玩页游来的,最近一打开就被 403,要弃坑了(主要是不会"反爬")

incubus

156 天前

@xinghusp 细说

Daybyedream

156 天前

控制频率= = 不公开是最后的温柔

linxb

156 天前

@ospider #3 啊，这言论是什么立场，合着放开让你随便爬才是法治是吧

guoguobaba

156 天前

@somebody1 我指的破解 js ，是屏蔽他对 selenium 之类自动化工具的检测。你去看看瑞数是怎么干的吧。

naythefirst01

156 天前

想起之前一些 app 的反爬就是强制登录。。。简单有效

xinghusp

156 天前

@incubus 改天我写个帖子详细的介绍，这事情一两句说不清。。反正就是爬虫的入罪门槛非常低，只要：1.你没明确得到对方同意（签协议的那种同意，公共网页也不可以）； 2.你尝试绕过了任一反爬措施（包括但不限于验证码、代理、JS 混淆等等）； 3 、获利大于 5000 元。达成上述三个条件，就可以追究刑事责任了，哪怕对方不报警。

duansindo

152 天前

我这边需要抓取外国网站的数据，能做的联系我 https://t.me/githubaa