V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 298 页 / 共 312 页
回复总数  6227
1 ... 294  295  296  297  298  299  300  301  302  303 ... 312  
2018-10-23 11:43:36 +08:00
回复了 yellowmarlboro 创建的主题 Python 跪求某猫列表页抓取办法, 菜鸡我要自闭了.
然后就是阿里系的东西都需要有比较高质量的 IP 才能大量爬,账号不是必须的
2018-10-23 11:42:30 +08:00
回复了 yellowmarlboro 创建的主题 Python 跪求某猫列表页抓取办法, 菜鸡我要自闭了.
给你个提示,尝试一下 H5 版本的搜索接口
2018-10-20 13:27:08 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 #37
1.这家的东西我还从来没见过有哪个网站用了的,然后官网注册接口也挂掉了,没法测试。根据网上搜到的结果来看只是做了混淆,强度还没有阿里的那么大,并不是无法破解的

2.cloudflare 的那个防 DDoS 的 js 属于最简单级别,从看操作过程到写出破解 demo 连 5 分钟都不用,提出生成参数的那部分执行一下就没别的了,里面也没塞一些会大量占用 CPU 的代码,对成本几乎无影响。你可以了解一下知道创宇和阿里的同类型产品,其实也就只是多了一些混淆、加密、document 操作、浏览器指纹、鼠标轨迹之类的东西而已,把核心部分提出来并把需要拟人的部分生成好执行一遍就完事了

3.成本问题(时间成本和金钱成本)在很多时候其实并不是什么很大的问题,需要用到大量复杂人机验证的数据,数据本身的价值也会很高。但是在使用了那么多人机验证之后服务方还要考虑如何才能不影响普通用户的使用体验,所以国内的像百度、阿里、腾讯、网易等大企业对需要进行保护的部分通常都不会设置太复杂的人机验证,而是依靠各种方式收集证据并使用法律手段来解决掉通过那些部分赚钱的灰黑产
2018-10-19 19:17:33 +08:00
回复了 benzalus 创建的主题 程序员 惊了,公司突然停电
貌似是有改动后 1-3 秒就自动保存了
写框架的时候写单元测试了,但是爬虫本身没写,毕竟给解析规则和 需要跟着对方平台的修改而修改的加密函数 写单元测试没啥意义。效果嘛。。其实也没啥感觉,框架写完之后就没怎么改动过了。
2018-10-19 19:03:30 +08:00
回复了 Deville 创建的主题 程序员 我今晚想玩游戏。。。
内容引起不适,有老婆、老婆漂亮、有两室一厅的房子
有一次在弄完了一个很复杂的加密之后,我给最后写出来的加密函数起名为 fuck_******_sign,“*”是平台名
2018-10-19 18:09:15 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
爬虫工程师已经是一个对新手很友好的职业了,大部分公司的需求其实都不难,需求难搞的都是那种做的事情偏灰 /黑产的
研究方向的话可以往逆向和机器学习方面发展,毕竟难搞的东西都需要这两个。尽量减少使用 headless、appium 之类的东西,毕竟很浪费资源且爬的速度慢,对技术水平也不会有太大的提升。
2018-10-19 17:53:37 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 #28
1. 如果网站的 JS 有(黑盒) uglify,读懂他的 JS 非常困难,成本非常高
你说的应该是混淆 /加密后的代码吧,如果只是简单混淆的话,有很多方式能快速找到需要的东西;如果是加密的话,不管怎么加密最终还是会需要还原出原来的代码来执行的,只需要处理一下就可以把原始代码弄出来。弄得多了之后并不需要花费多少时间就能找到需要的部分

2. 存在解不了的 JS,比如 cloudflare 动态下发的 JS (动态下发一个 JS,每次都不一样),无法破解
动态下发的 JS 都会是按一定规律生成的,毕竟最终是为了执行后生成一个加密字符串放到 cookie 或请求里,只要找到规律就破掉了

3. 就算把 JS 取出来,用 V8,node,之类的引擎去运行,也只能解决构造请求的问题。各种验证码,人机验证。IP 限制,请求频率限制的防爬手段依然难以解决。
图片验证码要么机器学习要么接打码平台靠“人工智能”的力量打码
IP 限制、请求频率限制这种无非就是堆 IP、堆账号就能解决的问题
而人机验证就是多来一步 1、2 的步骤之后加上各种拟人轨迹 /设备指纹 /浏览器指纹的生成罢了,实在不行不还有搞灰产的那种打码接口卖么

其实主要看的还是值不值得砸钱堆 IP (高质量 IP 贵)、堆账号(需要手机号接验证码 /需要实名认证 /很容易封号 的贵)、打码(大量打码的情况下贵、人机验证搞不定的情况下用别人的打码接口贵)
2018-10-19 17:01:10 +08:00
回复了 bertsir 创建的主题 Android 这是 QQ 调皮了还是知乎调皮了
2018-10-19 16:58:28 +08:00
回复了 xssp 创建的主题 互联网 一种加密方式,没看懂是啥加密的,大佬们帮忙看看
这种没有特征的东西光看加密后的字符串没法看出到底是什么,直接把网站 /APP 名发出来吧
2018-10-19 12:24:36 +08:00
回复了 ladypxy 创建的主题 Python 初学 Python ,请问这段代码的含义。。return base64.b64decode(s+b'==')
这不就是把 s 变量加上两个等于号然后 base64decode 吗。。
2018-10-19 00:16:35 +08:00
回复了 519718366 创建的主题 程序员 入秋了,说说自己被电的那些事吧
被车门电出条件反射,现在用手直接碰到车门的时候会条件反射地把手往回缩一下。。所以我现在下车之后都不用手掌关车门了,就是因为之前有段时间天天被电🙃
2018-10-18 15:47:33 +08:00
回复了 pytth 创建的主题 广州 毕业 2 年,刚好存款 10 万,广州上班族,是不是很差?
自从注册了 V2ex,整个人都膨胀的不要不要的,连存款 10 万的贴都敢点进来看了
2018-10-18 14:41:21 +08:00
回复了 zjsxwc 创建的主题 程序员 IDEA 的 gradle 下载好慢,你们怎么解决?
挂梯子就好了
2018-10-18 12:10:42 +08:00
回复了 dirk88 创建的主题 宽带症候群 准备装修房子了。宽带是什么时候叫电信公司来装比较好
弱电箱要移位的话就移完再装吧,免得改道的时候搞得很麻烦,装宽带一下午就搞完了。然后建议先设计好墙上的网线口位置,埋线的时候自己买好网线不要让装修的人买,要不然会出现买屏蔽线给你埋进去但是不接地的情况,等后面想换线的时候就换不了了。
2018-10-17 21:38:23 +08:00
回复了 PandaRun 创建的主题 问与答 曾经的小米用户,还会再次购买小米产品吗?
可能会买也可能不会买,主看其他手机厂商出的机子怎么样了。。不过小米手机的品控是越来越垃圾了,不到万不得已的情况下打死都不买小米。然后除手机以外的东西一律不买
1 ... 294  295  296  297  298  299  300  301  302  303 ... 312  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 67ms · UTC 22:12 · PVG 06:12 · LAX 15:12 · JFK 18:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.