V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  xpresslink  ›  全部回复第 20 页 / 共 43 页
回复总数  848
1 ... 16  17  18  19  20  21  22  23  24  25 ... 43  
2018-12-20 18:47:26 +08:00
回复了 DAPTX4869 创建的主题 Python Python paramiko 怎么输入交互式的密码?
调用 expect 来交互
2018-12-20 10:38:34 +08:00
回复了 fanhaipeng0403 创建的主题 Python sqlalchemy 的 insert or update
我要到哪里去?
2018-12-19 18:55:26 +08:00
回复了 cyy564 创建的主题 Python 各位大佬请教一下,关于爬虫的过滤问题
记录爬过的每个页面的根域名和 path URL,给标题做 MD5 存摘要,爬虫爬这个网站前把数据库里存的 URL 列表或标题摘要加载到 set 里面。再爬时候比对一下。
2018-12-19 18:36:43 +08:00
回复了 jimmyczm 创建的主题 程序员 有没有 Python 的书籍推荐?
流畅的 Python.epub
Python 学习手册(原书第 4 版).epub
Python 编程:从入门到实践.epub
PythonCookbook 第三版中文 v3.0.0.pdf

Python 爬虫开发与项目实战.epub
Python 网络数据采集.epub
精通 Scrapy 网络爬虫.epub
2018-12-19 16:39:51 +08:00
回复了 kevin1234 创建的主题 Python v2ex 大神给点意见
目前常用的成熟方案也就 ELK,EFK,open-falcon 之类的。还是用现在的吧。
2018-12-19 14:58:42 +08:00
回复了 vzyw 创建的主题 程序员 阿里云轻量服务器一个月 9.5 合算吗?
太贵了,到不同的云轮着申请免费试用机。
阿里云有半年免费试用的就是这个配置。
2018-12-19 13:49:51 +08:00
回复了 zkeeper 创建的主题 程序员 每天辛苦玩命工作的意义是什么?
楼主听好:每天辛苦玩命工作的意义是为了不工作。/doge/
2018-12-19 13:46:43 +08:00
回复了 Sey0 创建的主题 Python 非科班应该怎么学数据分析
其实做数据分析的难点不是这些编程语言和工具之类的,这些都是皮毛。
最关键的是你要理解你要分析处理的行业数据,也就是说你要有很深的行业业务的背景知识,
另外你要有非常好的数学基础,微积分,离散,线性代数,概率和统计方面的数学功底要有。

说白了吧,你以为把菜刀用熟了就能当大厨了么?
你别听外面搞培训的忽悠什么人工智能啊,大数据分析啊之类的。
2018-12-19 12:08:31 +08:00
回复了 ntuwang 创建的主题 Python 请教大神们
@OhYee 这两个框架各有特色,学哪个都够用了。
如果论上手快速撸出东西来,应该是 django 要方便点,因为常用的组件之类的直接都包括在安装包里面了,但是耦合度高你要想定制一下 django 的框架难度就提高很多。flask 上来只给你一个最基本的核心,所有需要的组件都要自己去组合安装,但是组件之间的耦合就没有那么紧,你自己定制的灵活性就高了一些。
@binux 你说这个有什么意思呢?都下架了的信息根本我爬虫就不需要爬啊,你别总是跑题扯搜索引擎。
你非这么扯,那我爬虫就不能在你一开站就开始爬么,我的库里也存了旧链接啊。

我们讨论的前提说的很清楚了,用户到你的网站来浏览可以匿名访问的公开信息你怎么反爬。

我不想和你讨论了,太累心。就此打住。
你在浏览器里面 F12 在控制台调试一下,看看 ajax 到底传数据没有

后端的视图里面放个断点或直接 print 一下没就知道问题出哪里了?
你用的 django 是什么版本?

你这个只传一个 id 的情况,应该用 ajax GET 就可以了
要是用 POST 你就不要再构造 url 来传参数了,直接构造一个 json 对象把 id 放里面 POST 到后端。
@binux 我都说了你跑题了,这个情况不在讨论范围内,你根本就没有理解题意,信息和特定账号绑定的情况这个需要的不是爬虫而是黑客了,你这个资源要是用户用才能专线访问,别说爬虫了就是黑客也没办法。

我讨论是有个默认前提的,就是普通中小型网站用户可以匿名访问的公开内容
@binux
我前面都说了, 爬虫就是伪装成一个用户在那里浏览,反爬虫很难的原因就是你不能为了反爬虫把用户也反了吧。
爬虫遍历是通过列表页,或者页和页之间的链接递归访问实现遍历的。
你所说的用户也不能遍历是什么梗,难道那些页面没有在其它任何页面有链接而孤立存在,你也不让用户看?
没错爬虫需要列表页和链接页面,然而用户也是必然需要的。
@binux 我们不要放题了。
我们现在要讨论提混淆 id 能不能达到反爬的目的。
我讨论是有个默认前提的,就是普通中小型网站用户可以匿名访问的公开内容,爬虫这方也就是个小公司。
淘宝那种网站和百度那个爬虫不在讨论之列。
@cdwyd 你才是先把问题带偏了好吧。
说爬虫你扯搜索引擎,要么拿极端情况例子来反驳理论普遍适用性问题。
2018-12-17 18:52:35 +08:00
回复了 ntuwang 创建的主题 Python 请教大神们
@ntuwang 这个只和你做什么项目和要解决问题有关系吧。
2018-12-17 18:49:29 +08:00
回复了 mortonnex 创建的主题 Java aop 和 反射的关系?
AOP 是面向切面编程是框架级别的,反射是语言基础级别的。AOP 只是用到了 java.lang.reflect.Proxy 类和 java.lang.reflect.InvocationHandler 接口来实现动态代理。
2018-12-17 18:42:29 +08:00
回复了 ntuwang 创建的主题 Python 请教大神们
@OhYee django ORM 和 flask 用的 sqlalchemy 相比上手可容易多了,用着也简单,友好性可是强多了。
1 ... 16  17  18  19  20  21  22  23  24  25 ... 43  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2719 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 06:11 · PVG 14:11 · LAX 22:11 · JFK 01:11
Developed with CodeLauncher
♥ Do have faith in what you're doing.