V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wisej  ›  全部回复第 10 页 / 共 13 页
回复总数  245
1 ... 2  3  4  5  6  7  8  9  10  11 ... 13  
2018-03-06 14:44:36 +08:00
回复了 wisej 创建的主题 问与答 爬取各高校信息,有什么好的方案么?
@dobelee 是啊,每个高校网站结构还不一样。所以很好奇那个网站是怎么做的
2018-03-06 11:39:41 +08:00
回复了 wisej 创建的主题 问与答 爬取各高校信息,有什么好的方案么?
@Len1133 这个我有印象,但是早忘了书名是啥,更别说网站了
2018-03-06 11:37:26 +08:00
回复了 wisej 创建的主题 问与答 爬取各高校信息,有什么好的方案么?
@lunatic5 本科得有 - -
2018-02-25 18:31:20 +08:00
回复了 AlwaysBehave 创建的主题 问与答 一加氢 OS 开启的加密到底是什么加密
有 好像默认就是加密的
2018-02-20 13:05:08 +08:00
回复了 jakeyfly 创建的主题 问与答 requests get 下来是乱码 咋解决求大佬
我来梳理一下吧:

首先 requests 里关于获取编码的几个函数:
1. `get_encodings_from_content`:utils.py 中定义,譬如从 HTML head 的 meta 中获取 charset
2. `get_encoding_from_headers`:从响应头的 Content-Type 来猜测
3. `chardet.detect`: 编码自动检测工具

然后 requests 处理编码方式的流程是这样的:
1. 首先看响应头的 Content-Type 里是否包含 charset,有就设置并返回
2. 若 Content-Type 里没有 charset,但是 MIME 是 text/*,则直接设置编码为 ISO-8859-1 (这一点 requests 是为了遵循 RFC2616/3.7.1 )
3. 当第 1、2 点都不符合时,encoding 为空,才使用 chardet.detect 自动检测

**问题所在**:
第二点导致国内很多网站的编码方式被认为是 ISO-8859-1,在西方国家,没啥大问题。但是在亚洲很多国家,将会出现乱码

具体讨论可以看: https://github.com/requests/requests/issues/1604

PS:
1. 好像 RFC2616 中将默认编码设为 ISO-8859-1 已经被弃用了。然后 requests 上关于这个问题貌似还在讨论...( https://github.com/requests/requests/issues/2086

2. 很多人可能会疑问,为什么 requests 处理编码问题里没有用`get_encodings_from_content`,Lukasa 解释是这样的:
> Our position on this has been that we're not a HTML library, we're a HTTP library, and therefore examining the body of the request is outside our remit.

当然,你可以自行调用嘛:
```
import requests
from requests.utils import get_encodings_from_content

r = requests.get('http://baike.baidu.com/view/115789.htm')
codings = get_encodings_from_content(r.content)
if codings:
r.encoding = codings[0]
```
2018-02-20 08:47:18 +08:00
回复了 jakeyfly 创建的主题 问与答 requests get 下来是乱码 咋解决求大佬
@zyxbcde 我滴龟龟 所以你是这么早就起了?
2018-02-09 07:35:17 +08:00
回复了 ChenJinluo 创建的主题 Python 请问该用多线程还是单线程多个进程呢?
@wisej 如果有这个或者类似的检查设置的话
2018-02-09 07:32:37 +08:00
回复了 ChenJinluo 创建的主题 Python 请问该用多线程还是单线程多个进程呢?
1. 题目描述有问题,啥叫单线程多个进程?我的理解就是:用多线程还是多进程
2. 你启动多进程的方法…不方便而且不太好。应该使用标准库 mutilprocess
3. 这两个方法优劣。很简单,你两个方法都写出来,做个测试不就好了。重效率,你就比较执行时间。

一些拙见:数据库操作属于 io 任务。所以多线程是可以的。不过你得注意,如果你是一个线程一个连接,最好有连接池;如果共享一个连接,那你得加锁,同时创建连接的时候把 check_same_thread 设为 False
2018-02-08 17:39:41 +08:00
回复了 ve369587 创建的主题 Python python3 import 疑惑
为什么要把 main.py 放在 main 文件夹下呢?
直接把 main.py 放在 project 目录下面不就解决了
2018-01-22 21:00:30 +08:00
回复了 wisej 创建的主题 问与答 (windows 下)系统代理和浏览器代理之间到底是何关系?
2018-01-22 13:36:10 +08:00
回复了 wisej 创建的主题 问与答 (windows 下)系统代理和浏览器代理之间到底是何关系?
@pimin 意思是如果本机是通过宽带拨号上网,就会采取"拨号和虚拟专用网络设置";如果是走路由器,即使路由器是通过宽带拨号的,走的也是“ LAN 设置”。这么理解对么?

这样的话,在我先开$$,再开 Fiddler 的时候,Fiddler 会 override “ LAN 设置”。为什么$$还能正常工作呢?难道 Fiddler 会记录下之前的代理地址?
2018-01-22 10:54:36 +08:00
回复了 wisej 创建的主题 问与答 (windows 下)系统代理和浏览器代理之间到底是何关系?
@kokutou 我知道为啥不一致了。昨天在我打开 Fiddler 之后,我在 IE 代理里查看的是"拨号和虚拟专用网络设置"。我今天查看了下方的"LAN 设置"发现是一致的。

相当于是"拨号和虚拟专用网络设置"是$$的代理设置,"LAN 设置"是 Fiddler 代理设置。

或许正是这样,包先走的 Fiddler 代理,再走$$。才能又能正常显示数据包,又能访问墙外网站?

其实这两个点我一直没太搞明白,"拨号和虚拟专用网络设置"和"LAN 设置"有何不同?
2018-01-21 22:59:36 +08:00
回复了 wisej 创建的主题 问与答 (windows 下)系统代理和浏览器代理之间到底是何关系?
@iVeego
@Humorce
老哥们怕是都没看我的描述?我本来也认为是这样的。但是,后来我先打开$$r,再打开 Fiddler 时候(会冲突么),系统代理和 IE 代理的相关配置是不一致的。具体表现是,IE 代理是$$r 的,系统代理是 Fiddler 的。
所以我想知道这是为啥?
2018-01-21 22:06:09 +08:00
回复了 wisej 创建的主题 问与答 (windows 下)系统代理和浏览器代理之间到底是何关系?
@WordTian 不啊,你看我写的。IE 浏览器代理界面跟 Chrome 代理界面是一样的,Edge 浏览器才和系统代理设置的界面是一样的。你可以试试
gdtv 就是你发送弹幕并且立即在你电脑上显示,是纯粹前端操作的。(正常情况下)此时你发的弹幕消息才真正发给接受弹幕的服务器,服务器再统一其他人的发给你。如果不去重,你发的弹幕你本地又会显示一次,不就会看到两次了么

你的情况是,本地显示完,发给弹幕服务器的请求由于某种原因没有成功,又没有提示你。造成你感觉它是故意的一样…
消消气,它真不是故意针对你的。

在网页版你发个弹幕,其它平台也有直接先在前端显示出来,至于出于什么考虑不清楚。然后真的弹幕数据过来了,再把你的弹幕剔除,避免你看到两次。

它本意肯定不是想误导你吧…
2018-01-16 08:31:54 +08:00
回复了 cheejay 创建的主题 问与答 求助……关于 Cookie 的一些问题
我猜你可能不止给自己用?可以做个反代,然后改 UA
好事 支持
2017-12-24 14:04:56 +08:00
回复了 ulei 创建的主题 求职 [杭州] [10-20K] 大数据初创公司云汽配配 诚招后端开发工程师
应届生收么
1 ... 2  3  4  5  6  7  8  9  10  11 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1011 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms · UTC 23:04 · PVG 07:04 · LAX 15:04 · JFK 18:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.