V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  AX5N  ›  全部回复第 52 页 / 共 55 页
回复总数  1081
1 ... 44  45  46  47  48  49  50  51  52  53 ... 55  
能预处理转换成别的数据结构的话,那倒是有很多办法。不过估计跟直接导入数据库也差不多。
2018-05-05 19:48:54 +08:00
回复了 sjmcefc2 创建的主题 Python 读取大文件,最快的方式是什么?
@sjmcefc2
100G 的文本有点夸张。

先说读取
假如你的硬盘是 HDD,按照 120M/s 来算的话,读取 10G 需要 850s ;
如果你的硬盘是 SSD,按照 450M/s 来算的话,需要 230s ;
无论你怎么来,无论你用什么办法,应该是不会慢过这个速度多少的,也不会快过这个速度多少。

再说处理
100G 的文本估计 10 亿行应该是有的吧,这个数量真的是太大了,单线程处理的话,python 速度慢的缺点会被暴露无遗。
所以建议你多进程、多线程来处理。

你这个每行之间没有联系,可以靠多线程来提高性能。如果碰上那种每行之间互有联系的,只能换 c++慢慢跑,python 绝对不行。
2018-05-05 19:33:10 +08:00
回复了 sjmcefc2 创建的主题 Python 读取大文件,最快的方式是什么?
@sjmcefc2 你这个文本有多少行?
2018-05-05 19:16:26 +08:00
回复了 sjmcefc2 创建的主题 Python 读取大文件,最快的方式是什么?
@AX5N 按我经验
如果瓶颈在 IO 上的话,一次直接把所有内容都读进内存是最快的。
如果瓶颈在对内容细致地分析 /计算上的话,例如你要遍历 10G 文本里每个字节的话,那就必须得换语言才行。
如果瓶颈在于整体的处理速度的话,例如你要压缩一段文件。那这个就随便了,随便读取一部分处理完再继续读取就好。
2018-05-05 19:07:49 +08:00
回复了 sjmcefc2 创建的主题 Python 读取大文件,最快的方式是什么?
把需求讲具体,不同需求下做法必定不同。有时候是直接把全部文件直接载入内存最快,但有时候不是。甚至有时候不能使用 python,python 一定会成为瓶颈
2018-05-05 17:08:45 +08:00
回复了 131 创建的主题 JavaScript PageGuard.js 防复制 + 检测开发者工具
@131 我想听下你的脑洞
2018-05-05 16:53:59 +08:00
回复了 131 创建的主题 JavaScript PageGuard.js 防复制 + 检测开发者工具
@131 用防复制来防作弊,确实能算得上是一件有意义的事情。但不管怎么看,这个手段都是一个错误的方向,就像你下面所说的。

那么,除了防止作弊以外,还有什么其他用途吗。
2018-05-05 15:48:53 +08:00
回复了 131 创建的主题 JavaScript PageGuard.js 防复制 + 检测开发者工具
@icy37785 那你就直接说下哪些场景很有用,我就想不出来限制普通人复制到底有什么意义。
2018-05-05 15:28:11 +08:00
回复了 131 创建的主题 JavaScript PageGuard.js 防复制 + 检测开发者工具
这么做有什么意义吗?复制不来的都是普通人,如果连普通人都利用不了你网站的东西,你网站还存在什么价值吗?
2018-05-04 16:32:17 +08:00
回复了 pheyer 创建的主题 奇思妙想 人生区块链瞎想
一种游戏吗。如何防止作弊
2018-05-03 03:58:00 +08:00
回复了 itotii 创建的主题 云计算 阿里云麻烦你要点碧莲,这么损害用户利益?
@lun10439547 v 站一大特色了。block 还要喊出来找存在感,生怕别人不知道自己 block,好像 block 是一件很了不起的事情似的。
2018-04-18 02:49:08 +08:00
回复了 zhou00 创建的主题 程序员 想问下大家的键盘打字习惯
非常标准
2018-04-13 22:14:01 +08:00
回复了 liudaqi 创建的主题 机械键盘 机械键盘用 61 键的人多?还是用 87 键的人多?
87 真没比 104 的小多少,老老实实买个 104 的
2018-04-09 23:10:06 +08:00
回复了 Hzzone 创建的主题 Python Python 在处理视频流的时候有哪些加速方法?
你打算从头实现还是用别人的库,从头实现的话,那就是直接用 c/c++写,用 python 调用。用别人的库的话,别人基本都是已经做好优化了,你能做的大概也就是多进程处理了。这种处理的瓶颈应该不在于 io,你直接载入内存没多大用,反而搞不好撑爆你的内存
2018-03-02 22:44:18 +08:00
回复了 mokeyjay 创建的主题 全球工单系统 TIM 为何要一直锁定那些通过它发送的文件?
迅雷也是
1 ... 44  45  46  47  48  49  50  51  52  53 ... 55  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2895 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 13:46 · PVG 21:46 · LAX 06:46 · JFK 09:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.