V2EX › wxf666 的所有回复 › 第 21 页 / 共 34 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 17 18 19 20 21 22 23 24 25 26 ... 34

❮

❯

2022-09-29 11:02:20 +08:00

回复了 monkeydream 创建的主题 › 数据库 › 请教一下聊天消息应该用什么数据库存储？

@monkeydream 3 天前的 [这个帖子]( https://www.v2ex.com/t/882773 ) 里，有很多人反映，MySQL 单表存 1~2 亿（#11 楼 #16 #18 #19 #21 #35 ）、4 亿（#27 ）、10 亿（#35 ）、20 亿（#28 ）都没问题诶，查询也很快（几十 ms ，#27 #28 ）

MySQL 真的不行吗？

2022-09-28 07:32:24 +08:00

回复了 stimw 创建的主题 › 程序员 › pycharm 的高亮（关键字推断）问题

我这儿复制粘贴到主编辑器里后正常

你能贴下在主编辑器里的图片不？

2022-09-27 17:33:39 +08:00

回复了 su2018 创建的主题 › MySQL › mysql 赋值问题

1. 确实，本地可构建个类似的语句来复现，不知缘由：

*（ V 站排版原因，开头有全角空格。若要复制运行，记得删除）*

```mysql
WITH
　 nums(num) AS (
　　 VALUES ROW(1), ROW(2), ROW(3)
　)

SELECT @total, @total := sum(num)
FROM nums, (SELECT @total := 0) t
GROUP BY num;
```

2. 如果你只是想要『上一行的数据』，你可以使用*（连 SQLite 都支持的）*窗口函数 `LAG`：

```sql
WITH
　 nums(num) AS (
　　 VALUES ROW(1), ROW(2), ROW(3) -- SQLite 写法：VALUES (1), (2), (3)
　)

SELECT num, LAG(num) OVER(ORDER BY num)
FROM nums;
```

3. 另外，[MySQL 官方文档]( https://dev.mysql.com/doc/refman/8.0/en/user-variables.html ) 很不推荐你图片中的用法：

- 除了 `SET` 语句外，不应在同一条语句内赋值和读取一个用户变量*（ 5.7 版本文档：As a general rule, other than in SET statements, you should never assign a value to a user variable and read the value within the same statement ）*

- 涉及用户变量的表达式的求值顺序未定义*（ 8.0 版本文档：The order of evaluation for expressions involving user variables is undefined. For example, there is no guarantee that SELECT @a, @a:=@a+1 evaluates @a first and then performs the assignment ）*

- 『在 `SELECT` 中使用 `:=` 为用户变量赋值』已被弃用，未来会移除*（ 8.0 版本文档：Previous releases of MySQL made it possible to assign a value to a user variable in statements other than SET. This functionality is supported in MySQL 8.0 for backward compatibility but is subject to removal in a future release of MySQL ）*

2022-09-26 11:28:27 +08:00

回复了 LuckyPocketWatch 创建的主题 › 问与答 › C++,C, Java , Python 中，有那些比较成熟的，能够处理大型 XML 文件的类库？

@mizuBai 没怎么用过。这货能利用索引，只读几 KB ~ 几十 KB ，就能找到指定节点数据吗？

我觉得如果楼主 @LuckyPocketWatch 要换存储格式，这点很重要

另外，简单搜了搜资料，很多人都说 feather parquet pickle 等格式都比 hdf5 读写速度快、体积小

看来 csv 很不适合存大量数据了（ json xml 同理）

2022-09-25 13:15:51 +08:00

回复了 shubiao 创建的主题 › 问与答 › 红米 8A(低端安卓)，活路何在？

@shubiao 那你继续拿以前的苹果用不就行了

2022-09-25 13:11:58 +08:00

回复了 edis0n0 创建的主题 › 数据库 › MySQL 单表上亿条数据有必要考虑分表吗？目前已经 8400 万条了，感觉查询耗时也没有明显提升，就是 CPU 不查询占用也在 20%以上，不知道在干什么。如果有必要的话求推荐下 EF Core 上安全、好用的分表方法。

前排问一下，一直说的『单表超过 x 千万后，效率瞬间下降』，是因为 B+ 树层数变高（这个量级应该是 3 层变为 4 层吧），但缓存没变（比如，只缓存了前两层），导致看起来原本实际进行一次 IO ，现在需要两次，即多一倍耗时？

如果是这样，那楼主看看现在是不是已经 4 层 B+ 树了，若是就不必要分表了？（ 4 层可以容纳上百亿行了吧）

2022-09-25 12:53:48 +08:00

回复了 shubiao 创建的主题 › 问与答 › 红米 8A(低端安卓)，活路何在？

实在不行，上海鲜市场淘个旧旗舰呗。比如小米 8 骁龙 845 好像三四百就可以买到了

2022-09-24 15:39:02 +08:00

回复了 humbass 创建的主题 › Node.js › 比较好奇大家时间都是怎么存数据库的

肯定存时间戳啊

时区问题这么复杂，你确定数据库真的都能处理好了？

万一以后中国又实行夏令时，你数据库咋处理。。

2022-09-24 12:52:24 +08:00

回复了 lingaolc 创建的主题 › 问与答 › 请问如何方便地避免：大文件夹拷贝后，部分文件损坏

感觉 WinRAR 的恢复记录功能，会对你有帮助（如果不想压缩一遍再添加恢复记录，可用类似的独立功能软件，如 MultiPar ）

如，设定生成 3% 的恢复记录，允许你出错最多不超过 3% 的情况下，恢复原文件

既能帮你验证文件，又能修补你说的复制出错，还能一定程度预防存储出错（当然，肯定多份备份更好）

2022-09-23 15:06:43 +08:00

回复了 LuckyPocketWatch 创建的主题 › 问与答 › C++,C, Java , Python 中，有那些比较成熟的，能够处理大型 XML 文件的类库？

@LuckyPocketWatch Python 有个 lxml 库*（该库是对 libxml2 的包装，速度很快）*，支持你说的『不需要解析树，查询某个节点』场景（ SAX ）

文档地址： https://lxml.de/tutorial.html#event-driven-parsing

另外，不考虑转成数据库嘛？我觉得这个场景，SQLite 的速度都能吊打 XML 。。

2022-09-23 14:41:33 +08:00

回复了 LuckyPocketWatch 创建的主题 › 问与答 › C++,C, Java , Python 中，有那些比较成熟的，能够处理大型 XML 文件的类库？

上百 GB 的 XML ，咋修改某些节点？

若要在偏开头位置插入一字节的数据（或实际等效操作，如 999 修改为 1000 ），岂不要整个 100GB 往后挪 1 字节？？

2022-09-22 10:45:28 +08:00

回复了 xuanxiao 创建的主题 › Android › 小米 12s ultra 和华为 mate50 怎么选

@superchijinpeng 你们现在有什么 5G 的应用场景吗？

我是 K40 ，支持 5G ，但开了后耗电，且网络体验提升不大（即，原来 4G 够用）

总觉得当前 5G 不是手机的刚需

2022-09-20 22:25:06 +08:00

回复了 monetto 创建的主题 › 程序员 › Python 操作 SQLite 异常

@monetto 9 楼给的官方文档说了，一个 connection 内同时读写的行为是未定义的。即，按道理，是有问题的

你试试每个线程一个 connection ？

2022-09-20 21:03:00 +08:00

回复了 monetto 创建的主题 › 程序员 › Python 操作 SQLite 异常

我这里测试没崩啊

Windows 10
Python 3.10
PyCharm 2021

另外，根据[文档]( https://sqlite.org/isolation.html )所说，你不应该在同一个连接内同时读写数据库，此行为未定义

最后，贴代码起码用下 Markdown 啊。回复用不了就算了，帖子还不用。。

2022-09-16 00:56:41 +08:00

回复了 KIRAYOMATO 创建的主题 › 问与答 › 安卓和 pc 互传文件的最佳方案？

我目前使用以下方式，在资源管理器中，通过 Z 盘访问安卓手机的 /sdcard：

- 安卓端 Termux 上启动 `sshd`
- 电脑端 cmd 运行 `net use Z: \\sshfs.kr\192.168.1.2!8022\storage\emulated\0`

前提：

1. Windows 安装 [SSHFS-Win]( https://github.com/winfsp/sshfs-win )
2. Windows SSH 公钥已放入 Termux 的 `~/.ssh/authorized_keys`

2022-09-15 23:22:34 +08:00

回复了 dfgddgf 创建的主题 › 程序员 › 请问最佳的爬虫语言是什么

@zzl22100048

> 高并发下有概率出现读取 tcp 流的异常和 broken pipe 异常；

Emm 。。反正我做了错误检测，超时 /错了就重试。也不知道频不频繁

> session 不能携带之前的 cookie ；

也没注意这个问题，因为爬的小说不要求登录。。

2022-09-15 19:41:24 +08:00

回复了 dfgddgf 创建的主题 › Perl › 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫

@dfgddgf 感觉脚本语言的网络库、正则库、网页解析库等，底层应该都是 C/C++ 实现的吧

Python 、Perl 、Ruby 速度应该差不多的

perl 好像是文本处理较为优势，听说搞生物的常用？

2022-09-15 19:05:42 +08:00

回复了 dfgddgf 创建的主题 › Perl › 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫

@dfgddgf 你在上一个帖子的意思，不是『如何用最少的人工，写出速度最快的爬虫』嘛

感觉你有几亿数十亿页面要爬取解析来着。。

所以想看看你最后，是如何用最优雅的姿势，写出最能压榨机器性能的爬虫的

2022-09-15 18:55:39 +08:00

回复了 dfgddgf 创建的主题 › Perl › 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫

@dfgddgf 你本地测试，平均每秒能爬下来并解析多少页面呢

想看看这 perl 的效率如何

2022-09-15 18:47:48 +08:00

回复了 dfgddgf 创建的主题 › Perl › 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫

每秒大概能爬多少个页面？

1 ... 17 18 19 20 21 22 23 24 25 26 ... 34

❮

❯