主要用来存实验数据(还有 djj )小文件特别多( 300 万个),加起来没多大,4T 左右。百度盘超级会员还有 2 年,前几天公开课被百度替换成 8 秒教育片,实在忍不了,开了一个月 10TB Google One (因为 G Suite 有 40 万文件限制),rclone 用了半个月传完,发现文件夹大小都看不了,文件传没传完都不知道,打算自建。目前服务器用的是 Nextcloud,别的没问题,3900X + 32GB RAM 的服务器 300 万文件光索引就用了 2 天。干什么都要扫描 2 天,搜索一次 20 分钟没出结果。查了下有人推荐 Filerun 听说对大量文件支持很好。不知道有没 V 友用过?
1
Xusually 2020-08-12 17:33:19 +08:00
群晖?
|
2
naohion OP @Xusually 不想买 NAS,只有一台闲置的 3900X 没独显的电脑装 CentOS 当测试服务器。不知道能不能跑黑群晖。
|
3
laminux29 2020-08-12 17:55:23 +08:00 7
我觉得,你的问题在于,自己的知识水平,是一个急需扫盲的阶段,却又想着做一些博学家阶段才能做的事情。
比如你说,索引用了 2 天,搜索一次 20 分钟没结果,问题是,索引与搜索阶段,你有没有分析过设备负载?甚至给开源产品直接调试做性能分析? 你这种情况,最实际的就是,直接把需求,外包给公司,花钱让别人帮你做。 |
4
Songxwn 2020-08-12 17:59:01 +08:00
seafile 用专业版
|
5
ruixue 2020-08-12 18:13:10 +08:00
G Suite 的个人云端硬盘并没有 40 万文件限制,有限制的那是共享云端硬盘,但是也没限制共享盘的数量
G Suite 可以用第三方 api 客户端来查看文件夹大小,比如 AirExplorer 等,也可以用虚拟云端硬盘直接挂载查看 |
6
zu1k 2020-08-12 18:21:45 +08:00 via Android
大量非结构化的小文件应该用对象存储吧
|
7
fhsan 2020-08-12 18:35:20 +08:00
建议 ntfs + winnt + everything,秒处理
|
8
zachlhb 2020-08-12 18:56:43 +08:00 via Android
nextcloud 要用 postgresql 数据库,性能提升不是一星半点
|
9
des 2020-08-12 19:15:25 +08:00
|
10
naohion OP |
11
wtks1 2020-08-12 20:47:07 +08:00 via Android
慢,是不是因为磁盘 IO 性能差?
|
12
naohion OP @wtks1 数据库(应该包含索引)在英特尔企业级 ssd 数据盘是旧服务器上的希捷酷狼(好像叫这名字) 8T
|
13
devliu1 2020-08-12 20:53:04 +08:00
补充下 @zachlhb 的方案。Windows Server + NTFS + Everything HTTP Server,仅仅针对文件名检索
|
15
zacklin99 2020-08-12 20:59:05 +08:00 via Android
目前用的 docker+owncloud+MySQL,感觉没啥大问题。
|
16
festoney8 2020-08-12 21:11:24 +08:00
文件名搜索和文件夹大小统计的话,NTFS 的 mft 表挺适合处理这个,用这个特性,everything 做快速搜索,wiztree 可以做快速文件夹大小统计
|
17
gjf 2020-08-12 21:11:48 +08:00
从技术角度看,如果是用自己的硬件的话(内网),可以使用至少 3 台以上 Linux 安装类似于 FastDFS 或者 MongoDB ( GridFS )分布式文件系统组成集群(高可用、有容错),这样做比较麻烦,需要自己写代码用 API 对接文件系统。
如果上云的话就是对象存储了呗 |
18
misty8873 2020-08-12 21:14:22 +08:00
用对象存储吧 简单方便。。。
|
19
siknet 2020-08-12 21:18:24 +08:00
everything 不行?
|
20
yyyb 2020-08-12 22:22:50 +08:00
如果我说用 nfs+samba+ftp 共享同一目录会有人抽我么?在家 windows 电脑挂载 samba,linux 挂载 nfs,在外用 ftp
|
21
jianixrabbit 2020-08-12 22:26:58 +08:00 via Android
@yyyb 抽啥 很多 nas 软件也实现了一样的用法
|
22
calmzhu 2020-08-12 22:35:54 +08:00
如果每日流量不大的话,直接试下阿里 oss 存储?
自带了客户端上传下载都方便。 就是一个网络硬盘,免维护。 |
26
lishoujun 2020-08-12 22:48:47 +08:00
rockedsdb 满足你的需求么? 数据量太大是否可以分片呢?
=========== 公开课被替换 和你的实验数据存储在百度云有冲突么? 可以申诉的,即使嫌麻烦不想申诉,似乎也不影响你存实验数据 |
28
loveqianool 2020-08-12 22:51:34 +08:00
七楼说的 ntfs + winnt + everything
移动设备用 RDP 呀 |
30
mmdsun 2020-08-13 00:22:24 +08:00 via Android 1
OneIndex,PyOne 搭建。白嫖开发者账号。空间基本用不完。
|
32
naohion OP @laminux29 CPU RAM 磁盘 IO 占用都很低,F12 显示超时,不知道为什么。只是归档一些数据,不想耗太高成本。
|
33
SingeeKing 2020-08-13 00:30:38 +08:00
G Suite 肯定没有 40W 数量限制,我之前还写 nodejs 的时候几十个项目的 node_modules 扔里面都没问题,更别说我自己还有十几 T 的文件了
|
34
yeet 2020-08-13 00:32:30 +08:00
不算是回答 只是说下
rclone 有可以检查文件数量和大小的 size 命令 返回有多少文件 文件大小 也有可以对比两边文件(夹)一致性的 check 命令 |
35
wccc 2020-08-13 00:35:44 +08:00 via iPhone
nextcloud 加 es 全文搜索
|
37
lc7029 2020-08-13 01:05:26 +08:00
NAS 算吗?
|
38
WhatZ 2020-08-13 07:49:24 +08:00 via Android
自建的硬盘 io 和服务器负载,如果负载太高还是升级吧
|
39
fantasylidong 2020-08-13 08:14:03 +08:00 via Android
g suite 个人盘并没有大小和文件夹的限制,文件夹大小你都用 rclone,不知道用 rclone 的命令看一下,而且 rclone 也可以检验
|
40
vislins 2020-08-13 09:18:24 +08:00 via iPhone
技术不行+数据不值钱+自己的时间不值钱系列。
|
41
keventseng 2020-08-13 09:38:59 +08:00
不想白裙,那就上台黑裙:P )入台矿渣就满足需求了。
|
42
naohion OP @vislins 私有云怎么说也比公有云安全,而且我还自动备份到公有云。Apple ID 莫名被封后使用公有云就比较谨慎。
|
43
XiLingHost 2020-08-13 10:08:05 +08:00
这种情况还是用对象存储吧,gcp 的 Storage 或者 AWS 的 S3 都不错
|
44
evilic 2020-08-13 10:35:30 +08:00
我的建议是一台高性能的 nas,加一台多盘位的低性能 nas 做备份(或者直接忽略此项)。
高性能的 nas 开启 webdav,如果有外网 ip 或者能穿透的话,所有平台使用 raidrive 之类的挂载到本地电脑上。nas 可以同时开启索引功能,由于性能高,或许能够解决些问题。备份的话,将指定的目录直接同步到多个 google 或其它平台的对象存储上(如果不放心,就找另外一台 nas 自动同步过去备份)。 个人使用的话,我是不建议搭建 ceph, hadoop 对象存储, openstack 对象存储 这类的。因为多副本硬盘成本太高了不说,集群网络性能的要求也不低。价格成本和学习成本太高了。 |
45
byzf 2020-08-13 11:45:04 +08:00
三百万文件扫两天? 一秒扫 17 个文件? 你这索引是不是把文件内容也索引了?
我觉得肯定没到机器性能问题这一步. |
46
chins 2020-08-13 11:46:22 +08:00 via Android
有,但是是 cloudreve 哈哈哈
|
47
pkwenda 2020-08-13 12:11:18 +08:00
minio,碎文件小文件---大文件(5T) 都可,存储非结构化数据,自带类似百度网盘的分享,上亿文件也没问题,搭建很简单
https://niubility.me/1b67547c71f64aec889fd5b9f47cedd2 |
48
xmh51 2020-08-13 14:11:03 +08:00
seafile 试一下 存储机制不一样
|
49
darkerlight 2020-08-13 15:08:55 +08:00
在等易有云 2 完善
|
50
locoz 2020-08-13 15:21:27 +08:00
nextcloud 和 seafile 都一样,碰到大量文件就特别慢,但是不至于慢到扫描两天...建议检查一下具体是哪里的问题。
|
51
junefox 2020-08-13 15:33:09 +08:00
可道云?
|
52
xz410236056 2020-08-13 15:41:11 +08:00
@naohion 3900X 功耗太大,淘宝 or 咸鱼买星级蜗牛这种矿难机。300 来块且低功耗,店家还给你装好黑群。省事不操心
|
53
TEwrc 2020-08-13 16:38:12 +08:00
nextcloud 确实是慢 我之前有十多万张图片传上去,移动端 app 连上去经常加载不出来,刷新都很费劲
|
55
smallthing 2020-08-15 16:50:56 +08:00
@naohion 3900x 没独显能开机吗 还真没试过
|
56
shentar 2020-08-16 19:06:27 +08:00
对象存储适合存储数据,前缀(目录)检索。
但是 djj 哪家都不会收,除非自己重新编码一下文件。 推荐本地 windows server + everything,300 万毫无压力。 |