总体大约 3000 万文件吧, 包括图片视频等不同文件, S3 或其他对象存储
有没有既定方案或者开源项目的, 不知道该搜什么关键词, 找不到就只好自己搭了
感谢帮助
1
whileFalse 2021-12-02 22:04:15 +08:00 1
不是很明白你要解决什么问题。S3 怎么就满足不了你了?
|
2
yuzo555 2021-12-02 22:10:33 +08:00 1
|
3
cnZary 2021-12-02 22:10:47 +08:00 1
ceph
|
4
cnZary 2021-12-02 22:11:20 +08:00 1
当然上面那个不含图床的管理功能
|
5
ritaswc 2021-12-02 23:26:22 +08:00 2
我的建议是:把文件本身的 sha256 指纹作为文件名存下来
假如一个 我的祖国.mp3 这个文件的 sha256 是: 11223344556677889900aabbccddeeff 我会这样存储:/11/22/3344556677889900aabbccddeeff.mp3 至于文件路径存储,那就是 MySQL 、mongodb 等数据的事情了 |
6
ClericPy OP @whileFalse 同样的文件秒传
@yuzo555 不好弄就只好自己开发了, 实际难度不大, 就是怕有坑 @cnZary OK 我看看去 @ritaswc 之前在几种哈希里纠结过, 看到 V2EX 不少人提 xxhash 来着. sha256 也是可选项之一 |
8
AyaseEri 2021-12-03 09:18:59 +08:00
图像有专门的哈希方案,虽然我也不知道目前的图像哈希算法好不好使
|
9
oott123 2021-12-03 09:53:56 +08:00
hash 选 sha 系列的话,OSS 之类的可能服务端能帮你算好,选 xxhash 就未必了
布隆过滤器我觉得没必要,就亿级不到的东西,随便找个数据库就行了 |
10
zifangsky 2021-12-03 10:14:40 +08:00 1
存储文件名弄一个分布式的自增序列(比如:雪花算法)然后把 ID 转 62 进制就行
|
11
ungrown 2021-12-03 12:43:17 +08:00 3
这不就是各大 booru 站点吗。
booru 站点就是 danbooru 这一类 imageboard 网站,即贴图讨论版,内容其实包括图片、视频、wiki 等。由用户上传内容,文件直接按照 hash 命名存储 /去重,额外标记元数据,让用户自行打标签,在此基础上实现内容的审查、发布、搜索、访问、排行榜、推荐。 甚至这套建站模板都是开源的,更有魔改和变种,很多涩图站都是这种(瑟琴果然是第一生产力 |
12
Ciallo 2021-12-03 17:55:13 +08:00 1
minio
|
13
ClericPy OP @ericgui
@Ciallo min.io 看到过好几次, 我看一下, 谢谢. 目前主要是想做个 S3 文件上传下载管理系统, 一方面秒传避免重复文件太多, 一方面审计一下 @ungrown 大哥... 你让我在上班期间打开了一个本来不该打开的网站....... @oott123 你说的是类似 etag 那个东西么, 我主要是上传之前提前算出来然后比对一下避免重复上传的. 然后还不太想绑定服务商. 不过你说的数据量太小确实了, 今天技术评审我也提出来了这么点数据哈希表没啥问题, 计划 mongodb KV 存一下不知道会有坑么, 主要是在意成本, 选布隆还是想省钱, 看了一天布谷鸟过滤器了 @AyaseEri 其实就是想找一个圈内规范级别的. 目前 xxhash 因为 lz4 背书所以还是挺期待的 |