如题 假设有两台一模一样的服务器,但是不在一个省,采用同样的参数不同时间压缩一份一模一样的文件,出来的压缩文件校验值会一样吗
1
oksbsb 2021-09-26 14:07:55 +08:00
不一定,即时是同一个机器也不一定。还要看是什么压缩算法
|
2
muzuiget 2021-09-26 14:08:35 +08:00 1
问题你是在于你如何保证和定义“参数一模一样”。
|
3
libook 2021-09-26 14:11:52 +08:00 2
如果真的是完全一致的文件元信息、完全一致的文件内容、完全一致的压缩算法和参数,压出来的文件的校验值理论上应该是一样的。
但实际有很多变数,比如你在把文件从一台服务器上复制到另一台服务器是否确保文件的修改时间一致,哪怕内容一样,修改时间不同也会导致校验值不同。 感觉像个 X-Y 问题,可以说一下这个需求的背景,看是不是需要调整探索的方向。 |
4
shoco 2021-09-26 14:17:27 +08:00
看用什么类型的压缩软件,一般压缩软件会把压缩时间作为参数放入到压缩文件里面, 那么一样的可能性为 0
|
5
chengyiqun 2021-09-26 14:53:59 +08:00
很多时候, 会, rar5 加恢复记录后, 不会.
|
6
life4me 2021-09-26 15:25:59 +08:00
函数一样,参数一样,结果一样
|
7
momocraft 2021-09-26 15:27:27 +08:00
有 timestamp 的文件格式一定不一样 不要假定一样
|
8
WordTian 2021-09-26 16:16:22 +08:00
有 timestamp 的,大概率会不一样
|
9
LGA1150 2021-09-26 16:21:28 +08:00
参考一下 OpenWrt 的打包命令 https://github.com/openwrt/openwrt/blob/master/include/download.mk
tar --numeric-owner --owner=0 --group=0 --mode=a-s --sort=name --mtime="$TAR_TIMESTAMP" ... |
10
HankLu 2021-09-26 16:26:11 +08:00
为什么会有这种问题?
|
12
msg7086 2021-09-26 19:41:33 +08:00 via Android
可以一样,只要把其中的不确定因素排除就行。典型的因素包括时间。不含时间信息的压缩可以做到一致。(这算是 reproducible 可重复制作性。)
|
13
ch2 2021-09-26 19:45:12 +08:00
压缩包里会额外加元数据的那种肯定不一样
|
14
sadfQED2 2021-09-26 20:16:38 +08:00 via Android 1
你先在同一台机器上压缩同一个文件两次,看看是不是一样的
|
15
TomChaai 2021-09-26 21:10:56 +08:00
你首先要定义什么叫“一模一样”的文件。时间是否包含在“一模一样”的范围内。
文件系统、数据结构的实现不同,可能会导致不一样的结果,比如文件元数据被当成文件的一部分这种事,是否包括在你的题设内。 |
16
liuidetmks 2021-09-26 21:16:44 +08:00 via iPhone 1
这是一个 xy 问题,请说出你当前真实需求
|
17
wangkun025 2021-09-26 21:24:53 +08:00
我试过。同一台机器上对同一个文件进行 gzip,md5 不一样。
|
18
smdbh 2021-09-26 22:03:42 +08:00
文件时间这些,是存在文件里的吗??
|
19
Trim21 2021-09-26 22:33:00 +08:00
以 zip 为例,zip 文件里有每个被压缩文件的修改时间。把这一项写 0 也不影响解压。
|
20
rrfeng 2021-09-26 22:36:41 +08:00 via Android
时间什么的都是参数,其实关键是压缩算法。
我可以写个随机压缩算法,只要能解压你管我每次压缩成什么样子呢。 |
21
jim9606 2021-09-27 00:52:33 +08:00
归档工具(tar,zip,7z)由于包含文件元数据,通常都不行。
gzip 要加 -n 才是 reproducible 。 ( https://unix.stackexchange.com/questions/531494/can-files-compressed-with-bzip2-be-relied-upon-to-be-deterministic-reproducible ) |
22
swulling 2021-09-27 08:37:21 +08:00 via iPhone
把 mtime 统一一下,那就是一样的。
|
23
2i2Re2PLMaDnghL 2021-09-27 10:02:18 +08:00 1
首先你得保证压缩算法稳定。
压缩可以用一些随机化算法避免特定形态的数据构成最差复杂度,通过少量的抖动来进一步压缩。 @smdbh 是存在归档里的 归档文件内部有一个形似文件系统的结构,比如 tar zip 7z rar (除了 tar 不能压缩以外,其他均是可压缩可不压缩),它可能会同时保存文件的 mtime 非归档类压缩永远只能单文件,比如 gzip cab 归档非压缩和压缩非归档可以组合成压缩归档,比如 tar.gz ( tgz ) |
24
libook 2021-09-27 11:11:54 +08:00 1
@GrayXu #11 没错,但是你把文件压缩了之后,md5 校验的是压缩包的内容,而压缩包的内容是包括内部文件列表和元信息的。
|
26
dawangyezi 2021-09-28 10:16:05 +08:00
指定压缩算法,算法版本,时间戳,得到的就是一样的结果。
当然并不是所有的压缩格式都存储时间戳。 |