针对视频文件重去有哪些方案?
造福人类的事情的问题来了
大家没有有苦恼于日渐增多的视频文件,怎样可以有一个有效的方法查找出相同的视频文件?
MD5?
还是通过人肉?
说说你们的想法
1
MicrosoftAzure 2015-10-15 11:51:26 +08:00
Everything 用通配符搜索视频文件后根据文件大小排序并手动删除重复项。
|
2
ck65 2015-10-15 12:04:16 +08:00
|
3
imn1 2015-10-15 12:12:33 +08:00
严谨: hash
极简:字节 一般:字节+mediainfo 折中:字节+mediainfo+随机抽取相同位置的字节片段进行 hash |
4
huijiewei 2015-10-15 12:14:19 +08:00
第一步先用 MD5 去除完全重复的文件, MD5 对文件的识别还是很保险的
第二步就可以用高大上的智能识别了。对准确率不放心的话,可以人工审核一下 |
5
my101du 2015-10-15 12:16:06 +08:00 1
同需要。
例如 番号-号码-1080.mkv 和 [一堆日语].rmbp 可能是相同内容的视频文件(或者是截取的部分相同) 用大小、名称都是查不出来的…… 我觉得最佳的解决办法是大家约定固定使用一组压缩参数,使得同一个文件压缩出来,体积都是一样的,可以通过体积来判断。还有就是截取的话,文件名要把原来的视频名保留…… 是不是要求太高了 |
6
csx163 2015-10-15 12:28:09 +08:00
体积都是 5M 左右, webm 格式的怎么破
|
7
abelyao 2015-10-15 12:37:52 +08:00 via iPhone
|
8
imn1 2015-10-15 13:02:51 +08:00
@abelyao
呃,这个我只理解了文件去重,没理解为内容去重,至少 LZ 没说清 内容去重这个真没“智能”办法,即使截图,也很难 例如一个版本前面带有几秒版权,另一个没有,两者就会存在时间差 又如一个版本上了滤镜 A ,另一个用了滤镜 B ,两者即使时间同步,截图的差异也巨大 我没什么这个问题,因为 1.事前有版本选择,不清楚版本的忽略,避免浪费时间,除非稀有视频 2.时候有归档习惯,所以归档时基本也人肉去重了,因为无论 hash 或者图片比较,花费时间和 CPU 还不如我快进一遍简单 非个人使用,例如服务器,那就是另话 但这个又有另一个逻辑:不同版本就是不同劳动(或不同权利持有人),能随意清理吗? |
13
eirk2004 2015-10-15 21:14:16 +08:00
这样行不行? FFmpeg 抽取关键帧,然后把图像扔给 google 、 baidu 去提取关键词(并对关键词排序),供用户最终判定;如果完全无法匹配,尝试从关键帧中进行人脸识别,然后截取画面、重复前面一步。
精确的文件内容去重,感觉应用范围窄、实现成本高 |
15
cz5424 2018-09-29 16:05:49 +08:00
楼主采用了什么方案了?
FFmpeg 抽取关键帧好像是一个比较好的方法 提取多个关键帧,视频去重就降级到了图片去重,使用图片去重的方法就可以搞了 目前我也在找更好的方案 |
16
jiqiren007 2019-10-24 13:44:20 +08:00
@cz5424 找到啥更好的方案了吗?
|
17
cz5424 2019-10-24 16:27:21 +08:00 via iPhone
@jiqiren007 没有继续跟下去了,目前问题不是很搭
|
18
wktop 226 天前
@jiqiren007 有继续跟进吗?
|
19
ccxuy 33 天前
2024 年了, 有些网站已经能截图搜索视频了, 但是家用方案或者开源方案还是没有
|