有一个一直困扰的问题,爬虫过程中已经获取到所有附件的链接和文件名(不包含后缀名)到数据库,现在提取数据库里的信息进行附件下载。
问题是:
1.有些文件的后缀名可能不在 url 中,或者头信息中。没有办法获取到文件后缀名,下载的附件没有文件类型。
2.有些文件的真实后缀名跟 url 中的不一样。
请问各位大佬有什么好的办法解决这个痛点吗,谢谢。
问题是:
1.有些文件的后缀名可能不在 url 中,或者头信息中。没有办法获取到文件后缀名,下载的附件没有文件类型。
2.有些文件的真实后缀名跟 url 中的不一样。
请问各位大佬有什么好的办法解决这个痛点吗,谢谢。