V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
makeitwork
V2EX  ›  Python

中文字符串能压缩吗?

  •  
  •   makeitwork · 2022-06-02 01:14:07 +08:00 · 3041 次点击
    这是一个创建于 901 天前的主题,其中的信息可能已经有所发展或是发生改变。

    帮别人压缩一些中文文章,可能一份就几千个字吧 用 zlib 这种库压缩,发现不会变小,反而变大了

    但把文章放在 txt ,用 tar 或者 zip 压缩,反而容量小了一半 求正确压缩中文字符串的方法,谢谢

    8 条回复    2022-06-02 21:15:03 +08:00
    Tyanboot
        1
    Tyanboot  
       2022-06-02 03:11:05 +08:00
    先说说你是怎么操作的,是如何对比发现变大的。

    比如说是不是直接比较了 len(origin_string)和 len(compressed_bytes)的大小?
    eason1874
        2
    eason1874  
       2022-06-02 07:13:39 +08:00   ❤️ 1
    #!/usr/bin/python
    # coding=utf-8

    import zlib

    text = "zlib 以字节为单位压缩,中文字符串能压缩,任何数据都能压缩,因为任何数据都能表现为字节。只有一种情况会导致压缩后变大,就是输入内容太短。但是你几千字,已经不短了,所以肯定是变小,而不是变大。你误认为变大,原因应该就是 #1 说的那样,你用 len() 比较压缩前的字符数和压缩后的字节数,错误的比较得到了错误的结果"

    origin_bytes = bytes(text, "UTF-8")
    compressed_bytes = zlib.compress(origin_bytes, 2)

    print("------字符数", len(text))
    print("--原始字节数", len(origin_bytes))
    print("压缩后字节数", len(compressed_bytes))
    shuax
        3
    shuax  
       2022-06-02 09:25:19 +08:00
    python 的 len 不是字节长度。
    Latin
        4
    Latin  
       2022-06-02 11:03:00 +08:00
    makeitwork
        5
    makeitwork  
    OP
       2022-06-02 14:42:21 +08:00
    @eason1874 @Latin 谢谢各位大佬
    makeitwork
        6
    makeitwork  
    OP
       2022-06-02 18:36:35 +08:00
    @eason1874 这里对比的是,
    把原始文本 "zlib 以字节为单位压缩。。。"贴到到 txt ,在 mac 下面是 445 字节
    把压缩后的"b'x^eP\xc1N\xc2@\x14\xfc\x95&^。。。" 贴到 txt ,在 mac 是 857 字节
    这么看,压缩之后,反而更大了
    虽然用 len( ) 或者 sys.getsizeof 函数来看,压缩的字节数是小一点的
    eason1874
        7
    eason1874  
       2022-06-02 19:18:35 +08:00
    @makeitwork 以 b' 开头这段不是字节数据,这是字节数据的十六进制格式文本,那肯定比字节本身要大的

    字节有 256 个,只有 95 个是可见字符(字母数字和标点符号),其他都是不可见字符。当你要打印出来,程序会以十六进制表示不可见字符(让它变得可见),并以 \x 开头表示格式

    比如 Delete 键,它是不可见字符,本身只占 1 字节,它的十六进制是 7F 。当你以可见的十六进制打印出来,它会表现为 4 字节,也就是 \x7f

    如果你把中文字符也转为十六进制,你会发现字节长度也变大了。比如 UTF8 的“中文”占 6 字节,当你转为十六进制并以\x 开头,它就变成了 24 字节 \xe4\xb8\xad\xe6\x96\x87

    所以你比较错了。压缩后你应该直接存储字节,而非转十六进制文本再存,字节流转成任何可见字符编码都会导致体积变大
    binaryify
        8
    binaryify  
       2022-06-02 21:15:03 +08:00
    能重复就能压缩
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1146 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:40 · PVG 02:40 · LAX 10:40 · JFK 13:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.