ShadowPower 最近的时间轴更新
ShadowPower

ShadowPower

V2EX 第 167153 号会员,加入于 2016-04-08 00:38:28 +08:00
今日活跃度排名 5036
体验了 Qwen2.5 Coder 32B 之后,我觉得本地 LLM 能用了
  •  1   
    Local LLM  •  ShadowPower  •  124 天前  •  最后回复来自 yanyuechuixue
    98
    Vision Pro 实际体验
    Apple  •  ShadowPower  •  232 天前  •  最后回复来自 ShadowPower
    53
    请问这个 bug 要重启哪个进程才能解决
    macOS  •  ShadowPower  •  332 天前  •  最后回复来自 craiiz
    3
    编译到 ARM 指令的复杂度比编译到 x86 更低吗?
    程序员  •  ShadowPower  •  360 天前  •  最后回复来自 elechi
    10
    Mac 平台有类似 Sandboxie 的软件吗?
    Apple  •  ShadowPower  •  361 天前  •  最后回复来自 NavilleZhang
    7
    求推荐 Windows 下的图片查看器
  •  1   
    Windows  •  ShadowPower  •  2023-11-30 18:48:10 PM  •  最后回复来自 lucacham
    58
    我发现大多数第三方 Android ROM 默认没有启用 ZRAM
    Android  •  ShadowPower  •  2023-10-07 20:27:51 PM  •  最后回复来自 ShadowPower
    23
    ShadowPower 最近回复了
    5 小时 34 分钟前
    回复了 momowei 创建的主题 Apple 苹果的软件能力是不是没有想的那么厉害
    @IDAEngine 有差别,转译 64 位 x86 程序大概损耗到原生(直接源码编译 ARM64 )的 87%左右。之前的 Windows ( 11 ,22H2 )转译损耗我测得 82%,后来听说微软有优化,不知如今是什么水平。
    有些程序的转译后性能会比较差,M1 刚出来那会,跑转译的 MATLAB 只有 i5-4210u 那么快……
    只是现在的 M4 单核性能的 87%,也比绝大多数人用的 PC (尤其是笔记本)单核性能还强,体验上不会有太大差别。

    用它来跑虚拟机,再跑 Windows 或者 Linux ,转译 64 位的体验,感觉也很像原生(必须是 64 位,32 位转译都差,macOS 下用 Crossover 的转译只有原始性能的 7%,还不如 Windows……)
    6 小时 12 分钟前
    回复了 momowei 创建的主题 Apple 苹果的软件能力是不是没有想的那么厉害
    @IDAEngine Rosetta2 不是纯软件技术,但是其他的竞品确实是纯软件的,其实强的还是硬件……
    > 整个市场加起来可能一年都没一个 iPad 卖的多
    真相了……

    我估计现在买台式机的人,要么是游戏玩家,要么用来完成工作。
    除了数码爱好者买来尝鲜,这个群体不会因为 mac mini 价格低了就去买一台,除非原先就使用 mac 。

    以前还有黑苹果用户,硬件价格方面,就和普通的 PC 一样。他们有可能会从黑苹果换到 mac mini ,但按操作系统来统计的话,还是从 macOS 换到了 macOS 。
    @x86 那也太奢侈了
    1 天前
    回复了 xiaoyang0304 创建的主题 Mac mini 丐版的 16G 内存日常开发够不够用?
    我现在差不多就是这个情况。
    用肯定能用,但是 IDEA 里插件不敢多装,网页标签页开太多的话,切换会有延迟。
    内存压力始终是黄色的,哪怕 swap 不高的时候也是,不知道为什么(大概是内存压缩解压太频繁了)。
    完全不敢开虚拟机/Docker ,只能用远程服务器上的。不然能让内存压力达到红色。
    总体来说,用着不爽……
    4 天前
    回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
    @BernieDu
    你用 DeepSeek 的话,那就好办了。
    你应该这么问 DeepSeek:

    ---------------

    这是 LLAMA 模型的尺寸信息:
    'llama3_70b': dict(
    base_model='llama3_8b',
    vocab_size=128256,
    hidden_size=8192,
    intermediate_size=28672,
    num_hidden_layers=80,
    num_attention_heads=64,
    num_key_value_heads=8,
    max_position_embeddings=8192,
    rms_norm_eps=1e-5,
    rope_theta=5e5,
    ),

    双显卡跑 LLAMA 70B 模型,batch_size=1 ,模型拆分到两块显卡上,采用流水线并行。激活值精度为 float16 ,计算生成单个 token 时,两块显卡之间前向传播数据大小。

    -----------------

    它给你算出一个大小,然后,PCIe 4.0 x16 的带宽大约有 32GB/s ,用带宽除以每 token 传输的数据量,就可以算出这个瓶颈会限制 Token/s 到多大了。
    4 天前
    回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
    @BernieDu 我现在用来跑 LLM 的显卡,实际 PCIe 带宽是 7.88GB/s (用的平台太老),显卡的显存带宽是 288GB/s ,跑 5bpw 量化 14B 模型实际有 28 token/s
    4 天前
    回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
    @BernieDu
    PCIe 接口在推理的过程中,传输的数据只有用户输入的文本和模型返回的文本(一次一 Token )
    多卡的话,再加上一些层与层之间传输的信息以及一些上下文更新信息,也非常少

    吃的带宽都是 GPU-显存之间的带宽,这部分不走 PCIe 。为什么吃:因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是,这是 GPU 访问自己负责的那部分参数,多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

    如果用 NVIDIA 以前的 SLI 技术,那倒是会有上面说的情况。但跑模型并不采用这种技术方案,AI 工程师不会那么蠢……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4968 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:21 · PVG 17:21 · LAX 02:21 · JFK 05:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.