V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wsbqdyhm
V2EX  ›  macOS

m1max64g+2t 目前在跑的三个模型,还有其他推荐吗?

  •  
  •   wsbqdyhm · 205 天前 · 2161 次点击
    这是一个创建于 205 天前的主题,其中的信息可能已经有所发展或是发生改变。
    m1max64g+2t ,21 年 16 寸顶配那个 mbp ,目前在跑的三个模型:

    文字:llama3:70b ,( llama3:8b 秒开,但这个速度肯定一般般,启动之后可以接受,gpu 占用 60-80%,内存 48-55g ,没有提示过资源不足,摸起来键盘上面有点热,但没有听到风扇声音,模型中文支持太差,效果没有 gtp4o 好,就这样)

    语音:GPT-SoVITS (训练、推理都很快,但经常吞字,还有功能有点单一)

    图片:sd ( 512 的图 10 多秒就出,大图或复杂点的都慢,半小时都试过,对了,安装了那个 SadTalker 视频插件,无奈在菜单栏找不到入口(插件文件夹有文件),版本不兼容还是?有其他推荐吗?)

    各位,还有其他模型推荐吗?同类型或不同的都可以,谢谢。
    17 条回复    2024-05-30 12:47:48 +08:00
    eachann
        1
    eachann  
       205 天前 via iPhone
    请问一下跑这类模型的用途是什么呢?是工作相关吗?还是只是为了折腾呀?
    tanrenye
        2
    tanrenye  
       205 天前
    中文模型还是看看国内的吧
    wsbqdyhm
        3
    wsbqdyhm  
    OP
       205 天前
    @eachann 兼职做自媒体的,文字类的用 gpt4o 和 llama3:70b 一起,搭配 GPT-SoVITS 语音出片很好,声音自由度高一点,不会浓浓的 ai 味道,其次需要用到大量照片素材,网络搜寻的大多有版权,用 sd 输出的,版权要求没那么高。希望可以继续优化所用的工具,去掉一些明显 ai 味道、高效以及低成本是方向。 多个纬度相互平衡,没有最好,只有更好。
    uCVqn130hR86WDU8
        4
    uCVqn130hR86WDU8  
       204 天前
    llama3 可以用中文微调过的
    idlerlestat
        5
    idlerlestat  
       204 天前
    据说 qwen 的中文模型不错
    kenshinhu
        6
    kenshinhu  
       204 天前
    M2 本地跑 Mistral 还不错,phi 可以做成低推理的。
    kenshinhu
        7
    kenshinhu  
       204 天前
    @wsbqdyhm 可以请教一下怎样做自媒体吗?
    beginor
        8
    beginor  
       204 天前 via Android
    64G 跑 70b 的 llama3 ,应该是 q4_k_m 量化版本的吧,我跑 q5_k_m 版本的会报错的?
    wsbqdyhm
        9
    wsbqdyhm  
    OP
       203 天前
    @beginor 就这个命令拉的,ollama run llama3:70b
    怎么区别版本?
    beginor
        10
    beginor  
       203 天前
    @wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3), 这个和原始模型相比,损失比较多,不推荐。

    可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型,自己量化, 也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF)

    一般推荐 q5_k_m 或 q4_k_m 版本的量化模型, 接近原始模型,如果配置够的话, 更建议运行 f16 版本模型 。

    依据自己电脑的配置, 建议的优先级是:f32 > f16 > q5_k_m > q4_k_m > others .

    另外我不玩 ollama ,ollama 虽然简单, 却隐藏了很多细节。 我玩的是 llama.cpp , 可以体会到更多的技术细节。

    模型需要的内存大小大概就是模型文件的大小,量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型, 当然其它应用还要占用一些内存, 所以只能勉强运行 q4_k_m 的 70b 模型。
    beginor
        11
    beginor  
       203 天前
    @wsbqdyhm 不好意思, 我搞错了,ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags),q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来
    yjhatfdu2
        12
    yjhatfdu2  
       203 天前
    @beginor 大模型有 f32 ?现在训练基本都拿的 bf16/f16 来的,哪来 f32 的?
    wsbqdyhm
        13
    wsbqdyhm  
    OP
       203 天前
    @beginor #11 好的,有空试一下一个有什么区别
    beginor
        14
    beginor  
       203 天前 via Android
    @yjhatfdu2 现在 llama.cpp 默认转出来的 gguf 就是 f32 , 以前是 f16 。
    urlpha
        15
    urlpha  
       202 天前
    感觉可以开个 AI 板块了😁
    a66243766
        16
    a66243766  
       202 天前
    先加入收藏可以一起玩,本地的情况下,其实本地跑确实资源不够,但是能感受很多技术细节
    a66243766
        17
    a66243766  
       200 天前
    @beginor 我看过 ollama 的源码了 他里面编译了 llama.cpp ,模拟了在不同设备上的部署
    func InitScheduler(ctx context.Context) *Scheduler {
    sched := &Scheduler{
    pendingReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
    finishedReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
    expiredCh: make(chan *runnerRef, envconfig.MaxQueuedRequests),
    unloadedCh: make(chan interface{}, envconfig.MaxQueuedRequests),
    loaded: make(map[string]*runnerRef),
    newServerFn: llm.NewLlamaServer,
    getGpuFn: gpu.GetGPUInfo,
    }
    sched.loadFn = sched.load
    return sched
    }
    都在 llm 包下 对于熟悉 golang 的这个框架有比较好的参考价值
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   844 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 20:45 · PVG 04:45 · LAX 12:45 · JFK 15:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.