V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 2 页 / 共 21 页
回复总数  413
1  2  3  4  5  6  7  8  9  10 ... 21  
为什么不让小孩去沉迷骑马和滑雪,是因为没钱吗?
为什么不学学游戏策划教育他们小孩的方式?
你要找的是不是 ubuntu 的 lxd
42 天前
回复了 mikewang 创建的主题 程序员 大家如何看待代码中的拼写错误?
外部的不管,自己团队的坚持开拼写检查,碰到写错的坚决改,碰到离谱的还要拿出来鞭尸。妈的以前有个功能在开发文档里叫去重,有个同事查了下翻译然后字段写了个 go_heavy ,震惊我一整年,被我长期拿来做反面例子,教育他们一定要看 IDE 的告警,提交前要保证所有告警消失。
你这个不叫本地文件过大,这个叫本地内存太小。我以前都是在公司丢一台 128G 内存台式机干点数据处理的脏活累活,你这个场景分分钟就搞定了
50 天前
回复了 cmonkey 创建的主题 硬件 运行 LM Studio 的电脑硬件配置
这个预算,可以看看托管的价格 https://www.together.ai/pricing 不贵。


1:不要指望单张 4090 跑大模型可以秒天秒地,实际上爆显存之后就是个弟中弟。2 张 24G 显存的卡凑 48G 也只能跑个 Mixtral-8x7B 量化版 ,这几天 CodeLlama-70b 和 Qwen1.5-72B-Chat 刚发布,你要不要跑跑?
2:不要指望 N 卡那个显存不够使用内存的回退机制,那个只会越跑越慢慢慢慢慢,还不如直接爆了告诉你显存不够,重新划分模型的卸载层数。
3:不要指望存粹的 CPU+大内存机器跑大模型可以秒显卡,内存的带宽真的是比显存小太太太太太多了。参考 https://www.reddit.com/r/LocalLLaMA/comments/14q4d0a/cpu_ram_only_speeds_on_65b/https://www.reddit.com/r/LocalLLaMA/comments/13upwrl/cpu_only_performance/
4:没有 nvlink 纯靠 pcie 通讯的多卡方案,卡约多损耗越大,不要指望多卡的性能是线性增长的。参考 https://www.reddit.com/r/LocalLLaMA/comments/190f1c1/specs_and_gotchas_from_playing_with_an_llm_rig/
5:如果你觉得 4090 太贵,想买 2 张 7900xtx 组成 48G 显存的机器,那么可以参考这个帖子的速度对比 https://www.reddit.com/r/LocalLLaMA/comments/191srof/amd_radeon_7900_xtxtx_inference_performance/
6:如果执意要在这预算内买全新机器跑大模型,可以等等 https://github.com/SJTU-IPADS/PowerInfer 这个项目支持更多的模型和显卡。
7:mac 的 ultra 系列 + 大内存很适合跑大模型,还可以通过命令解除默认显存只给用 80%总容量的限制,增加显存的分配,参考 https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/
换个思路,写扩展就是写一小段函数,一小段函数在云平台里比较成熟的方案就是 serverless 。那么可以直接定好几个接口格式,用户喜欢用什么语言写就用什么语言写,每个事件前后就是一个 http 请求打过去,根据接口响应来决定后面怎么处理。
当用户在各种平台讨论并贴出一段测试用的脚本时,你无法预估平台会对代码做什么格式化处理,如果是 python 脚本这种强缩进相关的,随便一个缩进错乱就搞得脚本出错了。我已经见过好多例新手因为缩进问题搞出的低级 bug ,你这种半成品编辑面板,就是让用户在外面写好之后再复制进去的,更容易出问题了。
57 天前
回复了 txzh007 创建的主题 程序员 内网版本应用如何解决授权问题
作为初中就开始自学破解的人,一瞬间脑子想过 N 种方案,同时想到的是更多破解思路和技巧……我建议就是简单搞搞就行了,防盗版一般靠新功能迭代和售后维护这种策略。你看 IDA Pro 这种专业搞反编译的逆向软件,自己还是被破解了。
@cwcc 也就 ultra 系列的 mac 带宽是比得上显卡的,你买我不推荐,我买我真买……上个月买了个官翻的 192GB 的 m2 ultra ,就是为了本地跑大模型用的,价格也就 4.5w 还能 24 期免息,我还忘记叠加内部员工优惠不然还能再少几千,这样一轮下来还真的比 2 个显卡+其它硬件拼凑一台整机便宜而且省心。

你买 2 个 4090 也就 48GB 显存,一旦显存不够把模型层一部分卸载到内存就速度骤降,而且双卡通讯损耗也大,现阶段跑个 70B 规格 4bit 量化到头了,除非等 PowerInfer 支持多卡了看看效果。

4 个 3090 的话机箱大功耗高,更别说噪音了,而且也不知道显卡经历了几个哥布林窟,家用还是不太现实。

9 楼的举的极端场景就是我的真实案例,我就是拿来给上亿条文本做分类的,算完租卡费用和调用云 api 后发现,还是买个 mac 性价比最高,你要是没这种需求还是租卡好。
@cwcc 龟速,大模型很吃带宽,内存带宽现在一般是显存的 1/40 到 1/30 ,用 cpu 跑大模型瓶颈全在带宽上
78 天前
回复了 Int100 创建的主题 程序员 AI(大模型)本地化项目 和 部署设备
客户端
https://lmstudio.ai/ 界面布局合理,功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。


其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。
@hancai 是的,报价里附带的服务器配置清单和参考价格,分分钟比系统还贵,直接劝退不少客户。
有的时候其实不是微服务和单体的事,而是你的项目的性能和资源消耗的问题。举个例子:
有的微服务项目,一个实例启动需要 2 核 4G 甚至 4 核 8G~16G ,但是能承载的并发只有 100 甚至 50 ;
有的微服务项目,一个实例启动需要 2 核 4G 甚至 1 核 0.5G ,但是能承载的并发有 500~2000 ;

一年下来的开销差异可不少,真的别吹内存不值钱了,在云服务上就是真的贵。反正我是见过一年 2000w 云服务支出,一小半支出在云服务商的数据库上,另外大部分的钱都是 ECS ,cpu 大量空闲时间但是内存水位常年 75%以上占用的,是什么语言为主大家都懂的,钱都花在刀把上了,现在就在那里开猿节流、降本增笑。
83 天前
回复了 qinjiang 创建的主题 Vue.js 2024 前端圈开年之战
我站 Angular
yi-34B 确实不错,连训练黄文都用它做的基底.4bit 的量化下在 m2 ultra 上可以 1 秒跑 19~22token,大概占用 28G 显存.装个 lm studio 把一部分数据卸载到内存配合 cpu 跑的话,用 2080ti+5900x1 秒是可以 1.3 个 token 左右
86 天前
回复了 magese 创建的主题 Java 有实际使用 SpringWebFlux 的大佬分享下经验吗?
调研过,用了就相当于回到 2017 年之前的 nodejs 还没到 8.0 lts(async/await 进入稳定版)前代码中的回调地狱,当然这个 async/await 也是抄 2012 年.NET Framework 4.5 的。所以一般也就面试问问看看是不是真的有人脑子抽了选型用这个。知道它能干嘛的,确实需要解决问题的,大概率也会换个语言把要做的事情做了。
92 天前
回复了 leven87 创建的主题 数据库 django+mariadb 多租户架构方案讨论
方案一很勇哦,先想一想灰度方案怎么做,怎么样更新不会影响全租户,租户有没有数据库私有化的需求,有没有"坏租户"数据量过大拖垮整个数据库性能的风险
https://insomnia.rest/
https://www.usebruno.com/

git 友好的 http client
126 天前
回复了 viewer003 创建的主题 职场话题 关于规范公司空调使用的通知
降本增笑,开猿节流😂
1  2  3  4  5  6  7  8  9  10 ... 21  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5344 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 46ms · UTC 08:04 · PVG 16:04 · LAX 01:04 · JFK 04:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.