V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 3 页 / 共 24 页
回复总数  467
1  2  3  4  5  6  7  8  9  10 ... 24  
@lrigi 我测过啊,我有 2 张 2080ti 22g ,1 张 7900xtx ,1 个 Mac Studio M2 ultra 76 核 192G 内存。
你发的那个已经是 10 个月前的数据了,也不知道怎么测的,最近编码能力很牛的 Codestral 22B 6bit 量化在 2080ti 22g 都能跑 22 token/s 。而且 10 个月前海外还买不到 22g 的魔改 2080ti
跑大模型推理吃的是内存带宽和核心数,连频率都不怎么吃,显卡降低 30%的功耗也就少个 10%左右的速度。Max 那个带宽才 400GB/s ,只有 Ultra 一半, [用来跑大模型就是个垃圾] 。

买 Mac 跑大模型,优势是比买超大显存(指的是单张 48G 和以上显存)的显卡方便。你这才 64G 的配置,无论是二手魔改 2080TI 22G X3 的价格,还是全新 7900XTX 24G x3 的价格,加上其它硬件的费用,除了电费和体积没优势,推理速度和扩展性都能把 Max 按在地上摩擦。

具体被摩擦到什么程度呢? Ultra 推理速度是 Max 的 2 倍,而多张 2080TI 22G 的速度是 Ultra 的 2~3 倍,这个波动是随着模型占用越大优势越小,毕竟多卡之间走 pcie 通讯也是有点损耗的。
212 天前
回复了 lucasj 创建的主题 PHP [不懂就问] PHP 的开发效率具体快在哪里?
要看历史发展的,十年前接的项目大部分是各种商城、CMS 、论坛,很多开源项目可以利用,套个模板加个插件改一改就上线了。
上线部署也很粗糙,大部分是 FTP 上传后刷新,版本控制都少。给客户演示时还能当场上服务器改代码,保存立马生效。
大部分人都不会断点调试,就在代码里 var_dump 变量然后 exit 结束脚本,然后回浏览器按一下 F5 看输出结果然后继续写。
密码加密不是 md5 就是 sha1 ,这些都是内置函数。
写 Java 的还在纠结 json 库用哪个,选了 Fastjson 就有福了,一部分人整天在升级版本修漏洞,另一部分连自己系统被干了都不知道,而 JSON 处理在 PHP 里也是内置函数。
写 Java 的还在头疼日期和时间戳之间的处理,PHP 一个万能 date 函数就解决 99%的场景了。
写 Java 的还在头疼 url 参数编解码、特殊字符转义,PHP 内置函数又搞定了。
写的代码运行出错,一行配置或者代码前面加个 @ 就能抑制错误继续跑,try/catch 都不用,要是写 Java 还在挠头哪来的空指针。
前后端没分离的项目,还在纠结模板引擎选什么,写 PHP 的在包含 HTML 文本 PHP 的代码中改得飞快。
写 Python 的还在吵 Django 和 Flask 到底要用哪个,吵完了发现怎么上线还要套 Gunicorn 之类好麻烦。
写 Ruby 的表示 Ruby on Rails 非常牛逼,就是语言小众招不到人。
写 Node.js 的还在回调地狱里出不来。

在那个年代写 PHP ,你就说快不快吧。
246 天前
回复了 shineshane 创建的主题 程序员 自定义域名邮箱服务
257 天前
回复了 bomjack 创建的主题 程序员 怎么防止 windows 客户端 被破解
大概是 2008 年那会,对于 VMP 和 TMD 这种搞不定的壳,等程序完全加载到内存之后动态调试 + 内存补丁就通杀了,也不算难
264 天前
回复了 CoffeeLeak 创建的主题 Local LLM 折腾 Llama3 跑在 NAS...结果确实一言难尽
CPU 跑大模型推理瓶颈就是在内存带宽,按 ddr4 双通道内存带宽为 30GB/s 的速度来算,7B 规格的 8bit 量化,也就 4 token/s 左右的速度,4bit 量化就速度 x2 ,14B 规格就速度除以 2 ,偏差不会太大。
287 天前
回复了 random1221 创建的主题 宽带症候群 2024 年内网穿透的最佳方案是什么?
先考虑一下把公司电脑的远程桌面端口暴露到公网,被弱口令爆破或者 0day 打穿之后,蔓延到公司内网中毒时,你需要负什么责任吧...

动手能力好就 tailscale 加自建 derby ,动手能力差就 WireGuard 傻瓜脚本 https://github.com/angristan/wireguard-install
我觉得我的 5900x + 128GB 内存 + 2080ti 22g 跑 Windows 10 LTSC 很好用,打开软件速度很快,不用像 Mac 那样图标弹弹弹弹弹弹弹弹才蹦出界面。
当然跑 Debian + KDE 更好用。

-- 发送自睾贵的 192GB M2 Ultra ( 24 核 cpu + 76 核 gpu 版) Mac Studio 带 AppleCare 国行非海南免税店版
@289396212 想追求更好的方案呗,做做减法。一些常用的东西,.Net 的第一方支持更好。比如表单校验规则写好了,Swagge 文档也就生成好了。而在 Nest.js 里既要用 class-validator ,又要用 @nestjs/swagger ,一共 2 套装饰器才能实现;

像 http client 这种常用的东西,got 、undici 、got-scraping 选择太多的同时它们迭代多年还小 bug 不断。

还有 AOT 可以压缩更极限:像 pkg 本质上也就是把用到的 js 文件选出来压缩到一起,运行的时候实际上还是要解压的,只是解压得少一些而已,而且跨平台编译需要用 qemu 虚拟机,很重。

还有性能分析诊断的工具、冷启动速度、资源占用等,都是 C# 可以做到更好。


现在我本地可以跑比较大的模型,可以当作是无限 token 消耗,所以也想趁机看看用 AI 把整个项目翻译成另一种语言的可行性,这样以后也能把一些别的语言流行库进行一个大翻译,搞不好以后就是世界大同。

当然,追求极致还得用 Rust ,现阶段只是在性能和开发效率之间取一个平衡,现在 AI 写 Rust 代码的准确率还是不高。等下一步 AI 进化了,一次性写对代码的几率大幅度提高了,就再迁移了,反正拆分得好可以一层一层迁移。
@Arguments AdonisJS 前面的大版本不支持 TypeScript ,而且是抄的 Laravel 的设计。然而 Laravel 抄的是 Ruby on Rails ,结果没抄到精髓,AdonisJS 这波操作属于把别人消化到一半的东西吃了过来……只能说 AdonisJS 适合 Laravel 用户去使用了。
用了好多年的 Nest.js 了,大概从 6.x 用到现在的 10.x ,也没什么大变更。
选 Nest.js 看中的是 TypeScript 优先,然后集成了 class-validator 可以开箱即用。
其它自己集成的什么 http client 、数据库、缓存、消息队列、不喜欢就自己糊一个。
至于它的依赖注入,除了控制器和模块这一层,service 层你都可以不用依赖注入,完全走静态函数,反正 js 这种脚本语言可以在运行时修改 class 的 method ,mock 起来非常简单。
最大规模试过在 30 个 4c8g 的 contabo vps 上用 k3s 部署爬虫,套个 rancher 面板,部署一年多,稳如狗,用 DaemonSet 跑网络 IO 相关的操作,全流式操作,内存占用两百多兆,每个节点每月 32T 流量吃到饱。分析计算用 Deployment ,完全的 IO 和计算分离。
至于 web api ,现在用 Nest.js + Supabase ,日常内存占用也就 90MB 左右,需要事务那就换 Prisma ,内存占用高一些,150MB 左右。
结合 pkg 可以把项目打包成单个二进制文件塞到容器里,一般就 70MB 左右,冷启动贼快,丢到 1c1g 的容器里都算是打很富裕的仗了。

至于现在,我在把 Nest.js 的程序结合 AI 迁移到.Net 上…… 现在迁移了一个应用,确实很香。
290 天前
回复了 weijancc 创建的主题 Vue.js 升级 Vue3, 开发体验非常糟糕
早知道,还是 angular
295 天前
回复了 fever 创建的主题 宽带症候群 有没有熟悉 openvpn 的同学给看看
最近刚好在折腾这个,直连外面 2 周没啥问题,用 https://github.com/dockovpn/dockovpn 这个搭建的,如果是 docker compose 运行结合 https://github.com/dockovpn/dockovpn/issues/221 这个就搞定了,客户端也是 tls 。
有一说一 openvpn 真的老旧又落后,也就是为了直接在华硕的路由器上使用才选的,平时我都用 wireguard 。
Deno:?
313 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
https://item.jd.com/100007630859.html 联想自家笔记本 ddr4 内存,我的 r7000p 5800h 就是塞了 2 条这个凑的 64g
313 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
@yumozero 客服懂个锤子,有时候厂商也是瞎写的,在 xps 自家页面写主持 32g 的时候我就上到了 64g 。你这款可以直接上 64g 。我就是这款,5800h+6600m 是吧,或者 5800h+3060
313 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
把你游戏本的具体型号发出来,有 2 个插槽不一定只支持到 32g 。
拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。
比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。

显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。

引用别人的回复
“生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒”

内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer

我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。


附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
和 Rocket.Chat 很像,本地跑起来看看就懂了 https://github.com/RocketChat/Rocket.Chat/blob/develop/docker-compose-local.yml
1  2  3  4  5  6  7  8  9  10 ... 24  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5634 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 02:50 · PVG 10:50 · LAX 18:50 · JFK 21:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.