V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  GPLer  ›  全部回复第 1 页 / 共 22 页
回复总数  438
1  2  3  4  5  6  7  8  9  10 ... 22  
23 小时 32 分钟前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@GPLer 另外因为目前看下来还是稠密模型能力强,所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ,跑 27B 模型速度太慢没法用,苹果只是单纯力大砖飞+高性价比所以才写上去了。
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@akadanjuan101 可以的
gemma4 31b 没有官方量化,我还在找合适的使用方式
qwopus 我最近在试,这个因为是非官方的我没写,确实忘了😂
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@Enivel FTS 一开始没反应过来,查了下这不就是双路召回的其中一路吗,都 2026 年了,早就标配了。
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@akadanjuan101 所以你 40g 显存目前用啥模型啊
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@akadanjuan101 但是这种现在没有全新的了,容易买到矿,本身也是魔改卡,质保也是个问题,所以我说了有丐的方案但是不推荐 😂
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@Lykos 我自己有一张 3090 24g ,35b 和 27b Q4 用 Ollama 勉强能跑,但是上下文开不高,还是推荐 5090 32g 或 4090 48g ,另外 mac m5 max 64g 版本也是不错的选择,算下来整机成本大概 3w ~ 4w 左右,再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ,但是 qwen 官方量化的 q4 有问题,权重和 fp8 一样大,只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型,48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文,非代码类任务用用还行。

---

另外如果不要求长上下文的话,27b 模型 16g + gguf 极限量化应该也能跑,35b 模型内存+显存混合使用应该也能跑,不过我没试过,所以不做推荐

---

丐的方案也有,比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ,但是这些方案要么太老要么功耗太高又没质保,并且我没试过,所以就不推荐了。
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@GPLer 另外 目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ,如果要测试最好在这三个里选,测试下来稠密模型效果比激活参数小的 MoE 模型好很多。
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@archxm 3b 模型只能日常对话,基本上没有实用价值,数据量和模型大小没有直接关系,跟上下文长度以及长文本能力有关,3b 也许长文本能力还行,但是模型能力不行也没用。
27b 风评还是不错的,如果效果一般可能是 RAG 配置问题,可以先不用 RAG ,试试都放到一个文件夹里,然后用 opencode 等 agent 平台配置模型,然后将目录所在位置告诉它,测试这种情况下的问答效果,速度会慢很多,但是大模型自己探索后应该能答对,如果这样子可以,后面可以让模型写个 skills ,将检索的技巧做成技能。
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@archxm 新出的 qwen3.6-35b 再试试?
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@archxm 你的观点是 RAG 不行,我的观点是 3B 不行,没人说一定要一开始就大投入,但你不应该因为 3B 不行就说 RAG 不行。
1 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
都不说 claude 、gpt 、gemini 御三家了,要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧,3b 测了跟没测有什么区别。😅
之前好像有个 simplelive 后来不更新了,这种东西风险感觉挺大的。
首先排除 nest.js ,用这个干嘛不上 Java Spring
接着排除国产 KPI 项目
再排除 Express 、Koa 、Fastify ,太老了
最后选型了 Elysia.js + Bun ,AI 让开发不是问题后,具体技术栈已经不再重要了,运行效率是第一位的,这个应该是目前最快的相对成熟完善的框架了。
@Leeeeex 杭州深度求索人工智能基础技术研究有限公司及其关联公司(以下简称“我们”或“DeepSeek”)是以探索 AGI 为目标的研究团队,专注于模型基础技术研究,并坚持开源路线,预期通过开放、透明、安全的理念促进技术普惠。

---

当前,好人不应该被人拿枪指着,如果后面不开源了也无可厚非,作为一家商业公司已经够意思了。
3 月 20 日
回复了 GPLer 创建的主题 Python 创造了 uv 的 Astral 公司被 OpenAI 收购
@iorilu 4L 回复了,记错了,我的,主要因为 Next.js 被收购后,React 19 的发展方向变了,所以我产生了错误的记忆。
3 月 20 日
回复了 GPLer 创建的主题 Python 创造了 uv 的 Astral 公司被 OpenAI 收购
@gnosis23 记错了,react.js 是转移给基金会,被收购的是 next.js 和 nuxt.js ,我的。
正常来说 /usr 下的目录非 root 没写入权限吧,怎么写成功的
@sir283 C/C++ 在 vibe coding 的情况下代码量上来了是保证不了不会内存泄露的,你不泄调别人的库也可能会泄,不确定你说的 GC 是什么,但在我印象里,Qt 的程序没写好也是存在内存泄露的。
@stinkytofux C/C++还是算了吧,写不明白内存泄露了不是更糟心,PyQt 看上去还行,不知道实际怎么样
1  2  3  4  5  6  7  8  9  10 ... 22  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2732 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 09:46 · PVG 17:46 · LAX 02:46 · JFK 05:46
♥ Do have faith in what you're doing.