V2EX › GPLer 的所有回复 › 第 1 页 / 共 22 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 22

❮

❯

23 小时 32 分钟前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@GPLer 另外因为目前看下来还是稠密模型能力强，所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ，跑 27B 模型速度太慢没法用，苹果只是单纯力大砖飞+高性价比所以才写上去了。

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@akadanjuan101 可以的
gemma4 31b 没有官方量化，我还在找合适的使用方式
qwopus 我最近在试，这个因为是非官方的我没写，确实忘了😂

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@Enivel FTS 一开始没反应过来，查了下这不就是双路召回的其中一路吗，都 2026 年了，早就标配了。

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@akadanjuan101 所以你 40g 显存目前用啥模型啊

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@akadanjuan101 但是这种现在没有全新的了，容易买到矿，本身也是魔改卡，质保也是个问题，所以我说了有丐的方案但是不推荐 😂

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@Lykos 我自己有一张 3090 24g ，35b 和 27b Q4 用 Ollama 勉强能跑，但是上下文开不高，还是推荐 5090 32g 或 4090 48g ，另外 mac m5 max 64g 版本也是不错的选择，算下来整机成本大概 3w ~ 4w 左右，再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ，但是 qwen 官方量化的 q4 有问题，权重和 fp8 一样大，只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型，48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文，非代码类任务用用还行。

---

另外如果不要求长上下文的话，27b 模型 16g + gguf 极限量化应该也能跑，35b 模型内存+显存混合使用应该也能跑，不过我没试过，所以不做推荐

---

丐的方案也有，比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ，但是这些方案要么太老要么功耗太高又没质保，并且我没试过，所以就不推荐了。

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@GPLer 另外目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ，如果要测试最好在这三个里选，测试下来稠密模型效果比激活参数小的 MoE 模型好很多。

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@archxm 3b 模型只能日常对话，基本上没有实用价值，数据量和模型大小没有直接关系，跟上下文长度以及长文本能力有关，3b 也许长文本能力还行，但是模型能力不行也没用。
27b 风评还是不错的，如果效果一般可能是 RAG 配置问题，可以先不用 RAG ，试试都放到一个文件夹里，然后用 opencode 等 agent 平台配置模型，然后将目录所在位置告诉它，测试这种情况下的问答效果，速度会慢很多，但是大模型自己探索后应该能答对，如果这样子可以，后面可以让模型写个 skills ，将检索的技巧做成技能。

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@archxm 新出的 qwen3.6-35b 再试试？

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@archxm 你的观点是 RAG 不行，我的观点是 3B 不行，没人说一定要一开始就大投入，但你不应该因为 3B 不行就说 RAG 不行。

1 天前

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

都不说 claude 、gpt 、gemini 御三家了，要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧，3b 测了跟没测有什么区别。😅

17 天前

回复了 pc10300 创建的主题 › 分享创造 › Angel Live 2.0：开源、免费、多平台、纯净、优雅的聚合直播 App，欢迎 star。

之前好像有个 simplelive 后来不更新了，这种东西风险感觉挺大的。

3 月 27 日

回复了 BeijingBaby 创建的主题 › Node.js › 2026 年， node 写后端你用的 nestjs, fastify, honojs 还是其他？

首先排除 nest.js ，用这个干嘛不上 Java Spring
接着排除国产 KPI 项目
再排除 Express 、Koa 、Fastify ，太老了
最后选型了 Elysia.js + Bun ，AI 让开发不是问题后，具体技术栈已经不再重要了，运行效率是第一位的，这个应该是目前最快的相对成熟完善的框架了。

3 月 26 日

回复了 tianjiyao 创建的主题 › 问与答 › DeepSeek 什么时候出新模型啊，感觉好久没动静了

@Leeeeex 杭州深度求索人工智能基础技术研究有限公司及其关联公司（以下简称“我们”或“DeepSeek”）是以探索 AGI 为目标的研究团队，专注于模型基础技术研究，并坚持开源路线，预期通过开放、透明、安全的理念促进技术普惠。

---

当前，好人不应该被人拿枪指着，如果后面不开源了也无可厚非，作为一家商业公司已经够意思了。

3 月 20 日

回复了 GPLer 创建的主题 › Python › 创造了 uv 的 Astral 公司被 OpenAI 收购

@iorilu 4L 回复了，记错了，我的，主要因为 Next.js 被收购后，React 19 的发展方向变了，所以我产生了错误的记忆。

3 月 20 日

回复了 GPLer 创建的主题 › Python › 创造了 uv 的 Astral 公司被 OpenAI 收购

@gnosis23 记错了，react.js 是转移给基金会，被收购的是 next.js 和 nuxt.js ，我的。

3 月 12 日

回复了 Tink 创建的主题 › 这个世界不完美 › 我真的吐了，好绝望， NPM 的包管理真的是个坑

正常来说 /usr 下的目录非 root 没写入权限吧，怎么写成功的

3 月 7 日

回复了 hotea 创建的主题 › 程序员 › 当前开发跨平台桌面应用应该用什么语言和框架？考虑到生态和性能，以及 vibe coding 加持

@sir283 C/C++ 在 vibe coding 的情况下代码量上来了是保证不了不会内存泄露的，你不泄调别人的库也可能会泄，不确定你说的 GC 是什么，但在我印象里，Qt 的程序没写好也是存在内存泄露的。

3 月 6 日

回复了 hotea 创建的主题 › 程序员 › 当前开发跨平台桌面应用应该用什么语言和框架？考虑到生态和性能，以及 vibe coding 加持

@stinkytofux C/C++还是算了吧，写不明白内存泄露了不是更糟心，PyQt 看上去还行，不知道实际怎么样

1 2 3 4 5 6 7 8 9 10 ... 22

❮

❯