V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kennylam777  ›  全部回复第 1 页 / 共 47 页
回复总数  930
1  2  3  4  5  6  7  8  9  10 ... 47  
其實去到 OpenAI 的規模, 遇到的底層網絡問題更多, 例如

- 多 regions 的 scheduling, 這個在 Managed k8s 只有 GKE 能做, IPAM 及後面的 BGP 開始變得重要, 一般 Managed k8s 做不了
- Single Cluster 上千 nodes 的 etcd 及 API server 都要做負載均衡了
- Pod Security 需要更細化
- 或者要考慮 Multiple cluster 的 Federation, 按業務分割出不同 k8s cluster, 再用內網的 Load balancer 來互通

AI 相關的應該更注重 GPU 資源分配吧, nVidia Kubernetes device plugin 是不夠用的, 必需要有更細致的方案
12 天前
回复了 paddistone 创建的主题 程序员 搞了一个规则引擎
只看網頁搞不懂這玩意是甚麼, 全部 Serif 字體就知道是簡體中文用戶的作品, 另外英語不行, 已經不知道是甚麼東西, 還在 Contact Us 都要用 "Contact Us Now !!" 大聲呼叫的
QwQ 32B 的古詩賞析, 正體問題還是用簡體回答, 長篇大論的實在頂不住, 我還是換成 Qwen2.5 32B 測測看

### 問題

賞析以下古詩
--
早發白帝城 - 李白

朝辭白帝彩雲間,千里江陵一日還。
兩岸猿聲啼不盡,輕舟已過萬重山。



### Qwen 2.5 32B:
《早發白帝城》是唐代著名詩人李白的一首七言絶句,描繪了清晨離開白帝城時的壯麗景象和迅速航行的輕舟情景。這首詩主要表現出詩人的喜悅心情以及對大自然景色的熱愛與贊美。

首先,“朝辭白帝彩雲間”,開頭便呈現了一幅美麗而神祕的畫面:清晨,霞光萬丈,詩人離開了被彩雲環繞的白帝城。這句以“白帝”和“彩雲”的意象,營造出一種神奇、虛幻而又壯麗的意境。

接著,“千里江陵一日還”,通過這種速度感來表現詩人的輕鬆自在。這裡用了一個驚奇的數字對比——“千里”與“一日”。這不單僅是空間和時間上的反差,更重要的是表達了詩人快速返家的急切心情。

下一句,“兩岸猿聲啼不盡”,描寫沿江而行時聽到的猿猴啼鳴。這種自然之音無窮無盡,象徵著旅途中的持續性和永不停息的生命力,也增添了旅程中的一絲寂靜與孤獨感。

最後,“輕舟已過萬重山”則強調了詩人順利抵達目的地的心情。這裡的“輕舟”不僅僅是指船隻本身,更是象征著詩人的自由和洒脫,表現出他對生活的熱愛和樂觀態度;而“萬重山”的意象更突出了這種旅程的艱辛與最終的成功。

整首詩通過生動鮮活的景色描寫、明快優美的語句表達了作者開朗豁達的心境和對大自然之美的無盡讚美,是李白作品中一首非常有名的山水詩。


### Gemma 3 27B
好的,我們來賞析李白的《早發白帝城》。這首詩是李白在被赦免後,離開白帝城時所作,充滿了喜悅、自信和豪邁之情。

**詩句解讀:**

* **「朝辭白帝彩雲間」**: 描寫詩人清晨告別白帝城。白帝城地處高山峽谷之中,常年雲霧繚繞,景色瑰麗奇特。“彩雲間”不僅點明了地理位置的優美,也暗示了詩人當時的心情如同彩雲般輕鬆愉快。
* **「千里江陵一日還」**: 說明詩人乘坐輕舟,一天之內便可從白帝城返回江陵。這句看似誇張,但卻真實地反映了長江水流的湍急和詩人的歸心似箭。“千里”強調距離遙遠,“一日還”則突顯速度之快,也暗示了詩人被赦免後心情的暢快和對自由的渴望。
* **「兩岸猿聲啼不盡」**: 描寫長江兩岸猿猴的叫聲此起彼伏,連綿不斷。“啼不盡”不僅表現了猿猴的數量之多,也暗示了詩人旅途中的熱鬧和生機勃勃。同時,猿聲也烘托出詩人內心的喜悅之情。
* **「輕舟已過萬重山」**: 描寫詩人的輕舟已經駛過重重山巒。這句是全詩的點睛之筆,“萬重山”既指長江三峽的險峻山勢,也象徵著詩人過去所經歷的困境和阻礙。“輕舟已過”則表明詩人已經克服了困難,迎來了新的開始。

**賞析:**

* **意境開闊**: 詩歌以簡潔明快的語言,描繪了一幅雄渾壯麗的長江三峽圖景。詩中沒有直接抒發情感,而是通過對自然景物的描寫,間接地表達了詩人的喜悅之情。
* **豪邁奔放**: 李白是一位浪漫主義詩人,他的詩歌往往充滿了豪邁奔放的氣勢。《早發白帝城》也不例外,詩中“千里江陵一日還”、“輕舟已過萬重山”等語句,都表現了詩人的自信和豪情壯志。
* **動靜結合**: 詩歌既有對長江水流、猿聲鳥鳴的動態描寫,也有對白帝城、萬重山的靜態描繪。動靜結合,使詩歌的意境更加豐富生動。
* **語言精煉**: 全詩僅有四句,但卻包含了豐富的信息和深刻的情感。詩人運用了簡潔明快的語言,將複雜的情感表達得淋漓盡致。

**總結:**

《早發白帝城》是一首充滿浪漫主義色彩的佳作。詩歌以其開闊的意境、豪邁的氣勢和精煉的語言,贏得了後世讀者的廣泛讚譽。這首詩不僅描繪了長江三峽的美麗景色,也表達了詩人被赦免後的喜悅之情和對自由的渴望。

希望這個賞析能幫助你更好地理解李白的《早發白帝城》。



********************
我的評語是

Qwen2.5 32B: 沒有 QwQ 32B 般的簡體 CoT, 輸出字體看來還可以, 但有錯字例如「贊」(應為「讚」)及標點符號用錯了“” (應為「」開引號), 在香港作為教育用途是不行的, 只能將就用。內容也針對原文用字作出回應, 例如形容「彩雲環繞」就是用原文的「彩雲」作出伸展。

Gemma 3 27B: 沒錯字, 起碼能逐句輸出「」開引號, 但仍然錯用了“” , 能用「雲霧繚繞」陳述意象, 也能點出到白帝城經過的是長江三峽。


比較之下我就不會用 Qwen2.5 32B 了。
我想廣府人會看得懂

QwQ 32B, 完全看不懂, 不懂香港也算了, 回應字體也不對, 這種程度的話在香港是沒有商用價值的。
用戶:
---
如果一個連登仔見到呢個笑話, 佢會點接落去?
```
飛機係荒島到墜毀
死淨 3 個幸存者
跟住比當地食人族捉晒番去
3 個人去到比人吊晒起身
食人族公主就問第一個幸存者
「你寧願彈十下賓周定寧願死」
幸存者話寧願彈十下賓周
跟住公主問第二個幸存者
「你寧願彈一百下賓周定寧願死」
幸存者話彈一百下賓周
彈痛到嗚嗚叫
跟住公主問第三個幸存者
「你寧願彈一千下賓周定寧願死」
幸存者話 我寧願死!!
公主就話
```

AI:
---
这个笑话的结构是一个递进式的幽默,通过逐步增加数字(从 10 到 100 再到 1000 )来制造笑点。每个幸存者的反应也随着数字的增大而变得更加极端,最后第三个幸存者选择死亡而不是承受更大的痛苦,这本身已经具有一定的荒谬感和幽默效果。

然而,在第三个人选择了“宁愿死”之后,公主会有什么样的回应呢?这里的关键在于预期与现实之间的反差。根据前面的模式,公主可能会继续沿用类似的句式,但需要制造一个转折或意外来增强笑点。

可能的结局是:
公主说:“好啊!那我让你死一千次!”
或者更夸张一点:
“既然你选择死亡,那么……你就得弹一万下宾周再死!”(进一步加剧了荒谬性)

这样的回应既延续了之前的模式,又通过出乎意料的数量增加制造了额外的幽默效果。同时,这也突显了食人族公主可能具有某种扭曲的逻辑或偏好,即不断加码惩罚以达到极端的效果。

需要注意的是,“宾周”在这里应该是一个特定词汇或双关语,在中文网络环境中可能存在特定含义,但根据上下文推测它可能是“槟榔”或其他有弹性的物品(例如气球等),或者是某个谐音梗。由于具体背景不明确,这里假设其为某种需要反复拉伸的动作对象。

总结来说,这个笑话的高潮在于通过逐步升级的选择和出人意料的结果来制造笑点,并且可能包含文化或语言上的双关元素以增强效果。公主的反应应该打破之前简单的二选一模式,转而采取更极端的方式,从而产生喜剧性的反差。


Gemma 3 27B 就強多了, 懂廣東話, 懂連登

AI:
---
連登仔見到呢個笑話,接落去嘅反應肯定係:

**「公主話:『咁你唔早講!我哋已經彈咗成千下賓周喇!』」**

或者會加多句:

* **「正宗 on9 笑話!」**
* **「笑死,呢個 level 嘅廢柴笑話都得?」** (通常係帶諷刺意味)
* **「連登仔表示理解哂佢哋嘅痛苦」** (自嘲)
* **「其實公主想講嘅係:『你 on9 咩?』」**

總之,連登仔會用一種好似睇唔起但又忍不住笑嘅態度去接續呢個笑話。佢哋鍾意喺廢柴笑話入面搵啲諷刺同自嘲嘅空間。
Gemma3 的多語言能力肯定比 Qwen2.5 強

最少對正體中文的用戶來說, Gemma3 1B 不寫錯字已經很厲害, Qwen2.5 7B 的輸出有點慘不忍睹, 32B 才像樣, 更不用說用語差異 Qwen 是不行的

Gemma3 4B 連廣東話都比 Qwen2.5 32B 強很多。
才 2000 塊, 跑 8bit quantization 的 VRAM 也不夠, 不如拿去租 GPU 摸清楚需求再算
@windyboy 可以是可以,但 4tps 只有實驗用途,驗證也做不到,更不能作為生產力
以前 4080 能在公平條件下超越 3090, 這一代 5080 還真的沒有超越 4090 。5080 相比 4080 的確只有 10%增長。

製作遊戲應該用不了 DLSS 的, 就看看你能拿到的 5080 能否只比 4080 貴 10%吧
76 天前
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
@gxt92 散熱倒是簡單, 我的 3090 及 4090 都配上了 Bykski 水冷頭 , 4090 是首發買的, 兩個月後就有 Bykski 水冷頭在賣了。
76 天前
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
當然買啊。

先前 RTX3090 缺貨, 推出一年後才購入, 結果用了一年多就推出了 4090 。

幸好 4090 在首發期間買入, 用了兩年多才推出 5090, 反正 90 不會大幅降價, 趁早購入才划算。
111 天前
回复了 fid 创建的主题 Local LLM 8x4090 离线部署 Qwen2.5 求助
順帶一提, 我用單張 4090 已經能跑 Qwen2.5 72B 的 ExLlamav2 量化轉換程式(convert), 4/5/6bits 等等模型檔在本地隨便生成, Huggingface 上也有很多已經量化好的 exl2 模型
111 天前
回复了 fid 创建的主题 Local LLM 8x4090 离线部署 Qwen2.5 求助
單機的話直接用 ExLlama2 呀, 量化有 2/3/4/5/6/8 bit, 簡單支援多卡, 自動或手動調整 VRAM 分配, 測試時用 text-generation-webui, 生產環境用 TabbyAPI 即可有 OpenAI compatible API, Concurrent inference with asyncio 能同時處理多個請求增加吞吐量。

我就在用單機配兩張 3090 跑 Qwen2.5 32B 8bit 量化, 32K context window 全開也足夠了, 8 張 4090 應該能直接跑 72B 不量化吧, 但 PCIe 頻寬會有問題。
123 天前
回复了 Legman 创建的主题 Kubernetes k8s 集群节点使用什么 Linux 发行版
我是在用 kubernetes-sigs 的 kubespray, 但因為有 GPU 節點, 所以都在用 Ubuntu, nVidia 的支援是第一考量
@ser3w 3 個 service 的方法就是我說過的 1, 但問題還是 2 的 load balancing 。

其實我自己有這種 hash 指定 backend 場景, 解決方法也很簡單, 沒有用多個 service 這麼麻煩, Istio 會參考 service 的配置但不觸及 ClusterIP, 這個我研究過。

直接上 Istio, EnvoyFilter 用 lua 加一個"x-hash-key"的 HTTP header, 然後在 DestinationRule.spec.trafficPolicy.loadBalancer.consistentHash.httpHeaderName 設成"x-hash-key"就好

ChatGPT 就能給出代碼細節。
反正都 hardcode 的 nginx config, 即是 3 個副本是固定數量的。

1 的 504 問題很簡單, 三個副本獨立各自有 ClusterIP 的 service 即可解決問題, ClusterIP 是固定 IP 不會跟隨 Pod IP 變動。


2 的 hash 問題, 我是用 Istio 解決的, Istio 有自己的 resolving 機制不跟隨 k8s services 做法, 它會自行更新 Pod IP 比較有彈性。
@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。

例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。

GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。

GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。

其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。
@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2

這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。

@glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。
@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。

但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。

我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。
@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?
@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。
1  2  3  4  5  6  7  8  9  10 ... 47  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5316 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 07:44 · PVG 15:44 · LAX 00:44 · JFK 03:44
Developed with CodeLauncher
♥ Do have faith in what you're doing.