neteroster 最近的时间轴更新
neteroster

neteroster

V2EX 第 191331 号会员,加入于 2016-09-11 21:01:55 +08:00
今日活跃度排名 911
根据 neteroster 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
neteroster 最近回复了
因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

#7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了

当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。
Together 和 Fireworks.ai
还有一个比较便宜的不过我没试过 https://studio.nebius.ai/playground?models=deepseek-ai%2FDeepSeek-R1
@sworld233 R1 蒸馏的 Qwen 7B 是拿 Math 版本的,所以一般任务有点一言难尽。14B 和 32B 才是普通的版本蒸馏出来的。

---

楼上说的 Gemma2 9B 就可以,然后还有 GLM4 9B ,Qwen 2.5 7B 也还可以。
R1 确实很猛,带思考的大模型做这种题只会越来越强,毕竟:结果可验证 + R1 指明了强化学习在推理 LLM 上的有效性,这俩一结合就能预估这种算法竞赛未来的 LLM 能打过所有人类就是和 alpha go 打败人类棋手一样自然的事情。

虽说如此,实际应用场景复杂得多,还要在 Agent 、超长记忆、持续学习这几个领域有所进步才行,现在的技术这几个方面是明显薄弱的。很期待未来的发展。
@neteroster #1 CosyVoice 也支持,没记清楚
https://funaudiollm.github.io/cosyvoice2/

https://github.com/RVC-Boss/GPT-SoVITS

https://github.com/fishaudio/fish-speech

其中后两个还支持少样本声音克隆,可以搞点自己喜欢的声音样本做克隆生成
29 天前
回复了 w568w 创建的主题 C# C# 有哪些显著的缺点?
语言感觉挺好的。我来提一个显著的:官方调试器 vsdbg 是专有的,所以如果你用除 vs 和 vscode 等之外的部分编辑器的话(例如 cursor )就会有调试方面的问题,只能用一些平替调试器
31 天前
回复了 lifehz 创建的主题 Apple mac air m1 能搭 deepseek v3 吗?
想多了,Q4 都要几百 G 内存
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   702 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 20:51 · PVG 04:51 · LAX 12:51 · JFK 15:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.