gpt-4o-mini 和阿里 qwen2-7b-instruct 对比

This topic created in 706 days ago, the information mentioned may be changed or developed.

用 openai 最新的 gpt-4o-mini 模型,做新闻总结, 然后用 qwen2-7b-instruct 做总结,很明显 qwen2 的信息更好. 使用了同样的 prompt. 对比一下会发现,gpt-4o-mini 丢失了太多细节信息.

1 gpt-4o-mini 总结的新闻

“政府必须采取行动以避免退休危机” 行业对养老金法案表示担忧，强调在最低缴款方面错失了一个重要机会，这可能会影响退休保障。

概述

最近的养老金法案引发了行业内的讨论，许多利益相关者警告其对退休保障的影响。重点特别在于未能解决最低缴款的问题。

主要关注点

最低缴款：行业专家认为，该法案未能建立一个强有力的最低缴款框架，这对确保足够的退休储蓄至关重要。退休危机：人们越来越担心，如果没有足够的措施，可能会出现退休危机，导致许多人在晚年没有足够的资金。

行业反应

各行业代表已表达了他们的担忧，强调政府采取行动以纠正这些缺陷的必要性。他们主张采取更全面的养老金缴款方法，以确保未来退休人员获得更好的结果。

结论

养老金法案代表了退休政策的一个关键时刻，行业的警告突显了政府立即干预以防止迫在眉睫的退休危机的必要性。

2 qwen2-7b-instruct 模型总结的新闻

行业警告养老金法案错失最低供款机会《金融时报》报道，行业专家批评英国政府的养老金法案未能引入最低供款水平，这可能导致退休危机。

目前，英国政府正在审议的养老金法案引发了行业专家的担忧。他们认为，该法案错失了解决即将来临的退休危机的关键机会。主要的担忧在于养老金计划中缺乏最低供款水平，这可能导致个人在退休后无法积累足够的储蓄以维持其生活水平。

行业批评行业代表表达了他们的失望，认为该法案没有足够地确保个人为退休储蓄足够。他们认为，如果没有最低供款要求，许多人可能无法为退休后的生计储蓄足够。

退休危机退休危机的潜在原因包括传统定义受益养老金计划的衰落、生活成本的增加以及个人需要为退休储蓄更多。行业专家警告，如果不采取行动，面临退休后财务困难的人数可能会显著增加。

错失的机会行业内部人士认为，政府在养老金法案中未能包含最低供款水平，错失了解决这个问题的机会。他们认为，这样的措施可以帮助确保更多人为退休储蓄足够，从而减轻国家养老金体系的负担，并减轻个人的财务压力。

呼吁行动行业代表呼吁政府重新考虑并引入养老金法案中的最低供款水平。他们认为，这不仅有助于缓解退休危机，还能鼓励更多负责任的储蓄习惯。

对比

总结

细节

19 replies • 2024-07-24 20:31:21 +08:00

TheWalkingDead

Jul 21, 2024

就一个 case 的对比，太简单了...............

mike163

Jul 21, 2024 via Android

@TheWalkingDead 丢失关键信息，一个案例就可以放弃它了。这是反证法。

quickma

Jul 21, 2024

看用途的，让 qw 写代码就是一坨

jack778

Jul 21, 2024

qwen2-7b-instruct 现在能跑的过 gpt4o 吗

wph95

Jul 21, 2024

@mike163
找 100 个文章，让 qwen2 去做总结，能没有一次丢关键信息？

单拿一个例子而不是一个数据集。得不出任何结果。

BernieDu

Jul 21, 2024

qw 72b 做翻译，prompt 无论怎么调教除了翻译内容不返回其他东西，还是动不动返回一些额外的解释之类的，换回 llama3 70b 了

agegcn

Jul 21, 2024

至少对比个 10 次再下结论吧。说不定是 qwen 丢失的次数多呢。不过 4mini 用下来，确实是有一种不愿意多回答的感觉

twofox

Jul 21, 2024

自动 openAI 封掉我的账号，用不了 API 之后，我就逐渐放弃了 chatGPT 了

虽然知道新出的模型功能很强大，但是我真的懒得再去折腾一个新的帐号了

我现在用的就是千问，中文处理来说，感觉跟我当初用的 gpt4 差不多了

编程问题目前还用着 GitHub copilot

这两个搭配起来用我感觉还挺好，能够完全代替 gpt4

mike163

Jul 21, 2024 via Android

@x7395759 写代码最强事 claude sonet 3.5 然后是 deepseek coder v2 ，gpt-4o 很一般。

mike163

Jul 21, 2024 via Android

@jack778 一个是 7b 小模型，一个是大模型，不能直接比。qwen2-72b 可以和 gpt-4o 比一下，在中文能力上，比 gpt-4o 更好用。

mike163

Jul 21, 2024 via Android

@wph95 rsshub.tianxiacc.com 目前就是用 qwen2-7b-instruct 总结和翻译的，用下来表示满意。试用了 gpt-4o-mini/ groq llama3 70b ，感觉都不咋地。这些模型中文的翻译能力差不少。而且都会丢失细节信息。

mike163

Jul 21, 2024 via Android

@agegcn gpt-4o-mini 能力被削弱的太严重了。质量相当一般。

mike163

Jul 21, 2024 via Android

@twofox 编程可以用 claude sonet
3.5 或者 deepseek coder v2 ，都很不错。中文能力目前 qwen2 最强。

openmynet

Jul 21, 2024

翻译我用 gemma2-9b-it ，有些英语俚语 qwen2-7b get 不到，有些新兴词汇 qwen2-7b 也没法准确翻译。

idragonet

Jul 21, 2024

@mike163 #12 用了下 gpt-4o-mini 感觉就是 GPT 3.5 Pro 版本

adspe

Jul 22, 2024

@mike163 deepseek 就算了吧，提示词相同试了几次连一个 Vue3 的 tab 组件都写错，gpt-4o 和 claude 都是一次通过

lchynn

Jul 22, 2024

@openmynet #14 ；

试了下，gemma2-9b-it 翻译还不如 gemma1-7b ; 没觉得强在哪里啊？

拿下面这句话测试的：
Whether you're a believer or a skeptic, it's a thought-provoking watch that might just make you see the stars in a new light.

“thought-provoking” 没有翻译出来，直接给我写在中文译文里面，llama2-8b, gemma2-9b, Qwen2-7b 都可以翻译出来。我用的是 groq.com 的服务测试的。

openmynet

Jul 24, 2024

@lchynn 我这用的也是 groq, 但走的是 api ，groq 里面没有 gemma2-9b ，只有 gemma2-9b-it; 翻译用是的火狐插件 ChatGPTBox ，参数设置：Temperature: 1 。

gemma2-9b-it：无论你是否相信，这是一部发人深省的影片，可能会让你以一种全新的眼光去看待星空。
qwen2-7b: 不论你是信徒还是怀疑论者，这都是一部引人深思的影片，可能让你以全新视角看待星空。
yi-15.-9b: 无论你是信徒还是怀疑论者，这都是一部引人深思的作品，可能会让你以一种新的视角来看待星星。
chatglm-4-9b: 无论您是信徒还是怀疑者，这都是一部发人深思的影片，可能会让您以全新的视角看待星星。

受限于 ChatGPTBox 插件的限制，Temperature 没法设置: 0.01 ，当设置 Temperature：0 (Temperature 会使用默认值)
以下是通过软件进行测试：
测试配置：

Temperature: 0.01 （尽可能的保证每一次回答都一样）
top_p: 1
presence_penalty: 1.1
系统提示词：未设置

将以下内容翻译为中文：
Whether you're a believer or a skeptic, it's a thought-provoking watch that might just make you see the stars in a new light.

gemma2-9b-it: 无论你是相信者还是怀疑者，这部电影都值得一看，它可能会让你以全新的视角看待星空。
qwen2-7b: 无论是相信者还是怀疑者，这都是一部引人深思的影片，它可能会让你以全新的视角看待星星。
yi-1.5-9b: 无论你是信徒还是怀疑论者，这都是一部引人深思的观看，可能会让你以一种新的视角来看待星星。
chatglm-4-9b: 无论你是信徒还是怀疑者，这都是一部发人深省的影片，可能会让你以全新的视角看待星星。

-1.----------------------------

来源: https://www.reddit.com/r/LocalLLaMA/comments/1eaw160/anthropic_claude_could_block_you_whenever_they/
将以下内容翻译为中文：
Anthropic Claude could block you whenever they want.

gemma2-9b-it: Anthropic Claude 可以随时阻止你的访问。
qwen2-7b: 具有人类意识的克劳德可以在任何时候阻止你。
yi-1.5-9b: Anthropic Claude 可以随时阻止你。
chatglm-4-9b: Anthropic Claude 可以随时阻止你。

-2.----------------------------

来源: https://www.reddit.com/r/LocalLLaMA/comments/1eaw160/anthropic_claude_could_block_you_whenever_they/

将以下内容翻译为中文：
Thank God for how open source models are catching up, I have no desire whatsoever to become a slave to API run by tech bros.

gemma2-9b-it: 感谢上帝，开源模型正在赶上，我绝对不想成为那些科技大佬掌控的 API 的奴隶。
qwen2-7b: 感谢上帝开源模式正在迎头赶上，我完全没有意愿成为由科技精英运营的 API 的奴隶。
yi-1.5-9b: 感谢上帝，开源模型正在迎头赶上，我丝毫没有成为由科技兄弟运行的 API 的奴隶的愿望。
chatglm-4-9b: 感谢上帝开源模型正在迎头赶上，我无论如何都没有成为科技大亨们 API 的奴隶的欲望。

-3.----------------------------

来源: https://www.reddit.com/r/LocalLLaMA/comments/1eaw160/anthropic_claude_could_block_you_whenever_they/

将以下内容翻译为中文：
Why do you assume any crime has ever been committed ever, it’s a TOS they can change that and block you at any time for any reason.

gemma2-9b-it: 你为什么假设任何犯罪行为都曾经发生过？这违反了服务条款，他们可以随时更改条款，并出于任何理由封锁你的账号。
qwen2-7b: 为什么你假设任何犯罪行为曾经发生过？这是服务条款的一部分，他们可以随时出于任何理由阻止你。
yi-1.5-9b: 你为什么假设任何犯罪行为都曾经发生过？这是他们的服务条款，他们可以随时以任何理由更改并阻止你。
chatglm-4-9b: 你为什么假设任何犯罪行为都曾经发生过？这是他们的服务条款，他们可以随时以任何理由更改并阻止你。

-4.----------------------------
来源: https://www.reddit.com/r/singularity/comments/1eaej0u/mark_zuckerberg_eloquently_states_the_case_for/

将以下内容翻译为中文：
Mark Zuckerberg eloquently states the case for open source and decentralized AI - a well thought writeup that answers the naysayers and doomers

gemma2-9b-it: 马克·扎克伯格（ Mark Zuckerberg ）巧妙地阐述了开源和去中心化人工智能的理由——一篇经过深思熟虑的文章，回应了反对者和悲观主义者。
qwen2-7b: 马克·扎克伯格有力地阐述了开源和去中心化人工智能的案例——一篇深思熟虑的撰写，回答了质疑者和悲观者的观点。
yi-1.5-9b: 马克·扎克伯格以优雅的言辞阐述了开源和去中心化人工智能的案例——一篇深思熟虑的写作，回答了那些持怀疑态度和悲观的人。
chatglm-4-9b: 马克·扎克伯格巧妙地阐述了开源和去中心化 AI 的论点——这是一篇深思熟虑的撰写，回应了那些怀疑者和悲观主义者。

mike163

Jul 24, 2024 via Android

@openmynet gamma2 感觉翻译的更加理解原文。