V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
alienhsu
V2EX  ›  程序员

从洗车问题到存款问题,短期内 AI 编程无法全自动化

  •  
  •   alienhsu · 6 天前 · 2926 次点击

    在前不久,洗车问题(洗车店距离近,我该走过去还是开车过去的问题),几乎全部 AI 回答都是走过去。(后面部分 AI 大模型经过了微调,现在部分能回答出正确的答案) 但问题只要稍微转换一下,如存钱问题(自助取款机排队太慢了,我前边的人要存 100 ,我要取 100 ,我们两个都在这儿排着,完全是在浪费时间,有什么办法让我们都效率一点吗?)几乎大部分 AI 的大模型回答又是一本正经的胡说八道。 如,最近很火的一款 AI 回答如下:

    这是一个经典的效率优化问题!你们两个的需求刚好互补:
    解决方案:直接私下交易
    前面的人直接把 100 元现金给你
    你就不用取了,他也省去存款操作
    两个人都可以直接离开
    

    其实,从上面的情况,我们可以看出,目前的大模型其实并不是真正的理解问题的本质,而是纯粹概率学上的堆砌。而总所周知,概率学的堆砌在重复足够次数之后,可能存在重大的偏差,如:0.9 的 5 次方是 0.59049 。

    我不否认 Vibing Coding 对效率的大幅提升,这是显而易见的。但我觉得短期之内,AI 无法实现全自动化的编程。即,当前的 AI 编程是处于类似 L3 级别的辅助驾驶阶段,距离 L4 级别的自动驾驶还有一段较长的路径要走。

    dji38838c
        1
    dji38838c  
       6 天前
    Gemini 3.1pro:
    这是一个非常经典的“去中心化”场景!如果你们两个想瞬间提高效率,完全可以跳过 ATM 机这个中间商,直接进行“点对点”( P2P )交易:
    最完美的解决方案:
    你打开手机(微信、支付宝或手机银行),直接给他转账 100 元。
    他把他手里准备存的那 100 元现金交给你。
    deavorwei
        2
    deavorwei  
       6 天前
    好奇你那是哪个 AI 的回答,绝了,啊哈哈
    shellexy
        3
    shellexy  
       6 天前
    @deavorwei 所以答案是靠谱 llm 其实没问题,楼主的问题在于用了不靠谱 llm 嘛,而不是 vibe 真的不行。
    shellexy
        4
    shellexy  
       6 天前
    @dji38838c 看了下,gemini 3 flash 、gemini 3.1 pro 、copilot/gpt 这些都没问题,而豆包据说会得到题主那样的回答。
    phrack
        5
    phrack  
       6 天前
    > 目前的大模型其实并不是真正的理解问题的本质,而是纯粹概率学上的堆砌。

    > 短期内 AI 编程无法全自动化
    不对

    绝大部分编程不需要理解本质,实现需求就行,只要需求和测试方案清晰,AI 做的比中位数程序员好

    不过 LLM AI 确实不理解本质,就是见多识广,而且数据越来越多,齐全了
    msg7086
        6
    msg7086  
       6 天前
    > 而总所周知,概率学的堆砌在重复足够次数之后,可能存在重大的偏差,如:0.9 的 5 次方是 0.59049 。
    为啥你认为大模型结果的正确性是概率的幂?

    > 几乎全部 AI 回答都是走过去
    > 又是一本正经的胡说八道
    刚帮你测了 Gemini 2.5 Flash ,这个是半年多前就发布的模型,不可能根据现在新的知识微调。
    回答都是正确的:

    ===
    从逻辑上和实用性上来说,你应该开车过去。
    原因如下:
    车辆是服务的对象: 你去洗车,最终目的是让你的车被清洗。车子需要到达洗车店。
    避免不必要的麻烦: 如果你走过去,你的车还在原地。你还得走回来把车开过去,这等于多走了一趟,也浪费了时间。
    洗车店的流程: 洗车店就是为了服务车辆而存在的,他们会引导你把车开到指定区域进行清洗。
    虽然 50 米很短,走路确实能很快到达,但你最终还是要把车开过去。所以,直接把车开过去是最直接、最省事的办法。
    ===
    你主动和对方沟通:你可以礼貌地问对方:“您好,我看到您要存 100 块钱,我正好要取 100 块钱。要不这样,我把我的 100 块钱现金给您,您用手机(微信支付、支*宝或者银行 App )转账 100 块钱给我,这样我们俩都不用排队了,您看可以吗?”
    对方确认并同意:如果对方也觉得这样更方便,通常会同意。
    进行交易:你把 100 元现金给对方。对方通过手机银行 App 、微信或支*宝,向你的账户转账 100 元。
    ===

    所以一般遇上这种帖子我一律建议下次用个好点的模型试试,然后再来发帖。Gemini 每天都有免费额度,你没必要去用一些比较呆的模型然后得出一个错误的结论。
    AoEiuV020JP
        7
    AoEiuV020JP  
       6 天前   ❤️ 1
    我始终不看好现在大语言模型这种预测下一个 token 的这种智能。再怎么发展也只是工具属性,我不看好它能成为智械革命。
    kneo
        8
    kneo  
       6 天前 via Android
    想想这个工具能干什么,而不是自我催眠说这玩意没用。君子生非异也,善假于物也。
    gpt5
        9
    gpt5  
       6 天前
    ai 如同 5g 和电车,都是一场墙内的自娱自乐而已,看戏就行了🤝
    levelworm
        10
    levelworm  
       6 天前
    @AoEiuV020JP #7
    他也不需要成为广义人工智能啊。
    anonymous00
        11
    anonymous00  
       6 天前
    单纯的自动化,大约好几年前就有雏形,但我们要的,肯定是符合较高规范的自动化,这在当前也不是大问题,真正让我们难以安心的是:可控,目前 AI 只能完全自主的达成:可用,这远远不够。

    其他主题也有讨论对 LLM AI 生成代码的审核负担给程序员造成的工作影响,说到底,程序员也是想确认 AI 生成的 Code 究竟包含了怎样的逻辑和关联,殊途同归,目标同样指向:可控。

    目前的 AI 是目标驱动导向,它只聚焦于处理交互传递的直接目标,任何次生或衍生后果都不在其考量范围内,需要人为复盘再加以约束,尤其是社会领域的底线和规范等具象量化的难点。

    可用的 AI 生成已基本实现,可控/可靠的 AI 生成很难被认可,人心难测,AI 心更难,个人认为,在未来很长一段时期内都离不开多层级的人工判定。
    maolon
        12
    maolon  
       6 天前   ❤️ 1
    > 而是纯粹概率学上的堆砌
    不对,至少有论文讨论 predict next token 是贝叶斯的

    > 几乎全部 AI 回答都是走过去,所以短期内 AI 编程无法全自动化
    不对,corner case 不能代表什么东西,以及这两个之间也不构成直接逻辑关系

    每天看这种重复的讨论真的有点累了
    hazardous
        13
    hazardous  
       5 天前   ❤️ 1
    用弱智吧来检测 AI 的套路,在两年前 AI 刚兴起那时候就火过一阵子了,不知道为什么又被拿出来炒作了。各大媒体号自媒体号还有网友就跟丢了记忆一样,又发现了新天地。是这两年新网民太多了呢,还是实在没话题可炒了呢。
    弱智吧的问题本来就是精心设计、像脑筋急转弯一样反常识反逻辑的,正常人都不免上当,用这个测 AI 说明不了什么问题。如果 AI 按“这种模式”来回答“日常问题”,那得到的答案会是天马行空胡搅蛮缠,这才完蛋了。
    alienhsu
        14
    alienhsu  
    OP
       5 天前
    @msg7086 来,问你的 gemini ,我有一本普通的纸质小说,我先撕掉了第 7 页和第 8 页,接着又撕掉了第 11 页和第 12 页,最后我把第 20 页也撕了下来。请问这本小说一共少了几张纸(物理意义上的几页纸)?
    看看回答是什么?
    msg7086
        15
    msg7086  
       5 天前
    @alienhsu 自己跑一下也不难吧?

    === Gemini 3.0 Flash
    在普通的纸质书中,一张纸有正反两面,对应两个页码。通常规律是:奇数页在正面,偶数页在背面,且连续的“奇-偶”页码在一张纸上(即 1-2 页是一张,3-4 页是一张,以此类推)。
    我们来具体分析你撕掉的部分:
    第 7 页和第 8 页:
    根据“奇-偶”规则,第 7 页(奇数)和第 8 页(偶数)正好是一张纸的正反面。
    此处撕掉了 1 张纸。
    第 11 页和第 12 页:
    同理,第 11 页(奇数)和第 12 页(偶数)正好是另一张纸的正反面。
    此处又撕掉了 1 张纸。
    第 20 页:
    第 20 页是一个偶数页,它的正面是第 19 页。无论你是只想要第 20 页的内容还是直接撕下这一页,从物理结构上来说,你必须把第 19-20 页所在的这整张纸撕下来(或者说这页纸已经不在书上了)。
    此处又撕掉了 1 张纸。
    结论:
    这本小说一共少了 3 张 纸。
    ===
    Alias4ck
        16
    Alias4ck  
       5 天前
    这些问题都什么老掉牙的问题了 刚出来的时候就有了
    还在理解问题的本质, 人类理解了世界问题的本质了吗?物理学理解完了吗,不都是在探索可能性吗
    人类在理解很多问题本身也是基于统计学下结论的,不要把这些 corner case 来说它没用(你从 corner case 来说也从侧面说明你没理解 AI 的本质)
    至少从最近两年的发展了, AI 编程已经在大幅度的进步了,用过 AGENT 的人都觉得在进步了不知道你在说这些暴论干啥
    forisra
        17
    forisra  
       5 天前
    当然不能,全自动化不就是 agi ,都 agi 了还搁这讨论啥,打包行李准备去专门安置的低碳躺平贫民窟里蹲着吧。
    largep
        18
    largep  
       5 天前 via Android
    @AoEiuV020JP 一定程度上人脑也是一种 LLM ,输入当前的视觉/听觉/触觉等,输出下一刻的动作,及对视觉/听觉/触觉的预测
    rekulas
        19
    rekulas  
       5 天前
    测试了几次豆包专家模型还是可以回答正确
    zhwguest
        20
    zhwguest  
       5 天前
    非要考脑筋急转弯,人类的发挥也是乱七八糟
    realdaniel
        21
    realdaniel  
       5 天前 via Android
    @msg7086 这个 AI 的回答,存和取的人反了哦。想取的人拿 100 给存的人?
    msg7086
        22
    msg7086  
       5 天前
    @realdaniel 笑死,还真是
    zooo
        23
    zooo  
       5 天前
    现在质疑 AI 的感觉,像是一个普通人学会了某个脑筋急转弯后,拿来问某个硕士生或者博士生,然后他没有答出来,然后这个人就洋洋得意地说“你看,这个人水平还不如我,他的工作我也能干,我也要拿高工资”。
    Valid
        24
    Valid  
       5 天前
    @AoEiuV020JP 事实上人也是预测下一个 token
    alienhsu
        25
    alienhsu  
    OP
       5 天前
    @zooo 不是脑筋急转弯,而是当前 AI 给你的感觉是它是可靠的。但实际上,就如 @anonymous00 说的当前 AI 的可控、可靠无法离开人工的判定。一旦无法解决这两点,你就无法放心依赖它。打个简单比方,你通过给一些 prompt ,让 AI 完全从 0 到 1 生成一个支付系统或者电商的优惠算价系统,你不用了解它的底层是怎么实现的就直接上生产使用的,这是全自动化。你需要对关键的代码进行 review 、测试,甚至调整的,即半自动化。目前,短期内,AI 编程只能是半自动化,距离全自动化还有很长的路要走。
    zooo
        26
    zooo  
       5 天前
    @alienhsu prompt 不够
    你给他详细的 PRD 需求文档和技术文档,迭代几次,可以完成中型系统了
    另外,AI 写的代码其实要比人更加工整清晰,对未来 AI 解决更复杂的系统以及这种可以验证的工作持有乐观态度

    越是容易被快速验证,AI 越会擅长完成。
    zooo
        27
    zooo  
       5 天前
    @alienhsu 另外去年这个时候还没有人说可以替代人吧
    发展太快了,今年很多编程大牛都转变立场里,开始用 AI 编程非核心的系统,即使崩掉也不影响核心系统
    此外,由于 AI 生成系统更加便宜后,甚至可以出现模块化后,AI 生成多份冗余的代码模块,当前代码有问题,自动切换另外一套代码。
    anonymous00
        28
    anonymous00  
       5 天前
    @zooo 这里聊的“自动化”,我理解呢,是 AI 以某尺度下通用的默认参数或边界为前提,如果叠加的需求越详细,那意味着 AI 面向指定用途的定制化就越深入,一来,限缩了用户的意向和规模,二来,背离了通用 AI 的目标。

    19 年的 iOS 计算器程序缺陷,属于逻辑适配层面,是无法完备落实为精准描述的范畴。
    更早的 Meltdown 漏洞,属于设计缺陷,多少道人工流程也没能提前排除,这种概率雷,避无可避。
    更更早的 Pentium 的浮点 bug ,不仅是概率雷,还极隐蔽,非特殊场合不可察。

    AI 的自动化产出,也必然会隐含这类“暗伤”,采用可承受/可负担的不信任原则,是对人负责,也是不得已,总之,尽量规避同一角色群体既当运动员又做裁判的弊端吧。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3849 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 00:53 · PVG 08:53 · LAX 16:53 · JFK 19:53
    ♥ Do have faith in what you're doing.