V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xuelang
V2EX  ›  OpenAI

ChatGPT 图像理解能力能在哪些场景发挥作用?

  •  1
     
  •   xuelang ·
    selfboot · 201 天前 · 1857 次点击
    这是一个创建于 201 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了下 ChatGPT 的图像理解,比预期好,效果还是很赞的。

    ChatGPT 图像理解能力深度体验

    现在能想到的一些用途包括:

    1. 以后排查问题可以直接扔截图给它;
    2. 帮忙实现 web 页面;

    其他还要啥好的使用场景吗?

    22 条回复    2023-10-11 11:34:27 +08:00
    whatv3
        1
    whatv3  
       201 天前
    验证码...
    jimrok
        2
    jimrok  
       201 天前
    去除水印
    xuelang
        3
    xuelang  
    OP
       201 天前
    @whatv3 那得破解才行
    xuelang
        4
    xuelang  
    OP
       201 天前
    @jimrok 这里说的是图像理解。。去水印至少得有文生图才行
    xuelang
        5
    xuelang  
    OP
       201 天前   ❤️ 1
    @whatv3 试了下数字验证码,好像不用破解,直接就给识别了
    zealotxxxx
        6
    zealotxxxx  
       201 天前   ❤️ 3
    你直接看微软发的那个论文,基本说的很全了。
    [2309.17421.pdf]( https://browse.arxiv.org/pdf/2309.17421.pdf)
    maxxfire
        7
    maxxfire  
       201 天前
    大家来找茬游戏,可以玩通关了
    JayZXu
        8
    JayZXu  
       201 天前
    如果速度能提升的话,对视障人士还是挺有用的
    jimrok
        9
    jimrok  
       201 天前
    修改设计图可能行,把老王 p 掉,把老王 p 好看点
    xuelang
        10
    xuelang  
    OP
       201 天前
    @zealotxxxx 感谢,我瞅下
    tuutoo
        11
    tuutoo  
       201 天前
    有人能使用这个图像识别功能了没?上次看了介绍,但啥时候有这功能啊。
    iorilu
        12
    iorilu  
       201 天前
    这么说打码问题可以解决了?
    xuelang
        13
    xuelang  
    OP
       201 天前
    @tuutoo 我这边已经有了,还在不断体验中
    xuelang
        14
    xuelang  
    OP
       201 天前
    @iorilu 试了下,并不能很好识别验证码
    xuelang
        15
    xuelang  
    OP
       201 天前
    @jimrok 这不行。。。这个只是理解图片而已
    whatv3
        16
    whatv3  
       201 天前
    @xuelang 用了多少 token ? 算算看是不是比打码平台便宜...
    xuelang
        17
    xuelang  
    OP
       201 天前
    @whatv3 哈哈哈,这是关键。目前还是打码平台靠谱便宜,ai 效果不行
    qiany
        18
    qiany  
       201 天前
    检测员工摸鱼时长
    youthfire
        19
    youthfire  
       200 天前
    其实应用场景可以有很多,但是限制权在别人手里。比如说,interpretor (Advanced Data Analyze),出来的时候可以进行复杂的表格结构分析,然后完成 ocr ,最后排版。当时我经常用在业务上。但是现在只剩“告诉你逻辑/思路”,连 ocr 都不能顺利完成,不是告诉你环境缺失相关组件,就是一顿分析后质量很低,又或者提供惨不忍睹的部分结果。所以这个问题,回到图像理解能力上也是一样,它能懂,但是对于能不能做到你的需求,一直是变量。能力是有,但是服务商略微调整,你这边的结果,或者应用能力就变动很明显。
    MelodyZhao
        20
    MelodyZhao  
       200 天前
    看图讲故事,还是挺不错的
    xuelang
        21
    xuelang  
    OP
       200 天前
    @youthfire 有可能是因为 GPU 算力紧缺,只能裁剪
    xuelang
        22
    xuelang  
    OP
       199 天前   ❤️ 1
    @whatv3 试了下识别验证码,效果很差
    可以看
    https://selfboot.cn/2023/10/11/chatgpt_recaptcha/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   911 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:25 · PVG 06:25 · LAX 15:25 · JFK 18:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.