4o 的多模态怎么还没开放

多模态

文本模型

开放

16 replies • 2024-06-06 10:05:55 +08:00

1

baoshuai33

Jun 2, 2024 via iPhone

前面有个回形针一样的就是可以传文件

2

kuhung

Jun 2, 2024

拍照问他也可以呀

3

crokily

Jun 2, 2024

拍照和语音一句句对话这些一直都有，但是像发布会上的那种实时对话还是没有发布。
也不知道啥猴年马月才会发布。

4

maolon

Jun 2, 2024 via Android

1

openai 的臭毛病，先把 hype train 搞出来，具体用户啥时候能体验，慢慢等灰度去吧。
开发者论坛上一堆问什么时候开放演示里功能的，答曰: 无可奉告(现在只给密切合作伙伴使用)

5

lDqe4OE6iOEUQNM7

Jun 2, 2024

1

语音内测要几周，全部上线还得几个月，看 Open Ai 公告，就是为了在谷歌之前发布，不然没亮点了，加上斯嘉丽控诉 opanai ，下架了一个声音，估计不知道要多久，好几周了

6

binaryify

Jun 2, 2024

图片可以识别的

7

shan1989

Jun 2, 2024

目前只能输出文字，无法直接输出图片这些吧

8

youngxhui838

Jun 2, 2024 via Android

我连 4o 都还没有灰度到

9

IndexOutOfBounds

OP

Jun 2, 2024

@baoshuai33 @kuhung @crokily @binaryify 我猜现在的语音，图片都还不是原生多模态，比如语音是先转成文字再给 gpt 的，和原生多模态还不一样，信息会有损耗，比如声音的语气情绪

10

crokily

Jun 2, 2024

@IndexOutOfBounds 是不一样，发布会演示的是 RTC 实时对话，现在这个还得一句一句等候处理。

11

appsyb

Jun 2, 2024

4o 发布会就是为了狙击 Google I/O gemini 的

12

ufogxl

Jun 2, 2024

@shan1989 可以输出图片，还能利用 bing 搜索在线内容

13

18k

Jun 2, 2024

我的有了，就是没开会员限制文件次数

14

binaryify

Jun 5, 2024

@IndexOutOfBounds 语音还得等,但是图片我看是可以识别图片内容的,不只是文字,你给它几个西瓜的图,打上数字编号,他会告诉你哪个熟了可以买,给它发 k 线图,也会给你分析走势

15

IndexOutOfBounds

OP

Jun 5, 2024

@binaryify 哦哦，我主要还是指原生多模态。这个应该是模型外挂了什么视觉识别？不是模型本身认识图片，Poe 上用 gpt3.5 也可以上传图片，但模型本身显然只能处理文字

16

binaryify

Jun 6, 2024

@IndexOutOfBounds #15 确实,现在感觉和发布会的就是买家秀和卖家秀的区别