EvaDan 最近的时间轴更新
EvaDan

EvaDan

V2EX 第 685752 号会员,加入于 2024-04-18 16:04:47 +08:00
今日活跃度排名 10537
EvaDan 最近回复了
2 小时 43 分钟前
回复了 hutng 创建的主题 OpenAI 为什么 gpt 不能正确识别汉字的个数?
这个涉及倒 GPT 技术底层的一些实现问题,主要是 tokenizer 。也就是把一个词/char 字符转成对应整型的数(并不一定就是一个)来表示。tokenizer 的实现有很多种,目前主流的是 BPE ,你可以去搜搜看。简单来说 字符串里的一个单元 经过 tokenizer 处理后,并不一定就是生成一个 token ,可能是多个,也可能是需要合并其他单元才生成一个。也就说你理解的字数 和最后输入到 GPT 的 token 数不一定不相等。
对应到你这个任务,如果 GPT 需要完成,它首先得对准确的截断出,你想要计算个数的的 token 再进行 decoder (反编码),然后再去计算个数,目前纯粹的数值计算并不是 GPT 的强项,所以效果不好。
不知道巴拉清楚没,哈哈
20 天前
回复了 zhoust 创建的主题 商业模式 日入 5000+,有点无法理解这个世界了
我了个草 还真是 后续有押金的我都要注意是不是原路退回了。。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2998 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 11:56 · PVG 19:56 · LAX 04:56 · JFK 07:56
Developed with CodeLauncher
♥ Do have faith in what you're doing.