V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  EvaDan  ›  全部回复第 1 页 / 共 1 页
回复总数  5
2 天前
回复了 hutng 创建的主题 OpenAI 为什么 gpt 不能正确识别汉字的个数?
这个涉及倒 GPT 技术底层的一些实现问题,主要是 tokenizer 。也就是把一个词/char 字符转成对应整型的数(并不一定就是一个)来表示。tokenizer 的实现有很多种,目前主流的是 BPE ,你可以去搜搜看。简单来说 字符串里的一个单元 经过 tokenizer 处理后,并不一定就是生成一个 token ,可能是多个,也可能是需要合并其他单元才生成一个。也就说你理解的字数 和最后输入到 GPT 的 token 数不一定不相等。
对应到你这个任务,如果 GPT 需要完成,它首先得对准确的截断出,你想要计算个数的的 token 再进行 decoder (反编码),然后再去计算个数,目前纯粹的数值计算并不是 GPT 的强项,所以效果不好。
不知道巴拉清楚没,哈哈
22 天前
回复了 zhoust 创建的主题 商业模式 日入 5000+,有点无法理解这个世界了
我了个草 还真是 后续有押金的我都要注意是不是原路退回了。。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2522 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 05:55 · PVG 13:55 · LAX 22:55 · JFK 01:55
Developed with CodeLauncher
♥ Do have faith in what you're doing.