syaoranex 最近的时间轴更新
syaoranex

syaoranex

V2EX 第 382173 号会员,加入于 2019-02-05 21:33:20 +08:00
根据 syaoranex 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
syaoranex 最近回复了
41 天前
回复了 andforce 创建的主题 程序员 约 192GB 短信样本如何标记分类?
没必要所有的短信都拿来训练,同意楼上所说,可以先聚类再挑选聚类中心的一部分短信来用于训练。没有被挑中的就拿来当测试集就 OK 了。因为聚成一类的大多数都是重复的模式。

聚类的时候,可以先用正则等文本匹配来识别短信发送源,例如 [XX 应用] 之类的,然后在每个发送源下,使用文本嵌入模型转换向量,之后对向量进行聚类,建议聚多个类,挑选多个聚类中心的前 3~5%的短信来训练。足够有代表性。这一步可以很快,因为文本嵌入模型一般不大,运行速度尚可接受。至此筛选出 2-3kW 条典型短信。

如果还想更快,可以使用分词+词表统计的方法统计词频生成稀疏向量再聚类的办法,这种方法也许更适合,如果数据集中同一来源的大多数短信是套取模板(比如运营商的话费流量短信)生成的,那么可以针对模板类短信取其中千分之一的样本,模板类短信之外的取较大比例的样本,覆盖度更好。

之后就是用 LLM 来进行文本分类了,文本分类任务上,再优秀的传统模型的效果可能才刚好够上最烂的大模型。至于速度问题,可以搭配提示工程尝试效果不错的小模型,或者使用 Groq 等平台,它们提供了吞吐速度较快的大模型,分类任务足够了;而且可以搭配工程实现的优化:对于同一个聚类样本,例如 2K 条样本,如果在分类过程中前 1K 条样本有 95%以上都被判定为垃圾短信,那么可以将后 1K 条样本直接划为垃圾短信,这样做可以节省大量时间。同时也可以考虑多个平台多个账号并发处理,我认为资金充足的情况下,1 秒 10 个的处理速度还是可以达到的。按照这个速度,一个月可以弄完 2.5 kW 条样本的分类。
173 天前
回复了 guazila 创建的主题 OpenAI GPT-4o 中文对话答非所问
@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593),里面有解析幽灵 Token 的代码,可以自行上手验证。
173 天前
回复了 guazila 创建的主题 OpenAI GPT-4o 中文对话答非所问
这没有什么好奇怪的,你只是遇到了「 SolidGoldMagikarp 」现象,或称「幽灵 Token 现象」。详情可以参考这篇文章: https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说,4o 的词表训练的时候,用了大量网路爬虫资讯,其中囊括了大量受污染的词汇,这些词汇出现多了之后,出现次数较多的词组就会被固定在分词模型中。但是在训练的时候,用的则是另一批中文语料,或者这些受污染的词汇网页被清洗了,所以这些 token 没有被充分训练,模型对这些 token 相当陌生,只能大概直到它和某些娱乐、信息、网站相关,所以回复就会比较随机,有时能碰对,有时回复又会天马行空。

用个形象的比喻来说,在大语言模型眼里,幽灵 Token 相当于汉字使用者看到这句话:「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格,就可以将这个幽灵 Token 破坏为两个普通 Token ,这个时候,模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」,你替换为「介绍一下中国福利 彩票天天」,或者「介绍一下中国 福利彩票天天」,结果就会不一样。
赞同楼上,买房是现在最不应该着急的事情。
告知:今年 GLM-4 模型发布了,以上大部分问题 GLM-4 都可以解决,例子已经失效了。
315 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@cherryas 谷歌账号废掉。
317 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@klo424 我的账号就是很久以前注册的,一样被查。

@SenLief 最让我困惑的是这个付款资料我都不知道什么时候设置的了,起码距离上次修改账号设置有大半年或者将近一年以上了。所以应该不是迁移区域触发的。


@travellerly 现在注册和订阅 GPT 都不需要手机号。但使用礼品卡订阅的话,你需要应付的风险是谷歌的身份信息抽查或者 Apple 外区账号的封号。
318 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@WangZhongWangHTC 没有在美国定居的身份和地址证明在被抽查时都是有这个问题的。谷歌对于付款资料的描述是:只有您移居新的国家/地区时,才能修改(法定)付款资料。
343 天前
回复了 cirton 创建的主题 OpenAI gpts 能实现以下功能吗?
1. 如果 PDF 里的文字不是文本形式而是图片形式,无法解析出文本,不行。
2. 如果 PDF 解析不出格式和位置正确的文本,那么被嵌入知识库的就是错误的内容,不行。
3. 如果在回答过程中无法触发知识库(上传的文档转换后的文本数据库)搜索,就无法获取知识库的知识,所以无法回答。为了提高触发概率,需要优化系统人设( Prompt )。
4. 知识库搜索错误或者匹配度不高,回答容易不准确或者出错。
5. 综上所述,难以实现。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5634 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 03:43 · PVG 11:43 · LAX 19:43 · JFK 22:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.