mumu9's recent timeline updates
mumu9

mumu9

V2EX member #609620, joined on 2023-01-07 17:33:40 +08:00
Per mumu9's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
mumu9's recent replies
Sonnet 和请求 copilot 的位置有关,你默认把 copilot 的 API 路由美区访问就能稳定使用了
Oct 8, 2024
Replied to a topic by isno 程序员 我写了一本拙作,求一波读感/建议
感谢大佬分享,star 再看
Sep 23, 2024
Replied to a topic by Suinn 问与答 关于 Rag 本地知识库落地的问题求助
@cheava 尝试下来的效果就是成本和收益不成比例吧😂。我个人的建议是不要在 RAG 上花费太多时间去尝试,收益很。目前看到的各种框架都属于指标战神,没有真正意义上能用于落地的。
Sep 22, 2024
Replied to a topic by Suinn 问与答 关于 Rag 本地知识库落地的问题求助
@Suinn 内容压缩简单点就是提取文件中的摘要,将这些摘要作为新的 chunk ,这样就不会出现超过 chunk 长度限制,也能最大限度保留上下文。我们之前的做法是让有需求的同事明确指出需要关注的主题和内容,然后根据他们的反馈,依赖 LLM 去确定文档中的关键信息,但可能不太适合你说描述的场景,因为交易单中的信息可能比较密集。
楼下 v 友的意思应该是让你们先把交易单中的信息比如提取出交易编号、金额、日期等关键信息,存储后进行检索。这个思路我们之前也做过,不过是依赖数据库,利用 function call 去处理查询的参数,然后在存储结构化内容的数据库中执行 SQL 生成响应。
另外的一个做法是你可以尝试使用比如 neo4j 这类的图数据库,将基于交易编号、金额、客户信息等实体进行关联和存储。这方面你可以参考 graphRAG ,不过不算太推荐就是了😂。
Sep 21, 2024
Replied to a topic by Suinn 问与答 关于 Rag 本地知识库落地的问题求助
不太清楚你的“交易单”具体包含哪些信息。从你的描述看,更需要的是知识图谱。交易编号作为一个实体,金额和其他文件内容属于实体信息。对 Query 部分进行 NER 后,根据实体进行检索。
如果非用 RAG 不可,对文件内容进行内容压缩后作为 chunk 可能是更有效的方法。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5831 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 06:40 · PVG 14:40 · LAX 23:40 · JFK 02:40
♥ Do have faith in what you're doing.