V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
KevinQi
V2EX  ›  问与答

AI 中的 Question-Answering 任务,如何将大段文本制作成训练数据呢?

  •  
  •   KevinQi · 308 天前 · 699 次点击
    这是一个创建于 308 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 Question-Answering 的训练任务中,训练任务通常是结构化的数据,大概是下文这种。

    Context Question Answer Answer-start
    上下文 问题 回答 回答的开始字符位置

    现在我有一大段或者很多纯文字数据,如何将这些制作成训练数据集呢?

    12 条回复    2023-05-26 17:57:40 +08:00
    TimePPT
        1
    TimePPT  
       308 天前 via Android
    纯文本是指原始对话内容还是指纯的知识文档?
    前者有角色就能分,后者要做文档 QA 抽取
    KevinQi
        2
    KevinQi  
    OP
       308 天前
    @TimePPT 谢谢,纯的知识文档,大多是 excel ,还有 pdf 。
    DigitalG
        3
    DigitalG  
       308 天前
    可以自己生成吗:Training Question Answering Models From Synthetic Data ,https://arxiv.org/abs/2002.09599
    但我觉得这种用途有限。

    另外想了解下,如果数据集是这样的话,为什么还要用 QA 任务模型呢?
    kingddc314
        4
    kingddc314  
       308 天前
    可以调用 ChatGPT 生成
    TimePPT
        5
    TimePPT  
       308 天前
    @KevinQi 不想处理的话,试试用检索增强( ES 搜索、向量检索)大模型端到端的直接问答,可以参考下 Langchain
    如果想有监督,可以调取 GPT-4 让列出可能的 QA 对,然后人工筛选入库
    KevinQi
        6
    KevinQi  
    OP
       308 天前
    @DigitalG 未必是 QA 模型,目前想采用的 3 个,一个是 QA 模型,一个是 Document Question Answer 模型,还有一个是 Table Question Answering ,但是后面两个在 Huggingface 上都没有找到中文的相关模型,所以想着先试试 QA 模型,利用现有数据对某个中文模型进行微调训练。
    KevinQi
        7
    KevinQi  
    OP
       308 天前
    @TimePPT 我觉得从纯文本 /文件 /图片抽取信息做 QA 或者 Document QA 的训练数据集,或者更普遍的,“如何从无结资料构建 QA 数据?”,应该是训练 AI 的一个很普遍的步骤,为什么检索不到什么通用工具呢?是不是我检索的关键字不对啊,学术领域这个称呼是什么呢?
    TimePPT
        9
    TimePPT  
       308 天前
    搜「文档 QA 抽取」
    KevinQi
        10
    KevinQi  
    OP
       308 天前
    @TimePPT 这篇检索到了,但是只有论文。
    DigitalG
        11
    DigitalG  
       308 天前 via iPhone
    @KevinQi nlp 的思路的话,可以先大规模数据上做无监督的 lm 模型,然后小规模数据上微调面向任务的 head 。如果这么操做呢?
    KevinQi
        12
    KevinQi  
    OP
       308 天前
    @DigitalG 不太明白,AI 小白,现在只过了一遍 Huggingface 上的 Question Answering 任务的 colab 笔记。
    我现在的想法是使用 HuggingFace 上的中文 QA 预训练模型,然后使用手里的文档资料数据进行微调,微调的步骤 Huggingface 上教程很清楚,但是如何使用纯文本 /pdf/exce 文档生成格式化的训练数据({question, context, answer: {answer_start, answer_text}}),一直没有找到工具和普遍的方法。目前就卡在了“无结构化文档 to Dateset”这一步了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2751 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 12:35 · PVG 20:35 · LAX 05:35 · JFK 08:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.