爱意满满的作品展示区。
cxd8190102

做了整整 7 年,但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

  •  
  •   cxd8190102 · 16h 45m ago · 1066 views

    之前在读博的时候,会遇到很多复杂的资料,以前没有 AI ,都是自己捣鼓一些小工具去辅助处理的,慢慢地就形成了一个稳定的解析项目雏形,但也只有身边的人在用。

    后来有了 AI ,我们都以为,哟,高科技来了,要解放了。谁知一读 PDF 就开始胡说八道,分析起报告一堆数据错误。搞科研、学医、金融、数据行业的应该都明白吧。

    这是遇上“AI 幻觉”了,因为 AI 只能扫描一些短平快的文字,复杂的格式它是解析不了的,所以你问它这种文档相关的问题,它只能胡乱编一个数据蒙你。

    所以我结合之前的项目经验,做出了一个 AI 原生的文档解析工具——Knowhere ,专治“AI 幻觉”。并且今天开源出来给大家。

    它能干的事很简单:帮 AI 去解析那些复杂难啃的文档:比方说大文件( 20 页+)、层级多(八章 40 节 120 小点)、格式花的( PDF/Excel/PPT ),通通都能搞定。

    你只要安装好 Knowhere 插件,再把文件交给 AI ,AI 就会调用 Knowhere 。

    复杂的文档经过 Knowhere 的解析,会变成方便 AI 理解的 JSON 等文件,AI 拿到解析过后的高质量文件切片去做检索和生成,就能给出更精确的回答。

    除此之外,Knowhere 还有记忆功能,能把你给它的信息建成一棵“知识树”,在你提问的时候能根据历史跨文档给出答案。

    我们实测:

    • AI 产品感知提升 80%+,上百份文件扫描耗时 10min 内;

    • Token 消耗降低 50%+,解析效率提升 3 倍+;

    • 多模态信息提取完整度 95%+,复杂表格解析准确率 95%+。

    我可以负责任地说,吊打市面上同类产品:

    • Unstructured:免费版限速严重、定价贵、中文文档效果一般

    • LlamaParse:强绑 LlamaIndex 生态,云端延迟明显,成本高

    • MinerU:本地部署依赖地狱,VLM 模式 GPU 要求极高

    • Docling:首次加载模型 1.5GB ,扫描件 OCR 质量还不如 MinerU

    一句话,比 Knowhere 解析好的没它便宜,比 Knowhere 便宜的解析没它好,简直就是性价比拉满。

    而且 Knowhere 还是 AI 原生的,更符合 AI Agent 轻量化+高精度的要求。

    如果你也在做 AI 应用开发,或者正在被长文档折磨,那不妨试一试 Knowhere 。

    求个 Star⭐支持一下,谢谢各位老哥👉 https://github.com/Ontos-AI/knowhere

    10 replies    2026-05-14 15:44:28 +08:00
    cxd8190102
        1
    cxd8190102  
    OP
       16h 21m ago
    项目地址: https://github.com/Ontos-AI/knowhere ,欢迎 PR / issue ,多多反馈~
    suke119
        2
    suke119  
       15h 33m ago   ❤️ 1
    ? 啥意思 你这代码里面不就用 mineru? 吊打啥了
    lxmfly123
        3
    lxmfly123  
       15h 19m ago
    @suke119 不要和用 AI OP 浪费时间
    cxd8190102
        4
    cxd8190102  
    OP
       14h 0m ago
    @suke119 #2 MINERU 也是基于很多 PYHTON 包组装的,我们在他基础上做了优化,支持的格式更丰富效果更好,更重要的是对解析的结果做了再加工,MINERU 这些传统工具得到的是单个文件的 MD 、JSON ;我们可以通过自研的算法解析每个文档的原始层级结构,并且自动关联相似的切片形成完整的层级图谱,这比 GRAPH-RAG 节约 10 倍不止的时间和成本。
    cxd8190102
        5
    cxd8190102  
    OP
       13h 51m ago
    @lxmfly123 #3 什么!我是手写的!!
    cxd8190102
        6
    cxd8190102  
    OP
       13h 38m ago
    @cxd8190102 #4 另外,MINERU 只是一个可插拔的入口,任何可以把文档解析成 MD 的工具,比如 MARITDOWN 、DOCLING 都可以替换 MINERU 。我们后续会增加 feature ,可以根据文档的难易程度自动切换这个插件。但是像核心的 Tree-like 的语义化切块、还有 AGENTIC RAG 的 harness 这些都是我们自研的。工程创新本来就不意味着所有东西都从零手写,站在巨人肩膀上做创新很正常的嘛,我也没吹什么从零到一古法纯手工啥的啊。。。
    noob9030
        7
    noob9030  
       13h 32m ago
    Started,支持一下
    cxd8190102
        8
    cxd8190102  
    OP
       13h 28m ago
    @noob9030 #7 感谢老哥🙏
    marcong95
        9
    marcong95  
       13h 0m ago
    star 一下,有缘细看~~
    cxd8190102
        10
    cxd8190102  
    OP
       11h 26m ago
    @marcong95 #9 感谢感谢~
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1006 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 206ms · UTC 19:10 · PVG 03:10 · LAX 12:10 · JFK 15:10
    ♥ Do have faith in what you're doing.