V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zycojamie
V2EX  ›  程序员

最近使用 kimi 这个 AI,有个疑问,它是如何获取网页内容的?

  •  
  •   zycojamie · 20 天前 · 3214 次点击
    kimi 总结网页内容的能力很好用,但使用过程中发现,无论是否是服务端渲染的页面、静态生成的页面或请求接口拿详情的动态页面,kimi 都能获取并总结网页内容。

    按我的理解,静态页面或服务端渲染的页面 kimi 直接解析 html 就行,但动态页面应该是要具体分析相关接口响应的内容才能解析的。

    像 kimi 这种给任意 url ,实时分析网页内容,大家有什么大致的实现思路吗?
    20 条回复    2024-04-25 21:30:05 +08:00
    NerbraskaGuy
        1
    NerbraskaGuy  
       20 天前
    我想到的一个测试方法是找个页面里面只有图片,看他能不能提炼图片上的文案
    BeautifulSoup
        2
    BeautifulSoup  
       20 天前   ❤️ 2
    背后就是搜索引擎的 bot ,谷歌能拿到的东西,他都能拿到。所以这一套东西加上大模型,叫做检索增强 RAG
    webszy
        3
    webszy  
       20 天前
    爬虫呗,像我最常用的就是 puppeteer 。当人这些公司会有更牛逼的人写
    foolishcrab
        4
    foolishcrab  
       20 天前 via iPhone
    headless browser
    搜搜看看就懂了
    yqcode
        5
    yqcode  
       20 天前
    估计是无头浏览器用于去获取网页内容,但是用户量一多,无头浏览器也占资源,不清楚有没有更优解的,否则就是叠业务机器,而大模型的能力就不需要内容去整理得多规范,只需要按照读文本总结那样去做处理?当然用户量多要考虑的优化细节就不少了,如何用尽可能少的提示词去得出尽可能准确的答案,也是一个研究的大方向。。。
    noahlias
        6
    noahlias  
       19 天前   ❤️ 1
    官方描述的是 第三方抓取 网页等
    ```
    是否开放类似 Kimi 智能助手中的搜索接口?

    目前并没有开放搜索的计划,API 用户可以使用例如 Apify 、Crawlbase 或者 ArchiveBox 等第三方解决方案。
    ```
    但是之前看同类型 elmo.chat 介绍类似的技术方案的时候 html parser 用的是阅读模式
    ( https://github.com/mozilla/readability)

    详情可以看这个技术方案介绍
    https://x.com/yadong_xie/status/1774672630194520283
    noahlias
        8
    noahlias  
       19 天前
    @SayHelloHi 这个不一样好吗 这个是用 metasearch +webarchive 来获取搜索信息的 它等同于搜索引擎
    而且需要你部署一个服务 也不是实时的 而且它只获取了网站的 snippet 和 bing/google 这些搜索引擎 API 返回的结果差不多 然而你要获取网站的大纲和详细信息 一定是要用到 html parser 的
    dbak
        9
    dbak  
       19 天前
    我相同的问题问了 kimi 和 chat-gpt 给出了一样的答案 这是为鼠么呢
    GGMM
        10
    GGMM  
       19 天前
    https://www.deeplearning.ai/the-batch/issue-243/

    这篇博客简单介绍了 LLM 如何访问网页,以及总结信息,也就是二楼说的 RAG 技术。用原本搜索引擎拿到的结果作为上下文给 LLM 使用,降低模型胡言乱语的程度。
    hnliuzesen
        11
    hnliuzesen  
       19 天前
    无头浏览器?不过也不是所有网页都能获取内容的,我遇见过提示说无法访问我提供的网页的。
    fredweili
        12
    fredweili  
       19 天前
    都有 SerpApi 这种成熟工具了,langchain 也有提供
    nedqqcc
        13
    nedqqcc  
       19 天前
    @yqcode headless browser 直接长期开着当服务端,url 进 mq ,然后 browser worker 从 mq 取 url 爬就完事了人,scrapy 扩展项目不少这种
    encro
        14
    encro  
       19 天前
    @webszy 说不定和你一样呢,puppeteer 不就谷歌吗
    AoEiuV020JP
        15
    AoEiuV020JP  
       19 天前
    感觉并没有真的解析动态网页, 我问个 flutter 版本它死活回答不对,直接给链接就告诉我没有列出版本号,
    binaryify
        16
    binaryify  
       19 天前
    @AoEiuV020JP 会解析的,之前用 it 之家最新的文章丢过去,分析出来的和那篇文章是对的上的,就几分钟前发布的文章
    spicynotes
        17
    spicynotes  
       19 天前
    @dbak 100%一样吗?能转发看下?
    allentown0406
        18
    allentown0406  
       18 天前
    headless browser
    noahlias
        19
    noahlias  
       16 天前
    @AoEiuV020JP 我看了一下 因为阅读模式确实 他的确没有解析出来一些结果


    这让我确信它确实用到了一些 html 的 parser
    但是当你用一个插件 ( https://chromewebstore.google.com/detail/kimi-copilot-%E7%BD%91%E9%A1%B5%E6%80%BB%E7%BB%93%E5%8A%A9%E6%89%8B/icmdpfpmbfijfllafmfogmdabhijlehn)
    结果效果相当好


    但是当你深入问一些详细信息的时候 说明 parser 还是不够好 因为它是读取 html 进去的一些表格信息并没有正确排列


    另一个 elmo.chat 它应该是利用了生成的 html 但是详细信息 也是没识别到在乱说
    pth1040080742
        20
    pth1040080742  
       5 天前
    我最近也写了一个 kimi 小助手的浏览器插件,里面也实现了网页总结的功能。

    https://www.v2ex.com/t/1034877#reply9

    可以简单说下网页总结的实现思路:
    1. 当页面渲染完成后,将 html 提取出来(指定区域),然后去标签,取出人类可阅读的文字再喂 kimi 进行总结
    2. 如果是视频网页,则通过技术手段获取字幕,再喂给 kimi
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   880 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:14 · PVG 06:14 · LAX 15:14 · JFK 18:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.