V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
animebing
V2EX  ›  程序员

写了一个简单的输入网页,提取网页文本内容的工具: https://webpage2text.vercel.app/

  •  
  •   animebing · 2023-07-31 12:43:44 +08:00 via Android · 1469 次点击
    这是一个创建于 486 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做了一个简单的网页工具,功能是根据用户提供的网址,返回网页的文本内容,目前是放在 vercel 上的(访问需要魔法): https://webpage2text.vercel.app/

    想做这个的动机是:

    1. 想使用 chatgpt 对网页内容做提问,没有找到简单好用的工具从网页中提取文本
    2. 想尝试一下简单的网页开发
    11 条回复    2023-07-31 23:07:19 +08:00
    xycool
        1
    xycool  
       2023-07-31 13:08:30 +08:00
    直接 document.body.innerText 不就行了吗
    superares
        2
    superares  
       2023-07-31 13:25:41 +08:00
    只能说效果不好,我用这个做的测试:
    https://mp.weixin.qq.com/s/g-Ja6eZFpG1TUhMJGinEnQ
    ovtfkw
        3
    ovtfkw  
       2023-07-31 13:35:43 +08:00
    https://www.v2ex.com/t/961177#reply2
    这个网站试了一下,结果文字显示不全
    l4ever
        5
    l4ever  
       2023-07-31 14:00:25 +08:00
    好家伙, 搞这么复杂, 还有后端.
    l4ever
        7
    l4ever  
       2023-07-31 14:14:53 +08:00
    javascript:document.body.innerText
    收藏夹添加一个, 地址写上面内容, 点一下这个收藏夹就显示了当前页面的文本
    animebing
        8
    animebing  
    OP
       2023-07-31 18:31:18 +08:00
    1. 为什么没有使用 'document.body.innerText': 这个工具就是希望提供一个便捷的方式获得网页的纯文本内容,用的人并不需要了解 js ,浏览器的调试这些
    2. 为什么需要后端:这个是和 1 相关的,由于需要获得网页的内容,但是在客户端会有 CORS 的问题,所以使用一个简单的后端来获得网页内容
    animebing
        9
    animebing  
    OP
       2023-07-31 18:33:17 +08:00
    @superares 确实有一些网页结果会不完整,有些处理逻辑可能有问题,正在修改中...
    animebing
        10
    animebing  
    OP
       2023-07-31 18:34:45 +08:00
    @ovtfkw 应该处理逻辑还有些 bug ,努力修改中...
    animebing
        11
    animebing  
    OP
       2023-07-31 23:07:19 +08:00
    @superares @ovtfkw 处理逻辑做了一些修改,返回的内容可以更完整一些了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3716 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 10:37 · PVG 18:37 · LAX 02:37 · JFK 05:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.