V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Aliberter
V2EX  ›  程序员

公司要求做个编辑器,支持输入链接能导入主流平台的文章,这需求怎么实现?

  •  
  •   Aliberter · 2022-03-01 15:27:57 +08:00 · 3080 次点击
    这是一个创建于 1035 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要支持微信公众号 知乎 b 站 今日头条 这几家文章的,前端传给后端一个链接,后端去解析 html? 然后 html 转 word?转 markdown ?然后怎么返给前端,让前端显示在编辑器里...这个是不是有点难,大佬们

    第 1 条附言  ·  2022-03-01 16:36:09 +08:00
    多谢大家!
    17 条回复    2023-06-01 16:30:03 +08:00
    66beta
        1
    66beta  
       2022-03-01 15:32:42 +08:00
    洗稿?
    Aliberter
        2
    Aliberter  
    OP
       2022-03-01 15:37:02 +08:00
    @66beta 不是 不干违法的吧
    lcy630409
        3
    lcy630409  
       2022-03-01 15:37:28 +08:00   ❤️ 1
    应该可以吧
    把文字带 div 直接截取过去,然后把所有的 css 保存下来 生成新的 css 文件 地址也传过去?
    样式肯定不能 100%还原,得手动编辑
    或者只传文字,样式让前台重新编辑?
    janus77
        4
    janus77  
       2022-03-01 15:41:50 +08:00   ❤️ 1
    saigo
        5
    saigo  
       2022-03-01 15:42:33 +08:00   ❤️ 2
    skiy
        6
    skiy  
       2022-03-01 15:43:07 +08:00   ❤️ 1
    这个不难啊。把 URL 提交给后端服务器 API ,API 根据域名判断哪个平台的,CURL 获取该页面的数据,再根据该平台的规则将里面的内容提取出来,加工(可以后端直接加工后返回数据;或者组合成 json 返回给前端,前端自己生成相关格式的数据)
    gadfly3173
        7
    gadfly3173  
       2022-03-01 15:43:30 +08:00   ❤️ 1
    这个需求就是写爬虫,解析成你们编辑器用的格式。只是很麻烦,难度可能也就是反爬怎么处理
    murmur
        8
    murmur  
       2022-03-01 15:46:38 +08:00   ❤️ 1
    这不就是手动洗稿么
    shapl
        9
    shapl  
       2022-03-01 15:49:39 +08:00   ❤️ 1
    @saigo #5 效果不行。感觉这类需求的难点是图片防盗链,各个平台的规则不同。

    xingshu1990
        10
    xingshu1990  
       2022-03-01 15:49:45 +08:00   ❤️ 1
    类似 5118 一样,采集多平台指定关键词内容,混编内容用.
    GrayXu
        11
    GrayXu  
       2022-03-01 16:41:41 +08:00   ❤️ 1
    [simpread]( https://github.com/Kenshin/simpread)

    > 为了达到完美的阅读模式这个小目标 ,我适配了 数百种类型 的网站,因此诞生了简悦。

    这个工具可以实现你说的输入 html ,给出一个 markdwon 。本质上还是在做类似爬虫的工作。
    chezhe17
        12
    chezhe17  
       2022-03-01 18:57:42 +08:00
    @shapl 微信公众号需要自定义规则,因为 DOM 结构特殊,可以参考 https://github.com/Ark-ave/chrome-extention/blob/main/src/chrome/content.ts#L22 ,我之前做书签应用有类似实现,用的是这个库 https://github.com/mixmark-io/turndown 来转 HTML 到 Markdown
    skiy
        13
    skiy  
       2022-03-01 19:16:52 +08:00
    @shapl 防盗链大部分都容易解决,基本是基于 refer 来防的。
    shapl
        14
    shapl  
       2022-03-01 23:17:51 +08:00
    @skiy #13
    @chezhe17

    学习了。谢谢
    shaojz2005
        15
    shaojz2005  
       2022-03-02 09:22:59 +08:00
    很多微信公众号的文章都是用第三方编辑器排版的,自带很多特殊排版格式,思路就是找到公众号文章正文对应的那个 div ,然后整个拿下来放到富文本编辑器里,对文章里的图片做远程下载上传服务器(因为防盗链),就可以了。

    别的平台应该相对简单很多,因为排版格式没那么复杂。
    dany813
        16
    dany813  
       2022-03-02 18:16:43 +08:00
    没了解过
    linsiqing2008
        17
    linsiqing2008  
       2023-06-01 16:30:03 +08:00
    您好题主,请问实现了吗?有什么好的方案没? 楼上说的看了一遍都不贴合需求。

    现在我这也有一个需求,就是在后台里,根据微信文章链接,一键导入 微信文章及资源下载到本地资源存储上。

    求实现方法;谢谢。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1185 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 23:20 · PVG 07:20 · LAX 15:20 · JFK 18:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.