V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
misaka19000
V2EX  ›  问与答

如何把别人的网页整个抓取过来,然后修改网页上的某些内容之后把网页挂到自己的服务器上显示出来?

  •  
  •   misaka19000 · 2016-05-06 18:15:56 +08:00 · 10366 次点击
    这是一个创建于 3157 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不要喷我 ...

    公司准备做一个产品,用户可以输入一个链接,然后我们帮他做这个链接的页面推广,但是我们要在页面上加上一些内容然后再显示给最终用户能够看到,请问这个要怎么做? PS:这个页面应该挂在我们公司的域名下显示以方便进行下一步的操作。

    爬虫不是没想过,但是感觉有点过于麻烦了,所以想请问大家有没有一些更好的想法 ...

    21 条回复    2016-05-09 09:50:38 +08:00
    kindjeff
        1
    kindjeff  
       2016-05-06 18:18:07 +08:00
    首先要确定不违法么?
    bdbai
        2
    bdbai  
       2016-05-06 18:23:17 +08:00 via Android
    把目标网页放在 iframe 里
    bazingaterry
        3
    bazingaterry  
       2016-05-06 18:23:38 +08:00 via iPhone
    nginx 反代?
    JiShuTui
        4
    JiShuTui  
       2016-05-06 18:23:40 +08:00
    步骤你已经写出来了
    1 、用户输入网址,提交
    2 、服务器抓取对应网页内容,做替换,输出
    Syc
        5
    Syc  
       2016-05-06 18:23:51 +08:00 via Android
    7ghost
    Tink
        6
    Tink  
       2016-05-06 18:25:17 +08:00 via iPhone
    nginx reverse proxy
    dalaomj
        7
    dalaomj  
       2016-05-06 18:25:30 +08:00
    反代
    实时爬虫
    misaka19000
        8
    misaka19000  
    OP
       2016-05-06 18:36:58 +08:00
    大家可能没有明白我的意思

    我的意思是用户可以在某一个页面输入好一个网页的链接,然后他点击保存,数据就保存到我们的数据库了

    之后,在这个用户的个人页面,人们可以看到他保存的这个链接,点击这个链接,实际上进入的是我们公司的网址,但是这个现在被看到的页面和链接的源网页基本上是一样的,除了我们稍微需要添加的一小部分内容之外
    lyragosa
        9
    lyragosa  
       2016-05-06 18:38:27 +08:00
    @misaka19000 你看,你自己都把详细步骤全部说完了啊
    tabris17
        10
    tabris17  
       2016-05-06 18:40:34 +08:00
    不就是个 web 代理么
    lneoi
        11
    lneoi  
       2016-05-06 18:42:44 +08:00
    关注关注。我刚好也需要做这个,只是想网目标网页增删点东西,但不懂怎么实现。
    bdbai
        12
    bdbai  
       2016-05-06 20:14:00 +08:00 via Android
    单存网页的话目测外部资源(包括样式)全跪,坐等更好的方案。
    cuebyte
        13
    cuebyte  
       2016-05-06 20:16:45 +08:00
    对你这样的问题,我可以回答一句无可奉告 曰..曰
    manfay
        14
    manfay  
       2016-05-06 20:17:19 +08:00 via iPad
    这简直就是个 read it later 或 Evernote 剪藏的功能嘛
    just1
        15
    just1  
       2016-05-06 20:42:48 +08:00 via Android
    nginx 反代
    url 带上网址
    动态设置反代域名

    更复杂涉及存数据库用 lua
    mirrosite
        16
    mirrosite  
       2016-05-07 07:51:41 +08:00
    Stupitch
        17
    Stupitch  
       2016-05-07 08:39:49 +08:00
    @misaka19000 你的意思就是要做个类似快照的功能,但是同时在快照上要加上自己的广告水印?好像这种技术也挺常见的,虽然我完全不会。我个人倒是建议不如专门搞一块区域放广告或者搞一个类似于水印的东西覆盖在网页上输出,这样既方便又不会严重影响用户体验。
    Exin
        18
    Exin  
       2016-05-07 09:31:02 +08:00 via Android
    感觉像是搜索引擎会提供的 snapshot
    misaka19000
        19
    misaka19000  
    OP
       2016-05-07 13:54:30 +08:00
    @just1 能不能更详细点?
    ming2281
        20
    ming2281  
       2016-05-07 16:38:50 +08:00
    犹记得 curl/wget 有一个整个网站下载选项, 其初始用处是备份网站的

    应该符合楼主场景
    lneoi
        21
    lneoi  
       2016-05-09 09:50:38 +08:00
    http://v2ex.com/t/277219#reply5 要做的很像是这样子的吧?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2784 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:58 · PVG 14:58 · LAX 22:58 · JFK 01:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.