V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yxwzyyk
V2EX  ›  站长

话说现在网盘搜索站还有的玩吗?

  •  1
     
  •   yxwzyyk · 2018-12-11 18:34:36 +08:00 · 10000 次点击
    这是一个创建于 2159 天前的主题,其中的信息可能已经有所发展或是发生改变。

    撸了一个搜索网站

    https://www.soohub.com/

    请大家吐槽~~ :)

    59 条回复    2019-04-28 12:44:37 +08:00
    Vdaming
        1
    Vdaming  
       2018-12-11 21:35:12 +08:00 via Android
    一直挺好奇这种站点是怎么查到所有网盘分享数据的?
    yxwzyyk
        2
    yxwzyyk  
    OP
       2018-12-11 21:48:08 +08:00
    @Vdaming 依靠爬虫啊,爬出连接,然后提取数据
    Hydjan
        3
    Hydjan  
       2018-12-11 22:31:17 +08:00 via Android
    爬哪些网站?还是基于百度谷歌等搜索引擎?
    yxwzyyk
        4
    yxwzyyk  
    OP
       2018-12-11 22:33:06 +08:00
    @Hydjan 贴吧就是一个很大的来源,当然各种地方都会去爬爬
    chwhsen
        5
    chwhsen  
       2018-12-11 22:44:47 +08:00
    不错不错,收藏一个
    cdwyd
        6
    cdwyd  
       2018-12-11 22:48:40 +08:00
    尽量别弄了,就因为不小心抓到一个“办证”的分享链接,被喝茶还要做笔录,十指指纹,验是否吸毒。。。

    解锁人生新成就了
    yxwzyyk
        7
    yxwzyyk  
    OP
       2018-12-11 22:50:28 +08:00
    @cdwyd 😂所以弄得有某些词的屏蔽
    yxwzyyk
        8
    yxwzyyk  
    OP
       2018-12-11 22:51:53 +08:00
    @cdwyd 话说你不会有体验过吧😂
    cdwyd
        9
    cdwyd  
       2018-12-11 22:56:26 +08:00
    @yxwzyyk 已经弄了 异形 + 繁体 你想不到的都有
    zturns
        10
    zturns  
       2018-12-11 22:56:51 +08:00 via Android
    居然备案了。。。
    yxwzyyk
        11
    yxwzyyk  
    OP
       2018-12-11 23:01:53 +08:00
    @cdwyd =_=怎么你这么一说,弄的我挺慌的呢
    yxwzyyk
        12
    yxwzyyk  
    OP
       2018-12-11 23:02:25 +08:00
    @zturns =_=没打算搞那些乱七八糟的啊
    cdwyd
        13
    cdwyd  
       2018-12-11 23:03:18 +08:00
    @yxwzyyk 我那时被抓了典型 一般情况是没事 哈哈
    yxwzyyk
        14
    yxwzyyk  
    OP
       2018-12-11 23:05:05 +08:00
    @cdwyd 兄弟,=_=可否详谈,怕怕的
    hoythan
        15
    hoythan  
       2018-12-11 23:14:38 +08:00
    你们用什么做爬虫
    yxwzyyk
        16
    yxwzyyk  
    OP
       2018-12-11 23:15:19 +08:00
    @hoythan python java 都有
    cdwyd
        17
    cdwyd  
       2018-12-11 23:26:19 +08:00
    @yxwzyyk
    该说的都差不多了,重点就是尽量不备案吧。
    yxwzyyk
        18
    yxwzyyk  
    OP
       2018-12-11 23:27:48 +08:00
    @cdwyd ...... 后悔了
    Verx0
        19
    Verx0  
       2018-12-11 23:29:11 +08:00 via iPhone
    已加入書籤收藏
    guoliguozhi03
        20
    guoliguozhi03  
       2018-12-12 07:10:00 +08:00 via Android
    果汁导航: http://guozhivip.com/nav/

    了解一下,“资源·软件”模块里收录了各大网盘哦~
    yxwzyyk
        21
    yxwzyyk  
    OP
       2018-12-12 08:25:29 +08:00 via iPhone
    @guoliguozhi03 意思你打算把我这个放进去╮(╯▽╰)╭
    m319
        22
    m319  
       2018-12-12 09:01:34 +08:00 via Android   ❤️ 1
    其实还有一种思路,就是像 WIFI 万能钥匙一样的收集用户自己找过的资源

    Chrome 扩展商店里已经有一个云盘万能钥匙就是这么干的,因为是用户自己找的资源,所以内容质量好像还行

    目前的状态是收费运营,但是费用也不贵(几块钱够用一年了),感觉这种模式似乎可行,就是需要用户量
    yxwzyyk
        23
    yxwzyyk  
    OP
       2018-12-12 09:07:27 +08:00 via iPhone
    @m319 好像有点意思、我去研究一下
    skschema
        24
    skschema  
       2018-12-12 09:12:48 +08:00
    用了一下,对有连接符的搜索结果处理不太好,没有把包含多个关键词的结果显示到前面。这和一些网盘搜索有点类似。
    yxwzyyk
        25
    yxwzyyk  
    OP
       2018-12-12 09:17:51 +08:00 via iPhone
    @skschema 这个分词、短语的搜索权重还在调整中,慢慢会做一些改进
    skschema
        26
    skschema  
       2018-12-12 09:24:45 +08:00
    @yxwzyyk 期待你的努力。这两年这类网站不少,看起来有搞头。
    zealinux
        27
    zealinux  
       2018-12-12 10:35:04 +08:00
    @yxwzyyk 网盘搜索靠什么来维持网站支出?
    paradoxs
        28
    paradoxs  
       2018-12-12 10:38:29 +08:00
    单独的百度网盘可用性太低了

    建议改成磁力链接搜索 综合站 ,里面的结果包含百度网盘就行了。
    houzhimeng
        29
    houzhimeng  
       2018-12-12 10:45:09 +08:00
    感觉搜出的东西还是少,有些内容都是老资源
    yxwzyyk
        30
    yxwzyyk  
    OP
       2018-12-12 10:57:25 +08:00
    @zealinux 有流量了在慢慢琢磨吧
    yxwzyyk
        31
    yxwzyyk  
    OP
       2018-12-12 10:57:48 +08:00
    @paradoxs 嗯后面会慢慢加入一些新东西
    yxwzyyk
        32
    yxwzyyk  
    OP
       2018-12-12 10:58:24 +08:00
    @houzhimeng 因为才开始,所以爬取的数据还不够多,爬虫表示他已经很努力了
    coffeemayor
        33
    coffeemayor  
       2018-12-12 10:59:34 +08:00
    不是实时爬取的吗 资源都好老
    yxwzyyk
        34
    yxwzyyk  
    OP
       2018-12-12 11:03:05 +08:00
    @coffeemayor 😂有新有老吧,因为数据量还太低,所以目前还不挑剔资源上传时间,等丰富一点会提高新数据的权重
    zoola
        35
    zoola  
       2018-12-12 13:09:06 +08:00
    @cdwyd 什么办证?就是正常的办假证吗??还是我理解出问题了
    yxwzyyk
        36
    yxwzyyk  
    OP
       2018-12-12 14:42:07 +08:00
    @zoola 应该泛指了很多敏感词吧,不该出现的东西
    cdwyd
        37
    cdwyd  
       2018-12-12 15:49:23 +08:00 via Android
    @zoola 就是 办证 QQ111222 这样
    zoola
        38
    zoola  
       2018-12-12 16:15:58 +08:00
    @cdwyd 天啦噜-- 这么敏感? 那警察叔叔干嘛不直接加这个 QQ 抓这个坏银呢🤨
    MonsterTan
        39
    MonsterTan  
       2018-12-12 16:23:44 +08:00
    在 github 上开源吗?表示想看看实现原理,或者能给说说看?
    cdwyd
        40
    cdwyd  
       2018-12-12 16:35:33 +08:00 via Android
    @zoola 可能他们那个月要完成的任务是抓几个网站有问题的而不是抓几个办证的。
    yxwzyyk
        41
    yxwzyyk  
    OP
       2018-12-12 16:47:08 +08:00
    @MonsterTan 并没有开源,这东西不是都那一套吗?python 写好规则爬取和提交,接着部署到各个地方,服务器负责数据过滤和整理,然后 es 进行搜索,几个定时任务负责定期扫描去掉失效链接
    Cosinex
        42
    Cosinex  
       2018-12-12 16:49:49 +08:00
    资源不可靠啊 点进去都是没有的
    yxwzyyk
        43
    yxwzyyk  
    OP
       2018-12-12 16:52:00 +08:00
    @Cosinex 有些新的很快就会失效,服务器有检查到就会删除
    qyt11411
        44
    qyt11411  
       2018-12-12 23:15:22 +08:00
    响应式页面看着不错支持一个,就是内容还太少.
    mon3
        45
    mon3  
       2018-12-13 09:06:36 +08:00
    你的 URL 用的对称加密生成的么?
    相关资源那里用的 elasticsearch 还是用的 tag?
    yxwzyyk
        46
    yxwzyyk  
    OP
       2018-12-13 10:48:33 +08:00
    @mon3 URL 就是 uuid 了, 相关资源用的是 elasticsearch, tag 是我用来作为一种可拓展的分类手段
    allen2012
        47
    allen2012  
       2018-12-13 12:07:12 +08:00
    感谢楼主,感觉这个盘搜网站不错,可以搜索到很多有用的资源,
    还有热门资源推荐,就喜欢楼主这种实干派!!!
    syl9617016
        48
    syl9617016  
       2018-12-13 12:16:50 +08:00
    还不错,页面响应式
    简单直接
    还在虫部落有入口
    sarlanori
        49
    sarlanori  
       2018-12-13 13:19:12 +08:00
    这个跟直接用搜索引擎使用 site 搜索特定的网站有什么区别呢
    yxwzyyk
        50
    yxwzyyk  
    OP
       2018-12-13 15:43:33 +08:00
    @allen2012 哈哈喜欢就好
    yxwzyyk
        51
    yxwzyyk  
    OP
       2018-12-13 15:43:53 +08:00
    @syl9617016 😂要感谢虫部落
    yxwzyyk
        52
    yxwzyyk  
    OP
       2018-12-13 15:44:31 +08:00
    @sarlanori 这个怎么说呢,这个算定制搜索吧
    sarlanori
        53
    sarlanori  
       2018-12-13 15:50:54 +08:00
    @yxwzyyk 我开始以为是聚合搜索,这样会比较有用,同时搜索 N 个网盘,比单独一个个搜方便多了
    yxwzyyk
        54
    yxwzyyk  
    OP
       2018-12-13 15:56:31 +08:00   ❤️ 1
    @sarlanori 别的网盘也会有😂因为才开始所以还没来得及去爬取别的网盘的资源
    soho176
        55
    soho176  
       2018-12-14 10:58:19 +08:00
    @yxwzyyk 楼主 能开源,让俺学习一下吗
    yxwzyyk
        56
    yxwzyyk  
    OP
       2018-12-14 16:42:43 +08:00
    @soho176 哈哈你想学习啥,服务器? 爬虫? 全文查找?
    soho176
        57
    soho176  
       2018-12-14 18:06:33 +08:00
    爬虫 全文查找
    @yxwzyyk
    yxwzyyk
        58
    yxwzyyk  
    OP
       2018-12-15 16:29:46 +08:00
    @soho176 😂爬虫是最乱的一块代码了不好意思给人看,全文查找这东西 elasticsearch 了解一下,中文分词加上拼音分词自定义词典以及繁体简体转换,基本就能做到了
    lqkweb
        59
    lqkweb  
       2019-04-28 12:44:37 +08:00
    www.81ad.cn 这个也可以搜索百度云资源,带密码的也可以搜索的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1849 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 16:33 · PVG 00:33 · LAX 08:33 · JFK 11:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.