V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Xheldon
V2EX  ›  问与答

请问除了爬虫,哪里可以获取到这么详细的古诗词数据库?

  •  
  •   Xheldon · 2023-08-03 12:06:20 +08:00 · 2004 次点击
    这是一个创建于 486 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景:

    个人需求,自己开车或者干家务的时候脑子放空,喜欢无意识的顺嘴背诵一些古诗词,考虑到别人可能也有类似需求,所以想想做一个关于诗词的 app 。

    调研:

    于是想找个数据库,但是 github 提供的数据都不详细,如只有 名字、朝代、内容等,如:

    而我还需要显示作者的生辰忌日、诗词鉴赏、简介、作者简介等,找了一圈,发现这个网站的数据很详细:

    http://lib.xcz.im/library

    里面有诗词鉴赏、翻译、出版社出的书作者对该首诗词的评价、诗词介绍、作者出生年月、作者简介、注释等。

    求助:

    所以我先联系了对方问考虑出售数据库不,但是对方没回复,所以好奇他的数据库是从哪儿来的?

    实在不行再考虑爬虫,毕竟不礼貌 =_=

    另外发现一个似乎是出售爬虫数据库的网站:数据超市 不知道靠谱不,花钱能搞定的事情我也懒得自己花时间写爬虫了。

    第 1 条附言  ·  2023-08-03 17:30:12 +08:00
    v 站加了作者微信,作者给了我几个诗词数据网站,人家不好卖数据库的,毕竟已经商业化了,算是商业核心机密,据作者说他的数据也是爬的。

    那我看哪个好爬爬一下吧。。
    16 条回复    2023-08-04 07:53:17 +08:00
    liujavamail
        1
    liujavamail  
       2023-08-03 13:22:20 +08:00
    基本上都是从古诗文网爬的吧, 只是现在不怎么好爬

    http://lib.xcz.im/library 这个看起来是西窗烛的,做了十多年了, 古诗词 app 排行比较靠前,可能是爬数据加自己维护的数据吧
    0o0O0o0O0o
        2
    0o0O0o0O0o  
       2023-08-03 13:27:06 +08:00 via iPhone
    AppJun
        3
    AppJun  
       2023-08-03 13:46:07 +08:00
    诗词类别,只靠这些网站来搜集靠谱的资料是很难的事情。

    毕竟互联网上的数据也不是无根之木,凭空出现的。

    目前互联网上包括诗词在内的古籍内容,一般来说会遇到以下几个问题:

    1. 文字繁简/异体字不太讲究。

    2. 版本不讲究,你不知道这个版本的诗是从哪本来的。

    3. 诗词鉴赏部分版权可疑,文本质量良莠不齐。

    4. 有大量讹误,正确性没有得到重视和背书。

    如果要正儿八经做,其实主要方向就是根据一些已有的受到比较好评价有出版社愿意背书的优秀书籍作为蓝图,然后研究怎么合法的电子化。这里是非常耗费心力金钱的步骤。

    对制作者的相关内容的造诣也要求很高。毕竟有些数据库号称 30 W 诗词,虽然正确性很可疑。

    然后搞定了这一切,你会发现变现还很难,因为已经有大量劣质的免费内容充斥市场了。

    除非有什么大学或者科研机构公布公开靠谱的数据库。否则个人建议远离这个赛道。
    charmToby
        4
    charmToby  
       2023-08-03 13:47:01 +08:00   ❤️ 2
    https://github.com/chinese-poetry/chinese-poetry

    这个还不全吗?我只是搜了一下。
    WashFreshFresh
        5
    WashFreshFresh  
       2023-08-03 13:49:11 +08:00
    链接点击去耳目一新 一直以为小类型的网站可能就粗制滥造了
    rimworld
        6
    rimworld  
       2023-08-03 13:58:19 +08:00
    爬一部分,买一部分,再找牛马实习生去修正,录入缺失的。
    Xheldon
        7
    Xheldon  
    OP
       2023-08-03 15:31:00 +08:00
    @0o0O0o0O0o 对,快十年前作者做的这个,然后有商业化收益之后,他把所有的代码都取消公开了(或者删了)
    Xheldon
        8
    Xheldon  
    OP
       2023-08-03 15:33:16 +08:00
    @charmToby github 上诗词数量可能比较多,但是诗词本身的信息较少,只有标题、名字、作者,还希望有 鉴赏、评论、注释、作者信息等内容
    Xheldon
        9
    Xheldon  
    OP
       2023-08-03 15:35:40 +08:00
    @AppJun 你说的对,不过我是没想做这么大,这么权威,我是想先做中小学诗词+语音朗诵,自己用,也给我侄子用,而且因为大家都学过,好勘误;其他的诗词可以作为每日推荐,注明出处,如果用户感兴趣可以自己去研究。
    Xheldon
        10
    Xheldon  
    OP
       2023-08-03 15:36:51 +08:00
    @WashFreshFresh 哈哈,确实,西窗烛这个牌子维护十年了,当初作者也是从兴趣入手的,我感觉我也可以🤣
    nekoneko
        11
    nekoneko  
       2023-08-03 16:49:29 +08:00
    @Xheldon #8

    鉴赏, 评论, 注释 这些只有少部分诗词会有
    kalman03
        12
    kalman03  
       2023-08-03 17:08:57 +08:00
    @Xheldon 我有比较全的。
    Xheldon
        13
    Xheldon  
    OP
       2023-08-03 17:31:14 +08:00
    @kalman03 怎么说,开个价吧,给个数据库示例看看先😏
    Xheldon
        14
    Xheldon  
    OP
       2023-08-03 17:33:07 +08:00
    @nekoneko 确实,而且我看西窗烛把诗词相关的出版书籍对该诗词的评价都爬下来了😂
    cin
        15
    cin  
       2023-08-03 21:24:37 +08:00   ❤️ 2
    Xheldon
        16
    Xheldon  
    OP
       2023-08-04 07:53:17 +08:00
    @cin 感谢大佬!!!这就是我想要的!!! v 站应该有个感谢收款二维码功能🤣
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6241 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:29 · PVG 10:29 · LAX 18:29 · JFK 21:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.