V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
meik2333
V2EX  ›  分享发现

我分析了 A 站 2018 年的弹幕,发现 A 站今年的年度弹幕是 666

  •  2
     
  •   meik2333 · 2018-12-30 12:55:17 +08:00 · 3540 次点击
    这是一个创建于 2162 天前的主题,其中的信息可能已经有所发展或是发生改变。

    使用 Scrapy 爬取,MongoDB 存储。爬取了 2018 年(截至 12-28 )所有视频(不算番剧)的弹幕,共爬取弹幕 5543435 条,视频 398180 个,进行了一些分析。

    弹幕出现次数

    2018 年出现次数前三的的弹幕分别为:

    1. 666,出现 25914 次
    2. 打卡, 出现 25523 次
    3. ???, 出现 20246 次

    视频播放次数

    1. ac4695941:读书人的 6 个世界性疑问,播放量 3058000,弹幕 6 条
    2. ac4325284: [神 D ] [假面骑士 Decade] [全集+剧场版] [ BD1080P ] ,播放量 3053000,弹幕 556 条
    3. ac4761284:#天猫品质好水生活节#一滴水的芯净界,播放量:2260000,弹幕 0 条

    第一名与第三名分别是京东与天猫的宣传视频

    视频弹幕数量

    1. ac4227974:2018 年 AcFun 春节联欢晚会,弹幕 27524 条
    2. ac4225200:2018 年碉堡有趣视频合辑 [第 5 期] (小土妞,欢迎回来),弹幕 7910 条
    3. ac4809052:2018 土味全明星年度精选╳2018AC 关键词:土味,弹幕 6918 条

    综合前 100 名的弹幕数据,今年 A 站的年度弹幕应该是:“ 666 ”、“???” 和“哈哈哈”。

    完整的数据在 github.com/MeiK-h/AcFunDanMu

    14 条回复    2018-12-31 11:49:25 +08:00
    loading
        1
    loading  
       2018-12-30 13:00:54 +08:00
    我今年去 A 站的次数少于 6。弹幕数少于 0.6。
    minami
        2
    minami  
       2018-12-30 13:18:15 +08:00
    我 A 站账号都凉了。。以前一直叫实名没实名,现在限制只能手机号登录,我登个蛋蛋
    stabc
        3
    stabc  
       2018-12-30 13:21:30 +08:00
    A 站还没凉?
    nyaapass
        4
    nyaapass  
       2018-12-30 13:21:32 +08:00
    @minami 这个找猴子客服没准可以解决,之前换手机号就是找的猴子
    hilbertz
        5
    hilbertz  
       2018-12-30 13:23:30 +08:00
    a 站还活着?
    blessme
        6
    blessme  
       2018-12-30 13:49:00 +08:00
    应该去 B 站采集
    YenvY
        7
    YenvY  
       2018-12-30 13:54:20 +08:00 via iPad
    ab 同是游戏视频占大头的站点,按数量算年度弹幕的话大概哪年都是 666
    scyuns
        8
    scyuns  
       2018-12-30 14:35:37 +08:00 via Android
    a 站日常💊 不过貌似 a 站没有影视区过后,就再也没有玩了
    CRight
        9
    CRight  
       2018-12-30 14:41:02 +08:00
    我也喜欢发弹幕 666,小键盘发着顺手
    zk4v2
        10
    zk4v2  
       2018-12-30 16:04:13 +08:00
    a 站到现在都不能提供注销账号服务
    xz
        11
    xz  
       2018-12-30 16:24:41 +08:00
    @stabc 不是有快手支撑着了嘛
    whwq2012
        12
    whwq2012  
       2018-12-30 16:29:39 +08:00 via Android
    只在 a 站看了交通事故 video😓
    glouhao
        13
    glouhao  
       2018-12-31 00:39:15 +08:00 via Android
    爬一遍成本也不低吧
    meik2333
        14
    meik2333  
    OP
       2018-12-31 11:49:25 +08:00 via Android
    @glouhao 只爬用户上传视频其实还挺简单的,A 站的视频编号是自增的,找到第一个和最后一个,遍历跑一遍就行。

    最后数据大概五个多 G,分布式挂在我阿里云和腾讯云的学生机上,也就两三个小时就爬完了。因为没有反爬,所以也不需要代理啥的,怎么暴力怎么来。

    番剧其实也能爬,先去爬番剧列表再遍历就行了,但我太懒了......
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   975 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 20:27 · PVG 04:27 · LAX 12:27 · JFK 15:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.