首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
宝塔
V2EX  ›  分享创造

二千万条数据的一些分析

  •  
  •   august · 2013-11-01 01:17:44 +08:00 · 4803 次点击
    这是一个创建于 2210 天前的主题,其中的信息可能已经有所发展或是发生改变。
    首先感谢某酒店提供的数据。

    页面在这里:

    http://august.hk/2000w.html

    没事拿来练习一下 sql, 有些校准,有些忽略,大致上准确。

    欢迎提供更多统计意见。
    第 1 条附言  ·  2013-11-01 12:10:06 +08:00
    追加了星座統計,天秤躺槍
    34 回复  |  直到 1970-01-01 08:00:00 +08:00
        1
    senghoo   2013-11-01 01:26:35 +08:00 via iPad
    Goodjob
        2
    liuhk388   2013-11-01 01:31:33 +08:00 via iPhone
    地区分布那张亮了
    问一下图是用什么做的?
        3
    drush   2013-11-01 01:40:43 +08:00 via iPad
        4
    drush   2013-11-01 01:42:10 +08:00 via iPad
    ...點錯,不是圖,用Google chart 做的
        5
    liuxurong   2013-11-01 01:47:44 +08:00
    看不到 图??
        6
    cctvsmg   2013-11-01 03:51:56 +08:00
        7
    yelite   2013-11-01 05:30:00 +08:00   ♥ 1
    我做了个生日的统计发现9月和10月出生的特别多,有9.9%和9.5%, 相对来讲3月到6月出身就比较少,最低的好像是7.8%
        8
    Mihuwa   2013-11-01 08:13:50 +08:00 via iPhone
    很有意思的表
        9
    DearMark   2013-11-01 08:17:09 +08:00
    喜闻乐见系列
        10
    august   2013-11-01 08:20:05 +08:00
    @cctvsmg 我没想到统计入住时间,另外我发现82年的人是最多的,但如果地址是“香港” 的,所有生日都好像是默认为“19821228”,不知你有没有去除。
        11
    august   2013-11-01 08:21:41 +08:00
    @yelite 生日这个我觉得要跟身份证号码来校验而身份证又分15位同18位,而且有上面的情况出现,略复杂,不会用sql来做,所以没做过统计。
        12
    ChiangDi   2013-11-01 09:06:22 +08:00
    越年輕,男女差別越小;經濟越發達地區人越多;排名第一的居然是張偉
        13
    kurtrossel   2013-11-01 09:17:06 +08:00
    看女性年龄分布,三十如狼果然不是盖的
        14
    yelite   2013-11-01 09:38:51 +08:00
    @august 我没有看birthday字段,只看非重复18位身份证的,然后从身份证里提取生日,数量大概有1800w吧。

    待我学一下数据展示的js,也像你这样做个网页出来
        15
    detailyang   2013-11-01 10:12:33 +08:00
    数据库地址多少。从网上下的解开来全错的 = =。也想练练手
        16
    imganquan   2013-11-01 10:16:22 +08:00
    贊,做得非常棒。
        17
    felix021   2013-11-01 10:27:29 +08:00
    我前两天用它来跑压测了。。
        18
    august   2013-11-01 10:36:04 +08:00
    @detailyang 就在百度網盤一搜一大把
        19
    cctvsmg   2013-11-01 11:04:58 +08:00
    @august 也只过滤了一下一些明显有错误的
        20
    csx163   2013-11-01 13:48:50 +08:00
    @august
    @cctvsmg

    怎么做的啊,手写sql么,除了使用excel都很麻烦的样子
        21
    august   2013-11-01 14:37:36 +08:00
    @csx163 用 sql 跑到數字再填上去畫出來
        22
    romisanic   2013-11-01 14:38:06 +08:00
    赞!做的很不错啊
    光数据量搞来玩玩也不错
        23
    romisanic   2013-11-01 14:38:45 +08:00
    呃。。。天蝎仅次于天枰了。。。
        24
    aku   2013-11-01 14:43:32 +08:00
    好像男的总数比女的多很多 -_-!
        25
    yelite   2013-11-01 14:44:01 +08:00
        26
    gmbsfd   2013-11-01 14:57:48 +08:00
    男的好多....
        27
    Cambean   2013-11-01 15:07:16 +08:00
    图很好看!打开速度也很快,这个是预先生成好的吗?
        28
    tontech   2013-11-01 17:17:01 +08:00
    双子座的好少啊。。。
        29
    tonitech   2013-11-01 17:31:20 +08:00
    我也下载了一个,但是这个数据太大了,根本打不开。。。该怎么分析呢?
        30
    august   2013-11-01 17:43:45 +08:00   ♥ 1
    @Cambean 是預先跑好數據的。

    @tonitech 我是下了 csv 版的導入 mysql 裏跑的
        31
    ydeng   2013-11-02 10:18:37 +08:00
    @cctvsmg what happened on 2012年4月9日?……
        32
    asdftu   2013-11-05 14:12:11 +08:00
    赞 @august , @cctvsmg , @yelite
        33
    byteboy   2014-02-15 00:00:22 +08:00
    @august 只找到MSSQL的版本,好麻烦,还要重新安装一个sqlserver。请问哪里有直接可以导入 mysql的下载啊?方便发个网盘链接到邮箱 [email protected] 吧,非常谢谢!
        34
    august   2014-02-15 10:25:35 +08:00
    @byteboy 找個 csv 格式的可以導入 mysql
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2697 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 24ms · UTC 11:57 · PVG 19:57 · LAX 03:57 · JFK 06:57
    ♥ Do have faith in what you're doing.