V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
YoungBalance
V2EX  ›  问与答

有做数据处理工作的大佬?请指导下小弟。

  •  
  •   YoungBalance · 2018-11-19 21:41:39 +08:00 · 2291 次点击
    这是一个创建于 2223 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我在家初创公司工作,做着数据处理的工作。公司其他人从外面采取数据回来,我就将其进行分类和汇总。但只不过在文件夹里剪切复制数据、然后统计在 excel 表而已,算不上数据处理的有含量技术。 现在领导让我自由地处理和管理这些数据,但我对数据处理管理这方面毫无经验、也不知从哪下手。我想知道做数据处理的大佬们从开始是怎样去做数据处理、从哪获取数据管理知识和数据处理管理的工具? 小弟先在此谢过各位大佬了。握拳

    19 条回复    2018-11-20 11:23:07 +08:00
    fox1751
        1
    fox1751  
       2018-11-19 23:26:48 +08:00 via iPhone
    多大数据量的
    liprais
        2
    liprais  
       2018-11-19 23:28:57 +08:00
    你处理完了这些数据被拿去干啥了
    xmadi
        3
    xmadi  
       2018-11-19 23:37:55 +08:00 via iPhone
    数据到手 首先要做的是保存原始数据 然后再清洗整理 然后把清洗后数据入到库 可以是 mysql 或者其他各种数据仓库 最后按照需求从数据仓库里面拿数据 进行分析统计什么的
    imn1
        4
    imn1  
       2018-11-20 00:42:40 +08:00
    所有数据分析都是先学交叉分析的,简单讲就是交并差
    最简单的工具,数据量小就是 excel,数据量大就是 SQL,然后才是编程
    YoungBalance
        5
    YoungBalance  
    OP
       2018-11-20 07:35:02 +08:00 via Android
    @fox1751 不多,十几 G 吧
    YoungBalance
        6
    YoungBalance  
    OP
       2018-11-20 07:35:32 +08:00 via Android
    @liprais 数据都拿去给机器学习了
    YoungBalance
        7
    YoungBalance  
    OP
       2018-11-20 07:39:45 +08:00 via Android
    @xmadi 好的,我先从数据库入手看看
    YoungBalance
        8
    YoungBalance  
    OP
       2018-11-20 07:43:12 +08:00 via Android
    @imn1 交叉分析,我去了解下
    myhot21
        9
    myhot21  
       2018-11-20 08:00:55 +08:00 via Android
    把你剪切复制的工作用代码实现
    YoungBalance
        10
    YoungBalance  
    OP
       2018-11-20 08:32:25 +08:00 via Android
    YoungBalance
        11
    YoungBalance  
    OP
       2018-11-20 08:35:44 +08:00 via Android
    @myhot21 平时用 python 写脚本做这些工作,但还是觉得远远不够
    nl101531
        12
    nl101531  
       2018-11-20 09:03:23 +08:00 via Android
    hdfs+hive ?
    YoungBalance
        13
    YoungBalance  
    OP
       2018-11-20 09:15:19 +08:00
    @nl101531 用 Hadoop 去处理这十几 G 数据,是否大刀小用?
    nl101531
        14
    nl101531  
       2018-11-20 09:22:57 +08:00 via Android
    @YoungBalance 还好吧。。。如果你对大数据处理感兴趣可以搞一下
    YoungBalance
        15
    YoungBalance  
    OP
       2018-11-20 09:28:04 +08:00
    @nl101531 好的,我试着搞搞
    yuikns
        16
    yuikns  
       2018-11-20 09:48:04 +08:00 via iPad
    看需不需要横向扩展。比如可以预期的五年后,数据量是 100G 还是 10T 以上。前者的话好好学习 postgres 会很爽的,后者可以预先学下 spark 工具
    YoungBalance
        17
    YoungBalance  
    OP
       2018-11-20 10:46:23 +08:00
    @yuikns 最近确实想深入 postgresql,多谢了
    yuikns
        18
    yuikns  
       2018-11-20 11:00:30 +08:00 via iPad
    @YoungBalance 以前上课时候老师和我们说,什么叫做 bigdata 呢?其实并没有什么学术上定义,非要来个,数据之大,一台机器放不下。简单的 select join 下还是 psql 单机无敌。以后要是大了也可以塞 cockroach 去 https://www.cockroachlabs.com 。这是个分布式数据库,兼容 psql 协议,也可以做 spark 数据源。只有在必须要大数据时候再用大数据。否则就是糊弄下投资人的。
    YoungBalance
        19
    YoungBalance  
    OP
       2018-11-20 11:23:07 +08:00
    @yuikns 现在的我还是狭义认为 postgresql 是个存储数据库的想法。但我想更加知道 postgresql 在数据挖掘、数据处理方面的知识,该从何处入手?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2143 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:11 · PVG 00:11 · LAX 08:11 · JFK 11:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.