V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
cqcn1991
V2EX  ›  奇思妙想

数据分析:自动化的 insight 提取方法?(开源库)

  •  
  •   cqcn1991 · 2017-12-25 10:13:44 +08:00 · 2668 次点击
    这是一个创建于 2307 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在知乎上看到的

    MS Excel 支持自动化的数据分析,帮你发现数据中的一些趋势等等

    https://www.zhihu.com/question/27588491/answer/276995903

    论文在 https://dl.acm.org/citation.cfm?id=3035922&CFID=1020097431&CFTOKEN=74864648

    仔细看了一下,发现实现主要是两点

    • 确定数据分析的搜索空间(可分析的维度其实相当大),分成若干个可分析的子空间( i.e. 表)
    • 根据预定义的分析方式,分析子空间存在的数据趋势( i.e. insight ),显示规律、趋势很强的数据特性(落地方法是 significant-level )

    简单来说,就是在数据表的子空间里遍历一遍预定义的数据趋势、规律

    而这些规律是人工先预先定义好的(比如上升下降、outlier、相关性等等),而且还在一个一个实现,具体可见 Power BI 的官方说明

    https://powerbi.microsoft.com/en-us/blog/announcing-power-bi-integration-with-cortana-and-new-ways-to-quickly-find-insights-in-your-data/


    我个人看完,觉得其实也可以实现到 Python、R 的数据分析当中?

    最近在看 Kaggle 的时候,发现其实大家都要花不少功夫做基本的数据分析,就包括了上述这些内容,比如

    虽然能得到的 insight 较为有限(都是预定义好的),但是我觉得起码能减少许多重复、简单的工作量

    不知道这方面有什么开源的工作了?

    2 条回复    2017-12-27 10:44:31 +08:00
    fffflyfish
        1
    fffflyfish  
       2017-12-26 14:15:06 +08:00
    我的理解是把数据挖掘常规特征工程步骤整合出一个流程图,类似这个[]( http://www.cnblogs.com/jasonfreak/p/5619260.html),应该可以实现类似的效果吧,另外最近不是在推 autoML 吗?直接省略特征工程了,不知道说的对不对
    cqcn1991
        2
    cqcn1991  
    OP
       2017-12-27 10:44:31 +08:00
    @fffflyfish 你说的这个更高级一点。

    - AutoML 主要是针对神经网络调参
    - Excel Insigt 接近于传统的数据分析、BI,比如发现上升下降、Outlier 等等数据现象

    为啥回复卡住了...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2803 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:10 · PVG 21:10 · LAX 06:10 · JFK 09:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.