V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shiji
V2EX  ›  问与答

机器学习,怎么判断数据是否有学习的意义?

  •  
  •   shiji · 2019-12-06 05:35:34 +08:00 · 1446 次点击
    这是一个创建于 1596 天前的主题,其中的信息可能已经有所发展或是发生改变。
    假设数据大于一千条,参数 30 个左右。
    简单试了 sklearn 的大部分 classifier 和 regression,准确率和随机猜答案没多少区别。。

    是不是意味着这组数据确实挖掘不出什么价值?

    数据是:
    https://archive.ics.uci.edu/ml/machine-learning-databases/00503/
    8 条回复    2019-12-06 14:12:33 +08:00
    Xs0ul
        1
    Xs0ul  
       2019-12-06 05:52:49 +08:00
    Xs0ul
        2
    Xs0ul  
       2019-12-06 05:56:19 +08:00   ❤️ 1
    https://archive.ics.uci.edu/ml/datasets/Hepatitis+C+Virus+%28HCV%29+for+Egyptian+patients

    手滑发出去了. 这个数据集应该是随着这篇论文发表的. abstract 里说达到了 99.48% 的 accuracy

    刚开始尝试可能没法达到这么好的效果,但是 classification 和 regression 都没想好就试,不太合理吧
    shiji
        3
    shiji  
    OP
       2019-12-06 07:41:00 +08:00
    @Xs0ul 那个 paper 我看了,作者对比了自己的算法,和一些常见的算法。比如 OneR, 他 oneR 就已经有百分之九十五的准确率了。所以按理来说某一个 attribute 是和要预测的那一列强相关,然后 coefficient 跑出来,都很散,参数和参数之间关联性都很弱,所以我怀疑是这份上传的数据有问题。。才有了这么一问
    shiji
        4
    shiji  
    OP
       2019-12-06 07:42:59 +08:00
    RHxW
        5
    RHxW  
       2019-12-06 09:06:41 +08:00
    特征工程?
    Xs0ul
        6
    Xs0ul  
       2019-12-06 10:47:14 +08:00
    @shiji #4 压缩包里的 Discretization-Criteria.csv 你试了吗?看起来有默认的一些离散化
    shiji
        7
    shiji  
    OP
       2019-12-06 10:55:17 +08:00
    @Xs0ul 试过了,原始数据,和离散化之后的我都试过了。
    wysnylc
        8
    wysnylc  
       2019-12-06 14:12:33 +08:00
    人肉智能,人肉
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3205 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 10:48 · PVG 18:48 · LAX 03:48 · JFK 06:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.