V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
zmrenwu
V2EX  ›  云计算

Spark 可以运行纯 python 脚本么?

  •  
  •   zmrenwu · 2016-08-28 16:15:16 +08:00 · 5139 次点击
    这是一个创建于 3005 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求是这样的,目前在处理一个 100G 的数据库。出于简单考虑,我是一次性把数据载入内存做计算,处理本是 python 写的。手头有一台 windows 服务器,内存 128G ,运行起来内存爆了。另外还有一个 spark 集群,由 4 台 128G 内存的服务器组成。由于对 spark 不是很了解,想请教一下大家:

    1. 我可以用这台 spark 集群运行我的纯 python 脚本么?还是必须改用 spark 的 API?

    2. 如果可以,可以利用到集群的全部内存,从而解决内存爆表的问题么?

    9 条回复    2016-08-29 22:03:23 +08:00
    Garantion
        1
    Garantion  
       2016-08-28 16:47:10 +08:00
    chuan
        2
    chuan  
       2016-08-28 17:20:11 +08:00
    pyspark 里不用 spark 相关的东西完全可以
    BUPTGuo
        3
    BUPTGuo  
       2016-08-28 19:38:49 +08:00
    可以直接用。但是感觉并不能解决内存爆了的问题吧??
    没有用 spark 或者其他并行计算框架,它就只能把你当成一个计算程序来算,没有办法拆分开分布式运行。计算的时候还是需要那么多的内存啊
    ooonme
        4
    ooonme  
       2016-08-28 20:28:27 +08:00 via iPhone
    必须用 spark api ,建议楼主先看下 spark 相关的内容吧
    iEverX
        5
    iEverX  
       2016-08-28 21:09:48 +08:00
    不用 spark 的 api ,怎么分布式用集群?和自己运行一个脚本没区别啊
    mengzhuo
        6
    mengzhuo  
       2016-08-29 13:37:07 +08:00 via iPhone
    必须是 pyspark 的接口 不过可以各种上传依赖库啊
    ligyxy
        7
    ligyxy  
       2016-08-29 21:29:46 +08:00 via Android
    默认设置下 Spark 会使用资源 70% 的内存
    ligyxy
        8
    ligyxy  
       2016-08-29 21:33:07 +08:00 via Android
    * 最多
    jyf
        9
    jyf  
       2016-08-29 22:03:23 +08:00
    可以啊 pyspark 么 就是许多 api 一看支持都有 再仔细一看都是 java 才支持
    你还是看看 spark streaming 吧 按你这玩法 内存再大也不够
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3159 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:40 · PVG 21:40 · LAX 05:40 · JFK 08:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.