在一个 200GB 内存的机器上，处理上 TB 的数据，如何解决 OOM 问题？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 741 天前的主题，其中的信息可能已经有所发展或是发生改变。

在一个 200GB 内存的机器上，处理上 TB 的数据，如何解决 OOM 问题？

关键一：数据分布在多个进程上
关键二：数据前期未分区，无法直接分批计算
关键三：要求支持多任务，也就是可能存在资源竞争
关键四：必须充分利用计算资源，尽可能达到理论的最大性能

这种情况下，OOM 问题怎么设计容易解决呢？

9 条回复 • 2023-03-01 16:32:22 +08:00

1

bjzhush

2023-03-01 15:33:50 +08:00

非常简单，很多方案
内存加到 2T ，2T 不够 4T ，以此类推
数据进行分区
找到 OOM 的原因，改进代码

2

l01306

OP

2023-03-01 15:41:01 +08:00

@bjzhush 服务部署在云上，没有那么大内存的型号（机型已经固定了）

3

l01306

OP

2023-03-01 15:41:55 +08:00

@bjzhush 可以新增几台机器，但无法更换机型

4

bjzhush

2023-03-01 15:52:11 +08:00

不开玩笑的说，200G 内存绝对是够了，TB 数据也并不多，最大的问题在程序本身，去看看 log 找下 OOM 的原因，改进代码吧，自己改不了就找个靠谱的人花点钱改

5

VYSE

2023-03-01 15:58:15 +08:00

MMAP

6

liprais

2023-03-01 16:12:50 +08:00

装个 duckdb ，跑个 sql 完事

7

darkengine

2023-03-01 16:19:15 +08:00

先把数据处理成可分区处理的，不然其他三点都没法实现

8

l01306

OP

2023-03-01 16:30:32 +08:00

@bjzhush OOM 原因很明确了，现在遇到的核心问题是：在处理这么大数据的情况下，必然要将部分数据换出到硬盘，这个换出机制如何设计？涉及多个进程，如何实现统一的数据管理且保证性能？

9

l01306

OP

2023-03-01 16:32:22 +08:00

@darkengine 没有办法预分区，只能根据需要，在数据载入内存后做分区了

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1012 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 21:51 · PVG 05:51 · LAX 14:51 · JFK 17:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.