Pandas 的性能问题

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2019 days ago, the information mentioned may be changed or developed.

DataFrame 的 append 操作每次都会返回一个全新的对象，势必会有大量的内存拷贝，这样岂不是会严重拉胯新能，还是说有新的姿势构造 DataFrame 。小白跪求大佬赐教。

dataframe

赐教

append

pandas

22 replies • 2021-01-10 10:45:44 +08:00

lewinlan

Jan 8, 2021 via Android

我记得有一个参数，可以指定原地操作。

wuwukai007

Jan 8, 2021 via Android

concat

bilibilifi

Jan 8, 2021 via iPhone

list 里搞好了再转？我记得 dataframe 为了优化性能会把数据放在连续的内存里

nthhdy

Jan 8, 2021

我不了解啊，瞎说的。但我感觉它不会拷贝内存的，有可能是写时复制的。可以读下源码看看。

crystom

Jan 8, 2021

懒操作吧

allAboutDbmss

Jan 8, 2021

可以试试这个： https://github.com/modin-project/modin

milkpuff

Jan 9, 2021

pandas 直接操作非常慢，一般拼接都 append 到 list 里面，最后一次性 concat 。
pandas 索引、切片、拼接、赋值等都不适合频繁调用，转换成 numpy 效率可以极大提升

Rorysky

Jan 9, 2021

猛男都直接用原生数据类型

qile1

Jan 9, 2021 via Android

@milkpuff 多谢回复，我都是 for 遍历逐行附值到 pandas 里面，后期得修改下

lixuda

Jan 9, 2021

@qile1 apply 方式

myCupOfTea

Jan 9, 2021

数据量太大确实会有性能问题啊
底层是 numpy 吧,numpy concat 数据量大的阵列确实会很慢

lithiumii

Jan 9, 2021 via Android

append 确实慢
如果是一堆小 df 建议 concat 一个 list
如果是一行一行的可以每行先存成一个 dict 然后 append 到 list 里，最后转成 df

shuangchengsun

Jan 9, 2021

@bilibilifi 我现在的数据阵列是 rows 是一亿五千万左右，columns 是 12，有点太庞大了，用 list 的话能撑住么？

shuangchengsun

Jan 9, 2021

@allAboutDbmss 谢谢推荐，我去看看这个工具

shuangchengsun

Jan 9, 2021

@myCupOfTea 数据量确实很大，rows 差不多一亿五千万的样子。

shuangchengsun

Jan 9, 2021

@lithiumii 感谢指导，我这就去试试。

outoftimeerror

Jan 9, 2021

用 spark dataframe

volvo007

Jan 9, 2021

@shuangchengsun list 存的是对象指针，不是实际的对象……

对于这个体量的数据，可以考虑用 vaex 这个库

如果上下文操作不复杂且需要持久化的话，强烈安利 PostgreSQL 数据库来处理，超好用，真香

weeevv

Jan 9, 2021

Dask 或者直接上数据库吧。

dlsflh

Jan 9, 2021 via Android

试试看并行的 pandas modin ？

ElliotQi

Jan 9, 2021

shuangchengsun

Jan 10, 2021

@volvo007 感谢指导