【附代码】NumPy加速库NumExpr（大数据）

文章目录

- 相关文献
- 测试电脑配置
- 数组加减乘除
- 数组乘方
- Pandas加减乘除
- 总结

作者：小猪快跑

基础数学&计算数学，从事优化领域5年+，主要研究方向：MIP求解器、整数规划、随机规划、智能优化算法

如有错误，欢迎指正。如有更好的算法，也欢迎交流！！！——@小猪快跑

测试电脑配置

博主三千元电脑的渣渣配置：
CPU model: AMD Ryzen 7 7840HS w/ Radeon 780M Graphics, instruction set [SSE2|AVX|AVX2|AVX512]
Thread count: 8 physical cores, 16 logical processors, using up to 16 threads

数组加减乘除

我们计算 2 * a + 3 * b，发现在数据量较大时候，NumExpr明显快于NumPy

import perfplotfrom matplotlib import pyplot as pltimport numpy as npimport numexpr as nedef numpy_add(a, b):return 2 * a + 3 * bdef numexpr_add(a, b):return ne.evaluate("2 * a + 3 * b")if __name__ == '__main__':b = perfplot.bench(setup=lambda n: (np.random.rand(n), np.random.rand(n)),kernels=[numpy_add,numexpr_add,],n_range=[2 ** k for k in range(25)],xlabel="length of DataFrame",)plt.figure(dpi=300)b.save(f"arr_add.png")b.show()

数组乘方

我们计算 2 * a + b ** 10，发现在数据量较大时候，NumExpr明显快于NumPy

import perfplotfrom matplotlib import pyplot as pltimport numpy as npimport numexpr as nedef numpy_power(a, b):return 2 * a + b ** 10def numexpr_power(a, b):return ne.evaluate("2 * a + b ** 10")if __name__ == '__main__':b = perfplot.bench(setup=lambda n: (np.random.rand(n), np.random.rand(n)),kernels=[numpy_power,numexpr_power,],n_range=[2 ** k for k in range(25)],xlabel="length of DataFrame",)plt.figure(dpi=300)b.save(f"arr_power.png")b.show()

Pandas加减乘除

我们计算 (a + b) / (c – 1)，发现在数据量较大时候，NumExpr明显快于Pandas

import pandas as pdimport perfplotfrom matplotlib import pyplot as pltfrom numpy.random._examples.cffi.extending import rngimport numexpr as nedef pandas_add(df):return (df['A'] + df['B']) / (df['C'] - 1)def numexpr_add(df):return df.eval('(A + B) / (C - 1)')def numpy_arr_add(df):a = df['A'].valuesb = df['B'].valuesc = df['C'].valuesreturn (a + b) / (c - 1)def numexpr_arr_add(df):a = df['A'].valuesb = df['B'].valuesc = df['C'].valuesreturn ne.evaluate("(a + b) / (c - 1)")if __name__ == '__main__':b = perfplot.bench(setup=lambda n: pd.DataFrame(rng.random((n, 3)), columns=['A', 'B', 'C']),kernels=[pandas_add,numexpr_add,numpy_arr_add,numexpr_arr_add,],n_range=[2 ** k for k in range(25)],xlabel="length of DataFrame",)plt.figure(dpi=300)b.save(f"pandas_add.png")b.show()

总结

总体来说在大数据下会有多倍的性能提升。但我们也容易观察到，就算10e8量级的数据，进行一次运算的时间也不超过1秒。一般计算次数多，数据量大，对速度有要求的场景下可以使用。

【附代码】NumPy加速库NumExpr（大数据）

文章目录

相关文献

测试电脑配置

数组加减乘除

数组乘方

Pandas加减乘除

总结

最新关注

热文推荐

【Go Web开发】Web初识、RESTful架构和RESTful API详解、Gin框架的安装和简单使用

程序人生 – 为啥刚毕业最好进大厂打螺丝？

一文读懂 UniProt 数据库（2023 最新版）

【记录】终端如何进入conda（base）环境，如何退出 conda（base）环境，终端快速进入Jupyter notebook的方法

关于Chrome中F12调试Console输入多行

【AI绘画 | draft意间】国产draft推荐及AI绘画背后的原理解读

【附代码】NumPy加速库NumExpr（大数据）

文章目录

相关文献

测试电脑配置

数组加减乘除

数组乘方

Pandas加减乘除

总结

相关文章

最新关注

热文推荐