博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
带你入门比Python更高效的Numpy(附代码)
阅读量:6062 次
发布时间:2019-06-20

本文共 3168 字,大约阅读时间需要 10 分钟。

简介

向量化技巧对于数据科学家来说是相当熟知的,并且常用于编程中,以加速整体数据转换,其中简单的数学变化通过可迭代对象(例如列表)执行。未受到重视的是,把有一定规模的代码模块,如条件循环,进行矢量化,也能带来一些好处。

正文

Python正在迅速成为数据科学家的编程实战语言。但与R或Julia不同的是,它是通用型编程语言,没有功能语法来立即开始分析和转换数值数据。所以,它需要专门的库。

Numpy是Numerical Python的缩写,是Python生态系统中高性能科学计算和数据分析所需的基础软件包。它是几乎所有高级工具(如Pandas和scikit-learn)的基础。

TensorFlow使用NumPy数组作为基础构建模块,在这些模块的基础上,他们为深度学习任务(在长列表/向量/数字矩阵上大量使用线性代数运算)构建了张量对象(Tensor objects)和图形流(graphflow)许多Numpy操作都是用C语言实现的,避免了Python中循环的基本代价,即指针间接寻址和每个元素的动态类型检查。速度的提升取决于您正在执行的操作。对于数据科学和现代机器学习的任务来说,这是一个非常宝贵的优势。

我最近一篇文章讲了使用Numpy向量化简单数据转换任务的优势,它引起了一些联想,并受到读者的欢迎。关于代码简化等矢量化的效用,也有一些有趣的讨论。

现在,基于某些预定义条件的数学转换在数据科学任务中相当普遍。事实证明,通过首先转换为函数然后使用numpy.vectorize方法,可以轻松地对条件循环的简单模块进行矢量化。在我之前的文章中,我展示了Numpy矢量化简单数学变换后一个数量级的速度提升。对于目前的情况来说,由于内部条件循环仍然效率低下,速度提升并不那么显着。但是,与其他纯粹Python代码相比,执行时间至少要提高20-50%。

以下是演示它的简单代码:

import numpy as npfrom math import sin as snimport matplotlib.pyplot as pltimport time # 测试数量N_point = 1000 # 定义一个有if else循环的函数def myfunc(x,y):  if (x>0.5*y and y<0.3): return (sn(x-y))  elif (x<0.5*y): return 0  elif (x>0.2*y): return (2*sn(x+2*y))  else: return (sn(y+x)) # 从正态分布产生存储元素的列表lst_x = np.random.randn(N_point)lst_y = np.random.randn(N_point)lst_result = [] # 可选择画出数据分布plt.hist(lst_x,bins=20)plt.show()plt.hist(lst_y,bins=20)plt.show() # 首先,纯粹的Python代码t1=time.time()First, plain vanilla for-loopt1=time.time()for i in range(len(lst_x)):    x = lst_x[i]    y= lst_y[i]    if (x>0.5*y and y<0.3):        lst_result.append(sn(x-y))    elif (x<0.5*y):        lst_result.append(0)    elif (x>0.2*y):        lst_result.append(2*sn(x+2*y))    else:        lst_result.append(sn(y+x))t2=time.time() print("\nTime taken by the plain vanilla for-loop\n----------------------------------------------\n{} us".format(1000000*(t2-t1))) # List comprehensionprint("\nTime taken by list comprehension and zip\n"+'-'*40)%timeit lst_result = [myfunc(x,y) for x,y in zip(lst_x,lst_y)] # Map() 函数print("\nTime taken by map function\n"+'-'*40)%timeit list(map(myfunc,lst_x,lst_y)) # Numpy.vectorize 方法print("\nTime taken by numpy.vectorize method\n"+'-'*40)vectfunc = np.vectorize(myfunc,otypes=[np.float],cache=False)%timeit list(vectfunc(lst_x,lst_y)) # 结果Time taken by the plain vanilla for-loop----------------------------------------------2000.0934600830078 us Time taken by list comprehension and zip----------------------------------------1000 loops, best of 3: 810 µs per loop Time taken by map function----------------------------------------1000 loops, best of 3: 726 µs per loop Time taken by numpy.vectorize method----------------------------------------1000 loops, best of 3: 516 µs per

请注意,我已经在任何可以把表达式用一行语句来实现的地方使用了%timeit Jupyter魔术命令。这样我就可以有效运行超过1000个相同表达式的循环,来计算平均执行时间以避免任何随机效应。因此,如果您在Jupyter Notebook中运行整个脚本,则可能会出现与第一种情况(即普通循环执行)略有不同的结果,但接下来的三种应该会给出非常一致的趋势(基于您的计算机硬件)。

我们看到的证据表明,对于基于一系列条件检查的数据转换任务,与一般Python方法相比,使用Numpy的向量化方法通常会使速度提高20-50%。

这貌似不是一个显著改进,但节省的每一点时间都可以加入数据科学工作流程中,从长远来看是值得的!如果数据科学工作要求这种转换发生一百万次,那么可能会导致短则八小时,长则两天的差异。

简而言之,任何时候你有长的数据列表并需要对它们进行数学转换,都应强烈考虑将这些Python数据结构(列表或元组或字典)转换为numpy.ndarray对象并使用自带的向量化功能。

Numpy提供了一个用于更快代码执行的C应用程序接口(C-API),但是它失去了Python编程的简单性。这个Scipy讲义能告诉你在这方面的所有相关选项。

原文发布时间为:2018-07-16

本文作者:TIRTHAJYOTI SARKAR
本文来自云栖社区合作伙伴“”,了解相关信息可以关注“”

转载地址:http://isvrx.baihongyu.com/

你可能感兴趣的文章
好程序员web前端分享javascript关联数组用法总结
查看>>
ckeditor等编辑器和struts结合,无法上传图片问题
查看>>
Qt程序打包发布方法(使用官方提供的windeployqt工具)
查看>>
快速掌握Gradle来构建Android studio项目
查看>>
我的友情链接
查看>>
理解VMware的三种工作模式
查看>>
System Center 2012 R2实例3—SCOM之SharePoint全方位监视10—硬盘监视
查看>>
3.4、Bootstrap V4自学之路------内容---表格
查看>>
我的友情链接
查看>>
vmware 10 卸载不干净的解决办法
查看>>
VMware Workstation 常用快捷键
查看>>
Linux上性能异常定位以及性能监控
查看>>
利用301做网站权重,让网站快速获得排名
查看>>
NO.129 微信公众号,订阅号还是服务号?
查看>>
有没有发现你的Win7系统里面很多文件夹你没有权限访问?
查看>>
怎么把samba服务器加入AD(win2008)呢?
查看>>
Python编程规范
查看>>
linux正则表达式和扩展表达式
查看>>
分布式系统中的定时任务全解(四)--补充
查看>>
理解 Linux 的硬链接与软链接
查看>>