当前位置:主页 > python教程 > python中使用矢量化替换循环

python中使用矢量化替换循环详解

发布:2023-03-03 10:30:01 59


给网友们整理相关的编程文章,网友麴烨烨根据主题投稿了本篇教程内容,涉及到python什么是矢量化运算、python数据分析矢量化计算、python、矢量化、python中使用矢量化替换循环相关内容,已被362网友关注,相关难点技巧可以阅读下方的电子资料。

python中使用矢量化替换循环

所有编程语言都离不开循环。因此,默认情况下,只要有重复操作,我们就会开始执行循环。但是当我们处理大量迭代(数百万/十亿行)时,使用循环是一种犯罪。您可能会被困几个小时,后来才意识到它行不通。这就是在 python 中实现矢量化变得非常关键的地方。

什么是矢量化?

矢量化是在数据集上实现 (NumPy) 数组操作的技术。在后台,它将操作一次性应用于数组或系列的所有元素(不同于一次操作一行的“for”循环)。

接下来我们使用一些用例来演示什么是矢量化。

求数字之和

##使用循环
import time 
start = time.time()

 
# iterative sum
total = 0
# iterating through 1.5 Million numbers
for item in range(0, 1500000):
    total = total + item


print('sum is:' + str(total))
end = time.time()

print(end - start)

#1124999250000
#0.14 Seconds
## 使用矢量化
import numpy as np

start = time.time()

# vectorized sum - using numpy for vectorization
# np.arange create the sequence of numbers from 0 to 1499999
print(np.sum(np.arange(1500000)))

end = time.time()

print(end - start)


##1124999250000
##0.008 Seconds

与使用范围函数的迭代相比,矢量化的执行时间减少了约 18 倍。在使用 Pandas DataFrame 时,这种差异将变得更加显著。

数学运算

在数据科学中,在使用 Pandas DataFrame 时,开发人员使用循环通过数学运算创建新的派生列。

在下面的示例中,我们可以看到对于此类用例,用矢量化替换循环是多么容易。

DataFrame 是行和列形式的表格数据。

我们创建一个具有 500 万行和 4 列的 pandas DataFrame,其中填充了 0 到 50 之间的随机值。

import numpy as np 
import pandas as pd 
df = pd.DataFrame(np.random.randint( 0 , 50 , size=( 5000000 , 4 )), columns=( 'a' , 'b' , 'c' , 'd ' )) 
df.shape 
# (5000000, 5)
 df.head()

创建一个新列“ratio”来查找列“d”和“c”的比率。

## 循环遍历
import time 
start = time.time() 

# 使用 iterrows 遍历 DataFrame 
for idx, row in df.iterrows(): 
    # 创建一个新列
    df.at[idx, 'ratio' ] = 100 * (row[ "d" ] / row[ "c" ])   
end = time.time() 
print (end - start) 
### 109 秒
## 使用矢量化
start = time.time() 
df[ "ratio" ] = 100 * (df[ "d" ] / df[ "c" ]) 

end = time.time() 
print (end - start) 
### 0.12 秒

我们可以看到 DataFrame 的显著改进,与Python 中的循环相比,矢量化操作所花费的时间几乎快 1000 倍。

If-else 语句

我们实现了很多需要我们使用“If-else”类型逻辑的操作。我们可以轻松地将这些逻辑替换为 python 中的矢量化操作。

让我们看下面的例子来更好地理解它(我们将使用我们在用例 2 中创建的 DataFrame):

想象一下,我们要根据现有列“a”上的某些条件创建一个新列“e”

## 使用循环
import time 
start = time.time() 

# 使用 iterrows 遍历 DataFrame 
for idx, row in df.iterrows(): 
    if row.a == 0 : 
        df.at[idx, 'e' ] = row.d     
    elif ( row.a <= 25 ) & (row.a > 0 ): 
        df.at[idx, 'e' ] = (row.b)-(row.c)     
    else : 
        df.at[idx, 'e' ] = row.b + row.c 

end = time.time() 

print (end - start) 
### 耗时:166 秒
## 矢量化
start = time.time() 
df[ 'e' ] = df[ 'b' ] + df[ 'c' ] 
df.loc[df[ 'a' ] <= 25 , 'e' ] = df [ 'b' ] -df[ 'c' ] 
df.loc[df[ 'a' ]== 0 , 'e' ] = df[ 'd' ]end = time.time()
打印(结束 - 开始)
## 0.29007707595825195 秒

与使用 if-else 语句的 python 循环相比,向量化操作所花费的时间快 600 倍。

解决机器学习/深度学习网络

深度学习要求我们解决多个复杂的方程式,而且需要解决数百万和数十亿行的问题。在 Python 中运行循环来求解这些方程式非常慢,矢量化是最佳解决方案。

例如,计算以下多元线性回归方程中数百万行的 y 值:

我们可以用矢量化代替循环。

m1、m2、m3……的值是通过使用与 x1、x2、x3……对应的数百万个值求解上述等式来确定的

import numpy as np 
# 设置 m 的初始值
m = np.random.rand( 1 , 5 ) 

# 500 万行的输入值
x = np.random.rand( 5000000 , 5 )
## 使用循环
import numpy as np
m = np.random.rand(1,5)
x = np.random.rand(5000000,5)

total = 0
tic = time.process_time()

for i in range(0,5000000):
    total = 0
    for j in range(0,5):
        total = total + x[i][j]*m[0][j] 
        
    zer[i] = total 

toc = time.process_time()
print ("Computation time = "+ str ((toc - tic)) + "seconds" ) 

####计算时间 = 27.02 秒
## 矢量化
tic = time.process_time() 

#dot product
np.dot(x,mT) 

toc = time.process_time() 
print ( "计算时间 = " + str ((toc - tic)) + "seconds" ) 

####计算时间 = 0.107 秒

np.dot 在后端实现向量化矩阵乘法。与 Python 中的循环相比,它快 165 倍。

结论

python 中的矢量化速度非常快,无论何时我们处理非常大的数据集,都应该优先于循环。

随着时间的推移开始实施它,您将习惯于按照代码的矢量化思路进行思考。

到此这篇关于python中使用矢量化替换循环详解的文章就介绍到这了,更多相关python中使用矢量化替换循环内容请搜索码农之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持码农之家!


参考资料

相关文章

  • python的由来及基础语言

    发布:2020-02-15

    python是C语言编写出来的,并且Python提供了丰富的API和工具,所以程序员能够轻松地使用C语言、C++、Cython来编写扩充模块。


  • 基于Python递归函数实现二分查找算法

    发布:2020-01-23

    这篇文章主要介绍了Python递归函数 二分查找算法实现解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下


  • python字符串大小写转换的三种方法

    发布:2023-04-16

    本文主要介绍了python字符串大小写转换的三种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧


  • pycharm配置python环境的详细图文教程

    发布:2023-03-03

    PyCharm是一款功能强大的Python编辑器,具有跨平台性,下面这篇文章主要给大家介绍了关于pycharm配置python环境的详细图文教程,文中通过图文介绍的非常详细,需要的朋友可以参考下


  • python开发游戏的准备和必要步骤

    发布:2019-09-10

    在本篇文章中我们给大家分享了关于python开发游戏的前期准备以及用到的工具等内容,需要的朋友们跟着参考下。


  • 解密Python中的作用域与名字空间

    发布:2023-03-23

    名字空间对于 Python 来说是一个非常重要的概念,并且与名字空间这个概念紧密联系在一起的还有名字、作用域这些概念,下面就来剖析这些概念是如何体现的


  • 如何解决Python中Dataframe通过print输出多行时显示省略号问题

    发布:2020-02-22

    今天小编就为大家分享一篇在Python中Dataframe通过print输出多行时显示省略号的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧


  • Python实现对字典分别按键(key)和值(value)进行排序的实例代码

    发布:2019-10-25

    这篇文章主要介绍了Python实现对字典分别按键(key)和值(value)进行排序的方法,结合实例形式分析了Python基于sorted函数及operator库进行字典排序的相关操作技巧,需要的朋友可以参考下


网友讨论