NumPy(Numerical Python)是 Python 中的一个线性代数库。对每一个数据科学或机器学习 Python 包而言,这都是一个非常重要的库,SciPy(Scientific Python)、Mat-plotlib(plotting library)、Scikit-learn 等都在一定程度上依赖 NumPy。
对数组执行数学运算和逻辑运算时,NumPy 是非常有用的。在用 Python 对 n 维数组和矩阵进行运算时,NumPy 提供了大量有用特征。
这篇教程介绍了数据科学初学者需要了解的 NumPy 基础知识,包括如何创建 NumPy 数组、如何使用 NumPy 中的广播机制、如何获取值以及如何操作数组。更重要的是,大家可以通过本文了解到 NumPy 在 Python 列表中的优势:更简洁、更快速地读写项、更方便、更高效。
导入numpy
import numpy as np
数组的新建(arange 和 array)
a = np.array([1,2,3]) # 创建数组,传入的是列表参数 b = np.arange(0, 10, 1) # 相当于python 的range
linspace 和logspace 用法
a = np.linspace(0,10,10#个数) #0到9 b = np.logsoace(0,10,10 #可以用base=2改变底数) # 10^0 和 10^10
shape 和 reshape
注意reshape(1,-1)和reshape(-1,1)的区别
a = np.array([[1,2,3],[4,5,6]]) a.reshape(1,-1) a.reshape(-1,1) a
array([[1, 2, 3, 4, 5, 6]]) array([[1], [2], [3], [4], [5], [6]]) array([[1, 2, 3], [4, 5, 6]])
数据的切片和选取
数组的布尔值的运用
~ 反
& 并
| 或
数组的连接 (concatenate的用法)
轴的概念
axis=1实际上是说,只对行进行操作 axis=1实际上是说,只对列进行操作
axis = 0 可以简写成 0
求唯一值
a = np.array([1,2,1,1,1,3,4,3,5,2,3]) np.unique(a) # array([1, 2, 3, 4, 5])
生成随机数
np.random.rand(3,4) # rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1 np.random.randn(3,4) # randn函数返回均值=0,标准差=1,具有标准正态分布。 np.random.normal(5,1,size=(3, 4)) #normal函数是正态分布,但可以修改均值和标准差,第一个是均值,第二个是标准差,还可以传入size np.random.randint(1, 10, 10) #返回随机整数,范围区间为[low,high),包含low,不包含high np.random.choice(3,3) #从给定的0到3中生成3个随机数,还可以传入size为数组维度
array([[0.38791074, 0.66974604, 0.93553907, 0.84631092], [0.31327352, 0.52454816, 0.44345289, 0.22957721], [0.53441391, 0.91396202, 0.45720481, 0.43069857]]) array([[ 0.8858294 , 0.63190187, 0.04026035, -0.90312288], [ 0.17532267, 0.19443089, -0.53524902, 0.77735121], [ 0.17133845, -0.44285144, 1.70490377, 0.92434585]]) array([[3.69513876, 4.61942496, 4.25637299, 4.56287823], [4.57354991, 6.3814073 , 5.09837051, 4.63054252], [3.72678005, 6.0149868 , 3.51894029, 4.71290011]]) array([9, 7, 4, 8, 8, 5, 6, 4, 7, 9]) array([0, 2, 2])
固定随机数 seed 的用法
参数相同时使得每次生成的随机数相同;当参数不同或者无参数时,作用与numpy.random.rand()函数相同,即多次生成随机数且每次生成的随机数都不同。
import numpy as np for i in range(5): np.random.seed(1) # 当这里有数时,生成相同的随机数 a = np.random.randint(1,10,10) print(a)
[6 9 6 1 1 2 8 7 3 5] [6 9 6 1 1 2 8 7 3 5] [6 9 6 1 1 2 8 7 3 5] [6 9 6 1 1 2 8 7 3 5] [6 9 6 1 1 2 8 7 3 5]
数组和矩阵的区别
矩阵matrix和数组array是NumPy里的两种数据类型。matrix是array的分支,matrix和array在很多时候都是通用的,你用哪一个都一样。Numpy matrices必须是2维的,但是 numpy arrays (ndarrays) 可以是多维的
创建方法 矩阵是mat 或matrix ,数组是array和arange
![import numpy as np np.matrix(np.eye(4)) np.array(np.eye(4)]
数组和矩阵使用方法的区别
matrix.T transpose:返回矩阵的转置矩阵 (数组都有) 这是只有矩阵才有的 matrix.H hermitian (conjugate) transpose:返回复数矩阵的共轭元素矩阵 matrix.I inverse:返回矩阵的逆矩阵 matrix.A base array:返回矩阵基于的数组
矩阵的换行必须是用分号(;)隔开,内部数据必须为字符串形式(‘ ’),矩阵的元素之间必须以空格隔开
a = np.matrix('1 2 7; 3 4 8; 5 6 9')
例子
a = np.random.randn(3,4) a.T a.I a = np.mat(a) a.I
array([[ 0.52226072, 1.77935565, -0.76208424], [ 1.58157201, -1.18125853, 0.77364867], [ 1.19925864, 1.03371571, 1.11650254], [-0.31157359, 2.07659653, -0.3801554 ]]) #这是第一个a.T的结果 AttributeError: 'numpy.ndarray' object has no attribute 'I' #a.I会报错,因为数组没有这个参数 matrix([[ 0.48687424, 0.06555841, -0.68032801], #a = np.mat(a)将数组变成矩阵,所以这时a.i才有输出 [ 0.47857106, -0.14676465, -0.23285881], [-0.04159389, 0.22476055, 0.63790475], [-0.12424659, 0.23001231, 0.13294199]])
连接和分割数组
a = np.arange(6).reshape(2,3) b = np.arange(6,12) .reshape(2,3) a1 = np.concatenate([a,b]) #默认axis=0 相当于vstack a2 = np.concatenate([a,b],axis=1) #相当于hstack
array([[ 0, 1, 2], [ 3, 4, 5], [ 6, 7, 8], [ 9, 10, 11]]) array([[ 0, 1, 2, 6, 7, 8], [ 3, 4, 5, 9, 10, 11]])
a,b,c,d=np.split(a1,[ 1,2,3 ] # 就是切片 ) 默认axis=0 # 以此类推 a,b,c = np.split(a2,[2,4],axis = 1)
只打印第一个a
a = array([[0, 1, 2]]) a = array([[0, 1], [3, 4]])
重复元素 tile 和repeat
牛逼的take和put
思考题
1.现在我们新建一个数组 a, 如下所示, 请取出其中 元素值大于1000且小于2000 的所有元素 并改为0,其他为1
a = np.arange(0,3000,5)
a[(a>1000)&(a<2000)] = 0
a[~((a>1000)&(a<2000))] = 1
2.使用random.randn创建 10*10 将所有小于0 的值替换为 0, 最后求每一列的均值
a = np.random.rand(10,10) a[(a<0)] = 0 a.mean(0)
··· END ···
感谢您的关注,毛利期待跟大家共同进步。
长按识别二维码关注