Python数据分析与展示_2_Numpy库入门

数据维度

一维数据

一维数据由对等关系的有序或无序数据构成，采用线性方式组织
对应列表、数组和集合等概念

列表：数据类型可以不同
数组：数据类型相同
二维数据
二维数据由多个一维数据构成，是一维数据的组合形式

表格是典型的二维数据
其中，表头是二维数据的一部分

多维数据

多维数据由一维或二维数据在新维度上扩展形成

高维数据

高维数据仅利用最基本的二元关系展示数据间的复杂结构

{
"firstName" : "Tian" ,
"lastName" : "Song" ,
"address"  : {
"streetAddr" : "中关村南大街5号" ,
"city"  : "北京市" ,
"zipcode"  : "100081"
} ,
"prof"  : [ "Computer System" , "Security" ]
}
#键值对

数据维度的Python表示

一维数据：列表和集合类型
数据维度是数据的组织形式
二维数据：列表类型
多维数据：列表类型
高维数据：字典类型或数据表示格式
JSON、XML和YAML格式

Numpy

Numpy开源Python科学计算基础库，是SciPy,Pandas等数据处理或科学计算库的基础

一个强大的N位数组对象ndarray
广播功能函数
整合C/C++/Fortran代码的工具
线性代数，傅里叶变换，随机数生成等功能

n维数组对象

np.array()生成一个ndarray数组
Python已有列表类型，为什么需要一个数组对象(类型)？

例：计算 A 2 +B 3 ，其中，A和B是一维数组

#常规写法
def pySum():
    a=[0,1,2,3,4]
    b=[9,8,7,6,5]
    c=[]
    for i in range(len(a)):
        c.append(a[i)**2+b[i]**3)
    return c
print(pySum())

#numpy写法：
import numpy as np
def npSum():
    a=np.array([0,1,2,3,4])
    b=np.array([9,8,7,6,5])
    c=a**2+b**3
    return c
print(npSum())

Python已有列表类型，为什么需要一个数组对象(类型)？

数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据
设置专门的数组对象，经过优化，可以提升这类应用的运算速度
观察：科学计算中，一个维度所有数据的类型往往相同
数组对象采用相同的数据类型，有助于节省运算和存储空间
ndarry构成：
ndarray是一个多维数组对象，由两部分构成：
- 实际的数据
- 描述这些数据的元数据（数据维度、数据类型等）

ndarray数组一般要求所有元素类型相同（同质），数组下标从0开始

a=np.array([[0,1,2,3,4],[9,8,7,6,5]])
a
Out: 
array([[0, 1, 2, 3, 4],
       [9, 8, 7, 6, 5]])
# np.array()输出成[]形式，元素由空格分割
print(a)
[[0 1 2 3 4]
 [9 8 7 6 5]]

轴(axis): 保存数据的维度；秩(rank)：轴的数量

ndarray对象的属性

属性

说明

.ndim

秩，即轴的数量或维度的数量

.shape

ndarray对象的尺度，对于矩阵，n行m列

.size

ndarray对象元素的个数，相当于.shape中n*m的值

.dtype

ndarray对象的元素类型

.itemsize

ndarray对象中每个元素的大小，以字节为单位

a.ndim
Out[136]: 2

a.shape
Out[137]: (2, 5)

a.size
Out[138]: 10

a.dtype
Out[139]: dtype('int32')

a.itemsize
Out[140]: 4

ndarray数组的元素类型

数据类型	说明
bool	布尔类型，True或False
intc	与C语言中的int类型一致，一般是int32或int64
intp	用于索引的整数，与C语言中ssize_t一致，int32或int64
int8	字节长度的整数，取值：[‐128, 127]
int16	16位长度的整数，取值：[‐32768, 32767]
int32	32位长度的整数，取值：[‐2 31 , 2 31 ‐1]
int64	64位长度的整数，取值：[‐2 63 , 2 63 ‐1]
uint8	8位无符号整数，取值：[0, 255]
uint16	16位无符号整数，取值：[0, 65535]
uint32	32位无符号整数，取值：[0, 2 32 ‐1]
uint64	32位无符号整数，取值：[0, 2 64 ‐1]
float16	16位半精度浮点数：1位符号位，5位指数，10位尾数
float32	32位半精度浮点数：1位符号位，8位指数，23位尾数
float64	64位半精度浮点数：1位符号位，11位指数，52位尾数
complex64	复数类型，实部和虚部都是32位浮点数
complex128	复数类型，实部和虚部都是64位浮点数

ndarray为什么要支持这么多种元素类型？

对比：Python语法仅支持整数、浮点数和复数3种类型

科学计算涉及数据较多，对存储和性能都有较高要求
对元素类型精细定义，有助于NumPy合理使用存储空间并优化性能

对元素类型精细定义，有助于程序员对程序规模有合理评估

非同质的ndarray对象

# ndarray数组可以由非同质对象构成
x=np.array([[0,1,2,3,4],[9,8,7,6]])
x.shape
Out[143]: (2,)
# 非同质ndarray元素为对象类型
x.dtype
Out[144]: dtype('O')

x
Out[145]: array([list([0, 1, 2, 3, 4]), list([9, 8, 7, 6])], dtype=object)

x.itemsize
Out[146]: 8

x.size
Out[147]: 2
# 非同质ndarray对象无法有效发挥NumPy优势，尽量避免使用

ndarray数组的创建

方法

从Python中的列表、元组等类型创建ndarray数组
使用NumPy中函数创建ndarray数组，如：arange, ones, zeros等
从字节流（raw bytes）中创建ndarray数组
从文件中读取特定格式，创建ndarray数组

从Python中的列表、元组等类型创建ndarray数组

x = np.array(list/tuple)
x = np.array(list/tuple, dtype=np.float32)
当np.array()不指定dtype时，NumPy将根据数据情况关联一个dtype类型

# 由列表类型创建
x=np.array([1,2,3,4])
print(x)
[1 2 3 4]
# 元组类型创建
x=np.array((4,5,6,7))
print(x)
[4 5 6 7]
#列表元组混合创建
x=np.array([[1,2],[8,9],(0.1,0.2)])

print(x)
[[1.  2. ]
 [8.  9. ]
 [0.1 0.2]]

使用NumPy中函数创建ndarray数组，如：arange, ones, zeros等

函数

说明

np.arange(n)

类似range()函数，返回ndarray类型，元素从0到n‐1

np.ones(shape)

根据shape生成一个全1数组，shape是元组类型

np.zeros(shape)

根据shape生成一个全0数组，shape是元组类型

np.full(shape,val)

根据shape生成一个数组，每个元素值都是val

np.eye(n)

创建一个正方的n*n单位矩阵，对角线为1，其余为0

np.ones_like(a)

根据数组a的形状生成一个全1数组

np.zeros_like(a)

根据数组a的形状生成一个全0数组

np.full_like(a,val)

根据数组a的形状生成一个数组，每个元素值都是val

np.linspace()

根据起止数据等间距地填充数据，形成数组

np.concatenate()

将两个或多个数组合并成一个新的数组

np.ones((3,6))
Out[9]: 
array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

np.zeros((3,6),dtype=np.int32)
Out[11]: 
array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

np.eye(5)
Out[12]: 
array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

x=np.ones((2,3,4))

print(x)
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]
 
x.shape
out:(2,3,4)

#等间距生成4个数，默认生成浮点数
a=np.linspace(1,10,4)
a
Out[18]: array([ 1.,  4.,  7., 10.])
# 末位不为10
b=np.linspace(1,10,4,endpoint=False)
b
Out[20]: array([1.  , 3.25, 5.5 , 7.75])

# 合并两个数组
c=np.concatenate((a,b))
c
Out[22]: array([ 1.  ,  4.  ,  7.  , 10.  ,  1.  ,  3.25,  5.5 ,  7.75])

ndarray数组的变换

对于创建后的ndarray数组，可以对其进行维度变换和元素类型变换

方法	说明
.reshape(shape)	不改变数组元素，返回一个shape形状的数组，原数组不变
.resize(shape)	与.reshape()功能一致，但修改原数组
.swapaxes(ax1,ax2)	将数组n个维度中两个维度进行调换
.flatten()	对数组进行降维，返回折叠后的一维数组，原数组不变

ndarray数组的维度变换

a
Out: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

a.resize((3,8))

a
Out: 
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

a.flatten()
Out: 
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1])

ndarray数组的类型变换

 a
Out[33]: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

b=a.astype(np.float)

b
Out[35]: 
array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])
        
# astype()方法一定会创建新的数组（原始数据的一个拷贝），即使两个类型一致

ndarray数组向列表转换

a=np.full((2,3,4),25,dtype=np.int32)

a
Out[37]: 
array([[[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]],

       [[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]]])

a.tolist()
Out[38]: 
[[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]],
 [[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]]]

ndarray数组的操作

数组的索引和切片

# 一维数组的索引和切片：与Python的列表类似
a=np.array([9,8,7,6,5])

a[2]
Out: 7
# 起始编号:步长，3元素冒号分隔
a[1:4:2]
Out: array([8, 6])

# 多维数组的索引
a=np.arange(24).reshape((2,3,4))

a
Out: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[1,2,3]
Out: 23

a[0,1,2]
Out: 6

a[-1,-2,-3]
Out: 17

多维数组的切片

a
Out[50]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[:,1,-3]
Out[51]: array([ 5, 17])

a[:,1:3,:]
Out[52]: 
array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[:,:,::2]
Out[53]: 
array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

ndarry数组的运算

a
Out[55]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])
# 元素平均值
a.mean()
Out[56]: 11.5

a=a/a.mean()
# 数组与标量之间的运算作用于数组的每一个元素
a
Out[58]: 
array([[[0.        , 0.08695652, 0.17391304, 0.26086957],
        [0.34782609, 0.43478261, 0.52173913, 0.60869565],
        [0.69565217, 0.7826087 , 0.86956522, 0.95652174]],

       [[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
        [1.39130435, 1.47826087, 1.56521739, 1.65217391],
        [1.73913043, 1.82608696, 1.91304348, 2.        ]]])

Numpy一元函数

对ndarray中的数据执行元素级运算的函数

函数

说明

np.abs(x) np.fabs(x)

计算数组各元素的绝对值

np.sqrt(x)

计算数组各元素的平方根

np.square(x)

计算数组各元素的平方np.log(x) np.log10(x)

np.log2(x)

计算数组各元素的自然对数、10底对数和2底对数

np.ceil(x) np.floor(x)

计算数组各元素的ceiling值或 floor值

np.rint(x)

计算数组各元素的四舍五入值

np.modf(x)

将数组各元素的小数和整数部分以两个独立数组形式返回

np.exp(x)

计算数组各元素的指数值

np.sign(x)

计算数组各元素的符号值，1(+), 0, ‐1(‐)

np.cos(x) np.cosh(x)np.sin(x) np.sinh(x)np.tan(x) np.tanh(x)

计算数组各元素的普通型和双曲型三角函数

a
Out: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])
        
np.square(a)
Out[63]: 
array([[[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121]],

       [[144, 169, 196, 225],
        [256, 289, 324, 361],
        [400, 441, 484, 529]]], dtype=int32)

a=np.sqrt(a)
a
Out[65]: 
array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

np.modf(a)
Out[66]: 
(array([[[0.        , 0.        , 0.41421356, 0.73205081],
         [0.        , 0.23606798, 0.44948974, 0.64575131],
         [0.82842712, 0.        , 0.16227766, 0.31662479]],
 
        [[0.46410162, 0.60555128, 0.74165739, 0.87298335],
         [0.        , 0.12310563, 0.24264069, 0.35889894],
         [0.47213595, 0.58257569, 0.69041576, 0.79583152]]]),
 array([[[0., 1., 1., 1.],
         [2., 2., 2., 2.],
         [2., 3., 3., 3.]],
 
        [[3., 3., 3., 3.],
         [4., 4., 4., 4.],
         [4., 4., 4., 4.]]]))

Numpy二元函数

header 1

header 2

函数

说明

+ ‐ * / **

两个数组各元素进行对应运算

np.maximum(x,y) np.fmax()np.minimum(x,y) np.fmin()

元素级的最大值/最小值计算

np.mod(x,y)

元素级的模运算

np.copysign(x,y)

将数组y中各元素值的符号赋值给数组x对应元素

> < >= <= == !=

算术比较，产生布尔型数组

a=np.arange(24).reshape((2,3,4))

b=np.sqrt(a)

a
Out[69]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

b
Out[70]: 
array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

np.maximum(a,b)
Out[71]: 
array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]])

a>b
Out[72]: 
array([[[False, False,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]])

小结

ndarray类型属性、创建和变换
.ndim
.shape
.size
.dtype
.itemsize

.reshape(shape)
.resize(shape)
.swapaxes(ax1,ax2)
.flatten()

数组的索引
和切片
数组的运算
一元函数
二元函数
np.arange(n)
np.ones(shape)
np.zeros(shape)
np.full(shape,val)
np.eye(n)
np.ones_like(a)
np.zeros_like(a)
np.full_like(a,val)