python 数据处理笔记pandas(一)

pandas是进行数据处理的十分流行的第三方库

pandas提供了:

  1. 便于操作数据的数据类型,即提供了高效的数据类型
  2. 很多的分析函数和分析工具,优雅的数据分析的操作

基于NumPy实现的一个扩展库。

pandas主要提供了两个数据类型:

  • Series —— 相当于一个一维的数据类型
  • DataFrame — — 相当于一个多维的数据类型
NumPy Pandas
基础数据类型 扩展数据类型
关注数据的结构表达 关注数据的应用表达
注重维度:数据之间的关系 注重索引:数据与索引之间的关系

###两种数据类型

Series

Series由一组数据和它的索引组成

index_0 —> data_a

index_1 —> data_b

index_2 —> data_c

值得类型可以相同,可以不同

可以接收生成Series对象的值有:array-like,列表,字典,ndarray……

DataFrame

  1. 一个表格型的数据类型,每列值得类型可以不同
  2. 既有行索引,又有列索引;每一行的索引成为Index,每一列的索引称为column
  3. 可以表达二维或者多维数据

可由如下类型创建

  • 二维的ndarray对象
  • 一维的ndarray,列表,字典,元组或者Series构成的字典
  • Series类
  • 其他的DataFrame类型
1
2
3
4
5
import pandas as pd
import numpy as np
db = pd.DataFrame(np.arange(16).reshape(4,4))
db[2]#输出第3列
db.ix[1]#输出第2行

对于一个DataFrame对象d

1
2
3
4
5
6
7
8
9
10
#d.index和d.columns的类型都是Index类
d.index
>>> RangeIndex(start=0, stop=4, step=1)
type(d.index)
>>> pandas.indexes.range.RangeIndex
d.columns
>>> Index([0, 1, 'new', 2, 3], dtype='object')
type(d.columns)
>>> pandas.indexes.base.Index
#Index对象是不可修改的类型

NOTICE:也就是说Series和DataFrame的索引都是Index类型,而不是整数或者其他的String等类


数据类型的操作

待续……