Pandas 教程
1. 安装和导入Pandas
首先,确保你已经安装了Pandas。如果尚未安装,可以使用以下命令进行安装:
!pip install pandas
安装完成后,你可以通过以下代码导入Pandas库:
import pandas as pd
2. 核心数据结构
Pandas的两个核心数据结构是Series
和DataFrame
。
-
Series :一维标签化数组,可以存储各种数据类型。
-
DataFrame :二维表格型数据结构,由多个
Series
组成,每一列可以是不同的数据类型。
3. 创建Series和DataFrame
创建一个Series
的例子:
import pandas as pd
steps = pd.Series([6000, 8000, 10000, 12000, 7000])
print(steps)
创建一个DataFrame
的例子:
data = {
'姓名': ['小明', '小红', '小华'],
'年龄': [18, 20, 19],
'成绩': [85, 92, 78]
}
df = pd.DataFrame(data)
print(df)
4. 数据操作基础
-
选择数据 :使用
df[column_name]
选择单列数据。 -
条件筛选 :使用布尔索引进行条件筛选,例如
df[df['工资'] > 10000]
。
5. 数据导入导出
Pandas支持多种文件格式的读写,例如CSV和Excel:
- 读取CSV文件:
df = pd.read_csv('data.csv')
- 读取Excel文件(需要安装
openpyxl
包):
df = pd.read_excel('data.xlsx')
- 保存为CSV:
df.to_csv('output.csv', index=False)
6. 数据清洗和转换
Pandas提供了丰富的数据清洗和转换功能,例如:
-
删除空值:
df.dropna()
-
填充空值:
df.fillna(value)
-
重命名列:
df.rename(columns={'old_name': 'new_name'})
-
转换数据类型:
df['column_name'] = df['column_name'].astype('new_type')
7. 高级用法
Pandas还支持更高级的数据处理功能,如合并数据、统计分析等。
总结
以上是Pandas的基本使用教程,涵盖了安装、数据结构、数据操作、数据导入导出以及数据清洗等基础知识和操作。Pandas的强大功能使其成为数据分析的有力工具。