Pandas基础

ryluo 2020-06-14 01:29:22
Pandas系列

Datawhale组队学习pandas笔记

文件读取与存储

  1. pandas可以读取的文件类型比较多,大多是偏向表格类的文本,用的比较多的是csv数据,具体的读取可以在需要用的时候再查一下。
  2. df.to_csv(filename, sep=’具体的分割类型’, index=True)这里需要注意的时候需要注意index这个参数,默认是True.如果是True的话会新增加一列保存之前数据的索引。

基本数据结构

对于Series是组成DataFrame的最基本单元,DataFrame的每一列或者一行都是一个Series,下面是Series中使用比较多的属性。(Series和DataFrame都有很多属性,但是常用的就是那些,这里主要是总结使用比较多的属性,对于使用不太多的属性等需要用到的时候再去查一下)。

Series

DataFrame

创建,下面有两种创建DataFrame的方法。

获取一行或者一列

修改行名或列名

常用的属性

索引对齐

删除行或者列

使用drop方法删除行或者列的话,需要重新赋值,才会在原来的数据中删除某行或者某列,不赋值的话就相当于预览删除后的效果。而使用del或者pop方法就直接在原始的数据中删除了某一行或者某一列

新增一列

选择不同的数据类型的列

常用的基本函数

head(), tail()获取前几个和末尾几个数据,里面的数字可以设置需要显示的数据的数量,不写数字的话默认是5个数
unique(), nunique()前者是获取某一列特征中有哪些特征值,后者是某个特征中有哪些特征值
count(), value_counts()前者返回的是某特征中非缺失值的数量,后者返回的是特征取哪些不同的值以及它们的数量
info(), describe()
idxmax(), idxmin(), nlargest, nsmallest
clip(), replace()
apply()方法
索引排序和值排序

问题与练习

问题一:常见的属性和方法非常的多,但是经常用的在上面已经列出来了

问题二:value_counts()不会统计缺失值,他只是会统计每个取值的数量

问题三:与idxmax和nlargest功能相反的两组函数分别是idxmin和nsmallest

问题四:

问题五:

(a)(b)

前两个题目比较简单

(c)

这道题看参考答案没有太看明白,下面是自己的思路

(a)

# 参考答案
# 参考答案给出的就非常的简介,直接将组合后的形式当成一列,然后使用value_counts()统计不同值各有多少个,取最多的就是答案
pd.Series(list(zip(df['action_type'],df['combined_shot_type']))).value_counts().index[0]

(b)

根据参考答案进行一步步的理解