基本数据集操作
(1)读取 CSV 格式的数据集
1 | pd.read_csv('csv_file') |
(2)将 DataFrame 直接写入 CSV 文件
1 | df.to_csv("data.csv", sep=",", index=False) |
(3)基本的数据集特征信息
1 | df.info() |
(4) 基本的数据集统计信息
1 | df.describe() |
(5)Print data frame in a table
1 | print(tabulate(print_table, headers=headers)) |
(6)列出所有列的名字
1 | df.columns |
基本数据处理
(1)删除缺失数据
1 | new_df = df.dropna(axis=0, how='any') |
(2)替换缺失数据
1 | df.replace(to_replace=None, value=None) |
(3)检查空值 NaN
1 | pd.isnull(object) |
(4)删除特征
1 | new_df = df.drop('feature_variable_name', axis=1) |
(5)将目标类型转换为浮点型
1 | pd.to_numeric(df["feature_name"], errors='coerce') |
(6)将 DataFrame 转换为 NumPy 数组
1 | new_df = df.as_matrix() |
(7)取 DataFrame 的前面「n」行
1 | df.head(n) |
(8)通过特征名取数据
1 | df.loc[feature_name] |
DataFrame 操作
(1)对 DataFrame 使用函数
1 | # 该函数将令 DataFrame 中「height」行的所有值乘上 2 |
(2)重命名行
1 | # 下面代码会重命名 DataFrame 的第三行为「size」 |
(3)取某一行的唯一实体
1 | df["name"].unique() |
(3)访问子 DataFrame
1 | new_df = df[["name", "size"]] |
(4)总结数据信息
1 | # Sum of values in a data frame |
(5)给数据排序
1 | df.sort_values(ascending = False) |
(6)索引
1 | df[df["size"] == 5] |
(7) 选值
1 | df.loc([0], ['size']) |