Python: Pandas DataFrame的簡單製作方法

Table of Contents

Table of Contents

pandasDataFrame是在做數據分析時很常使用的物件,本文介紹四種常見的方式(NumPydistlistcsv檔案)來建立DataFrame。

DataFrame的組成

主要的組成要素有以下三個。

  • values
  • columns
  • index

columnsindex預設的類型: RangeIndex

DataFrame的建立

使用NumPy來建立DataFrame

  1. 不設定columns, index的值。
import pandas as pd
import numpy as np

df_np1 = pd.DataFrame(np.arange(12).reshape(3, 4))
print(df_np1)
print(type(df_np1))

#    0  1   2   3
# 0  0  1   2   3
# 1  4  5   6   7
# 2  8  9  10  11
# <class 'pandas.core.indexes.range.RangeIndex'>
  1. 設定columns, index的值。
df_np2 = pd.DataFrame(np.arrange(12).reshape(3, 4),
    columns=['col_0', 'col_1', 'col_2'], 
    index=['index_0', 'index_1', 'index_2'])
print(df_np2)
print(type(df_np2))

#          col_0  col_1  col_2  col_3
# index_0      0      1      2      3
# index_1      4      5      6      7
# index_2      8      9     10     11
# <class 'pandas.core.indexes.base.Index'>

有設定columns,index的場合時,columns and index的類型為Index

使用dict建立DataFrame

df_dict = pd.DataFrame({
    'col_0': [0, 1, 2],
    'col_1': [3, 4, 5],
    'col_2': [6, 7, 8]
})
print(df_dict)

#    col_0  col_1  col_2
# 0      0      3      6
# 1      1      4      7
# 2      2      5      8

使用list建立DataFrame

df_list = pd.DataFrame([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print(df_list)

#    0  1  2
# 0  0  1  2
# 1  3  4  5
# 2  6  7  8

使用csv檔案建立DataFrame

df_csv = pd.read_csv('xxx.csv', index_col=0)
print(df_csv)

#     name   age
# id            
# 1    'A'    30
# 2    'B'    31
# 3    'C'    32
# 4    'D'    33
# 5    'E'    34

總結

  • 透過使用NumPydistlistcsv檔案可以建立DataFrame。