KAMEYA_WORKS
pandas
はPythonのデータ分析ライブラリであり、表形式のデータを効率的に扱うことができます。本章では、pandas
の基本的なデータ構造であるSeries
とDataFrame
について解説します。
Series
の基本Series
は1次元のデータ構造で、インデックスと値を持ちます。
import pandas as pd
# リストからSeriesを作成
s = pd.Series([10, 20, 30, 40])
print(s)
出力例:
0 10
1 20
2 30
3 40
dtype: int64
インデックスを指定することもできます。
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(s)
a 10
b 20
c 30
d 40
dtype: int64
個別の要素にアクセスできます。
print(s['b']) # 20
DataFrame
の基本DataFrame
は表形式のデータ構造で、行と列を持ちます。
DataFrame
の作成リストや辞書からDataFrame
を作成できます。
# 辞書からDataFrameを作成
data = {'名前': ['Alice', 'Bob', 'Charlie'], '年齢': [25, 30, 35], '得点': [85, 90, 95]}
df = pd.DataFrame(data)
print(df)
名前 年齢 得点
0 Alice 25 85
1 Bob 30 90
2 Charlie 35 95
特定の列を取得:
print(df['名前'])
特定の行を取得:
print(df.loc[1]) # インデックスで指定
条件でデータをフィルタリング:
print(df[df['年齢'] > 25])
新しい列を追加:
df['身長'] = [160, 175, 180]
print(df)
列を削除:
df = df.drop(columns=['得点'])
print(df)
pandas
には便利な統計関数が用意されています。
print(df.describe()) # 数値データの統計情報
print(df.info()) # データの概要
Series
は1次元のデータを扱うDataFrame
は表形式のデータを扱うpandas
を活用することで、データ分析がより簡単に行えます。