Pythonでデータ分析を行う際には基本のデータ構造を理解しておく必要がある。
scikit-learnなどのフレームワークは特定のデータ構造を入力とすることを前提にしている。用意したデータがフレームワークに適合したデータ構造に作り替えるためにはPythonで用意されているデータ構造とその操作を理解することが重要である。pandas、scikit-learnに取り組む前に必ずデータ構造の種類とその特徴を理解しておく。
異なったデータ構造を見るときには次の視点から区別するとよい。
- 固定長か可変長か
- 変更可能か
- 含まれる要素は一種類の型か複数の型か
- データ構造を作るときの括弧およびセパレータ
Pythonで機械学習をする際に理解すべきデータ構造は4つある。
- タプル
- リスト
- 辞書
- セット