Python CSVファイル操作(リスト格納)

はじめに

Pythonでデータ分析を行うために、まず初めにマスターしたいことはデータセットの読み込みです。データは様々なフォーマット形式のファイルにセーブされています。エクセル、CSV、JSONなどなど。今回は利用することの多いCSV(comma-separated values)についてその操作方法を解説します。CSVは基本的にカンマ区切りのテキストデータなので、OSを問わず使用できるのが特徴です。  

データセット

scikit-learnには、学習用のデータセットがいくつか用意されています。今回はその中でも有名なアイリスのデータを用いて分析してみます。アイリスの寸法データを150セット収納したものです。入門編としてちょうどよいので、このデータを使ってみましょう。 このデータは以下のリンクから入手可能です。

今回はこのデータをCSV化したデータを使用します。以下のリンクからダウンロードできます。 iris.csv  

データを読み込む

上記のファイルをダウンロードしたら、カレントディレクトリにファイルを移動してください。 ・csvファイルをopen関数で読み込みファイルオブジェクトを作成します。(3行目) ・そのファイルオブジェクトをcsv.readerに読み込ませています。(4行目) ・nextコマンドでヘッダを抽出し表示(5,6行目) ・rowはリストです。繰り返し全表示しています(7行目)

 

リストを1行ずつ取り出す

上のコードの場合、リストを一括で取り出します。データ解析を行う場合、データを1行ずつ取り出したいときがあると思います。その時は以下のコードでリストを1行ずつ取り出すことができます。

まとめ CSVファイルを読み込みリストに格納する方法を解説しました。CSVファイルはこのほか、Pandas,Numpyでデータを格納したほうがデータ解析しやすい面もあるので、今後解説したいと思います。