Dsb2023coll-denshi
24/32
第2部データ解析への応用列行図2.26:california_housing_train.csv の中身図2.27:データファイルの読み込みとサマリーの表示図2.24:DataFrameのデータ形式図2.25:Google Colab上のサンプルデータ各地区の経度、緯度、住宅年齢の中央値、全部屋数、全寝室数、人口、世帯数、世帯収入の中央値(万US $)、住宅価格の中央値(US $)の項目があります。図2.27は pandasを importしてpd.read_csv によってデータファイルをデータフレーム df に読み込むプログラムと実行例です。 df.info()は読み込んだデータのサマリーを表示します。9つのラベル(列)がある17000件のデータが読み込まれています。インターネット等で公開されているデータを読み込んで、解析する方法を紹介します。たとえばe-Statというサイトでは国勢調査結果等が公開されています。天体観測データも、多くの場合、ある期間が過ぎると一般公開されますので、これらをダウンロードして研究等に活用することができます。24import pandas as pddf = pd.read_csv('./sample_data/california_housing_train.csv')df.info()実行結果RangeIndex: 17000 entries, 0 to 16999Data columns (total 9 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 longitude 17000 non-null float64 1 latitude 17000 non-null float64 2 housing_median_age 17000 non-null float64データ解析支援ライブラリ Pythonからは、大規模データ解析を支援するライブラリ pandas が利用できます。 pandas は図2.24に示す DataFrame というデータ形式を用いて、表形式のデータを扱うことができます。この DataFrame に対して平均、分散などの統計処理、並び替え、条件指定による選択、列の挿入・削除、欠損データの除去、補間などの操作ができます。サンプルデータデータの読み込みGoogle Colab の ./sample_data に、データ解析の演習などで用いられるデータが用意されています。図2.25の矢印で示したアイコンをクリックし、 sample_data をクリックします。 california_housing_train.csv に1990年国勢調査に基づくカリフォルニア州の各地区の住宅価格などの情報がcsv形式(項目をカンマで区切った形式)で保存されています。図2.26がその中身です。
元のページ
../index.html#24