Dsb2023coll-denshi
25/32

図2.30:カリフォルニア州の各地区の住宅価格の中央値と世帯収入の中央値の散布図を描画するプログラムと描画結果。各点の色は緯度をあらわす。図2.29:世帯収入と住宅価格のヒストグラム図2.28 各ラベル(列)の平均値25# mean of each columndf.mean()実行結果longitude -119.562108latitude 35.625225housing_median_age 28.589353total_rooms 2643.664412統計処理それぞれのラベル(列)についてデータ数 (count)、平均 (mean)、分散 (var)、標準偏差 (std)などを計算して出力することができます。図2.28では df.mean() によって、データフレームの各ラベル(列)ごとの平均値を計算して出力しています。結果の一部を示します。ヒストグラムの描画散布図の描画 図2.30に、matplotlib を用いて各地区の住宅価格の中央値と世帯収入の中央値の散布図を描いた例を示します。 plt.style.use(‘ggplot’)は、線の色等についてあらかじめ用意されているggplotというスタイルを使用することを指定しています。散布図の各点には緯度に応じて色をつけています。カリフォルニア州の北側の方が世帯収入などが少ないことがわかります。import matplotlib.pyplot as pltplt.figure(figsize=(8,6))plt.style.use('ggplot')plt.scatter('median_house_value','median_income', data=df,c=df['latitude'],cmap='rainbow')plt.xlabel('Median House Value (US $)',fontsize=18)plt.ylabel('Median income (x10000 US $)',fontsize=18)plt.xticks(fontsize=16)plt.yticks(fontsize=16)plt.colorbar().set_label('latitude',fontsize=18)plt.show()DataFrameに対して、ヒストグラムなどを表示する手続きが用意されています。図2.29に各地区の世帯収入と住宅価格の中央値の分布を表示するプログラムと結果を示します。世帯収入は3万ドル、住宅価格は20万ドル程度にピークがあることがわかります。df[['median_income','median_house_value']].hist(bins=40,figsize=(9,3))array([[, ]], dtype=object)

元のページ  ../index.html#25

このブックを見る