Pythonデータサイエンスクックブック

(2順目)

レシピ8.6

2項目
dataはpythonの辞書形式に似ている。
data['DESCR']はデータセットの説明
data['target']は506行の配列データたぶんこの数値がMEDV
data['data']は506行、13列の配列データ、13列というのが506行のデータの特徴を数値化したもの
data['feature_names'] 13列の特徴の名前

'CRIM':犯罪発生率
'ZN', :住宅用地の割合？
'INDUS': ？
'CHAS':？
'NOX':一酸化炭素濃度
'RM':平均部屋数
'AGE':住居を所有している人の割合
'DIS':ビジネスセンターへの距離
'RAD':ハイウエイ？
'TAX':税？
'PTRATIO':小学校教師の割合 
'B':？
'LSTAT':低所得者層の割合

(７項) 重要な特徴をヒストグラムで描画
f:id:bitop:20160402080546p:plain
LSTAT要因とMEDVの散布図を描画
f:id:bitop:20160402075232p:plain
逆相関が見て取れる。低所得者の割合が多いと家の価格が下がる
ヒストグラムの最上位はRMなので、RMとMEDVの散布図も描いてみる f:id:bitop:20160402080022p:plain 正の相関が見て取れる。平均部屋数が多い（家が大きい？）と家の価格は上がる