読者です 読者をやめる 読者になる 読者になる

Pythonデータサイエンスクックブック

(2順目)

レシピ8.6

2項目
dataはpythonの辞書形式に似ている。
data['DESCR']はデータセットの説明
data['target']は506行の配列データ たぶんこの数値がMEDV
data['data']は506行、13列の配列データ、13列というのが506行のデータの特徴を数値化したもの
data['feature_names'] 13列の特徴の名前

'CRIM':犯罪発生率
'ZN', :住宅用地の割合?
'INDUS': ?
'CHAS':?
'NOX':一酸化炭素濃度
'RM':平均部屋数
'AGE':住居を所有している人の割合
'DIS':ビジネスセンターへの距離
'RAD':ハイウエイ?
'TAX':税?
'PTRATIO':小学校教師の割合 
'B':?
'LSTAT':低所得者層の割合 

(7項) 重要な特徴をヒストグラムで描画
f:id:bitop:20160402080546p:plain
LSTAT要因とMEDVの散布図を描画
f:id:bitop:20160402075232p:plain
逆相関が見て取れる。低所得者の割合が多いと家の価格が下がる
ヒストグラムの最上位はRMなので、RMとMEDVの散布図も描いてみる f:id:bitop:20160402080022p:plain 正の相関が見て取れる。平均部屋数が多い(家が大きい?)と家の価格は上がる