(2順目)
レシピ8.6
2項目
dataはpythonの辞書形式に似ている。
data['DESCR']はデータセットの説明
data['target']は506行の配列データ たぶんこの数値がMEDV
data['data']は506行、13列の配列データ、13列というのが506行のデータの特徴を数値化したもの
data['feature_names'] 13列の特徴の名前
'CRIM':犯罪発生率
'ZN', :住宅用地の割合?
'INDUS': ?
'CHAS':?
'NOX':一酸化炭素濃度
'RM':平均部屋数
'AGE':住居を所有している人の割合
'DIS':ビジネスセンターへの距離
'RAD':ハイウエイ?
'TAX':税?
'PTRATIO':小学校教師の割合
'B':?
'LSTAT':低所得者層の割合
(7項)
重要な特徴をヒストグラムで描画
LSTAT要因とMEDVの散布図を描画
逆相関が見て取れる。低所得者の割合が多いと家の価格が下がる
ヒストグラムの最上位はRMなので、RMとMEDVの散布図も描いてみる
正の相関が見て取れる。平均部屋数が多い(家が大きい?)と家の価格は上がる