1章 探索的データ解析の概要
省略
2章 データの意味と種類を知れば道が決まる
省略
3章 クリーニングでゴミを取り除け
欠損値を削除
年収データに外れ値がある
外れ値を除去するとき本ではdf = df[df['salary']>800]となっていたが
df = df[df['salary']<800]だと思われる。
箱ヒゲ図
乗船料金にも外れ値があるようでこれも除去
除去後
表記ゆれ
違うデータとして認識される
小文字に統一する
重複除去
ヒートマップを使って重複データを見つける
除去後
4章 データ分析は切り口が全て
統計値
カテゴリデータの統計値
時系列データの統計値
データセットをtipsに変更
ヒストグラム表示
チップ額でレベル分け
5章 データ分析手法 基本の6パターン
データセットはtitanic、ヒストグラム
ビン幅を変えると印象が微妙に変化
性別で重ね合わせる
客室クラスごとの年齢を比較
客室ごとの年齢の箱ヒゲ図
客室ごとの年齢のバイオリン図
ここからデータセットはflights(飛行機の旅客数)
1949年の月ごと
他の年の月ごと
ここからtipsのデータセット
支払い総額とチップの相関関係
喫煙者と非喫煙者で絞り込む
分離して表示
食事の時間帯を絞る
ヒートマップ