kaggleで上位に入るための探索的データ解析入門
1章 探索的データ解析の概要
省略
2章 データの意味と種類を知れば道が決まる
省略
3章 クリーニングでゴミを取り除け
欠損値を削除


年収データに外れ値がある

外れ値を除去するとき本ではdf = df[df['salary']>800]となっていたが
df = df[df['salary']<800]だと思われる。


箱ヒゲ図

乗船料金にも外れ値があるようでこれも除去

除去後

表記ゆれ

違うデータとして認識される

小文字に統一する

重複除去


ヒートマップを使って重複データを見つける

除去後

4章 データ分析は切り口が全て

統計値

カテゴリデータの統計値

時系列データの統計値

データセットをtipsに変更

ヒストグラム表示

チップ額でレベル分け

5章 データ分析手法 基本の6パターン
データセットはtitanic、ヒストグラム

ビン幅を変えると印象が微妙に変化

性別で重ね合わせる

客室クラスごとの年齢を比較

客室ごとの年齢の箱ヒゲ図

客室ごとの年齢のバイオリン図

ここからデータセットはflights(飛行機の旅客数)

1949年の月ごと

他の年の月ごと

ここからtipsのデータセット
支払い総額とチップの相関関係

喫煙者と非喫煙者で絞り込む

分離して表示

食事の時間帯を絞る

ヒートマップ
