kaggleで上位に入るための探索的データ解析入門

1章 探索的データ解析の概要

 省略

2章 データの意味と種類を知れば道が決まる

 省略

3章 クリーニングでゴミを取り除け

欠損値を削除

f:id:bitop:20200425101524p:plain
f:id:bitop:20200425101834p:plain

年収データに外れ値がある

f:id:bitop:20200425102032p:plain
外れ値を除去するとき本ではdf = df[df['salary']>800]となっていたが
df = df[df['salary']<800]だと思われる。
f:id:bitop:20200425102238p:plain
f:id:bitop:20200425102259p:plain
箱ヒゲ図
f:id:bitop:20200425102351p:plain
乗船料金にも外れ値があるようでこれも除去
f:id:bitop:20200425102511p:plain
除去後
f:id:bitop:20200425102614p:plain
表記ゆれ
f:id:bitop:20200425102719p:plain
違うデータとして認識される
f:id:bitop:20200425102807p:plain
小文字に統一する
f:id:bitop:20200425102840p:plain
重複除去
f:id:bitop:20200425103123p:plain
f:id:bitop:20200425103147p:plain
ヒートマップを使って重複データを見つける
f:id:bitop:20200425103313p:plain
除去後
f:id:bitop:20200425103344p:plain

4章 データ分析は切り口が全て

f:id:bitop:20200425103420p:plain
統計値
f:id:bitop:20200425103527p:plain
カテゴリデータの統計値
f:id:bitop:20200425103538p:plain
時系列データの統計値
f:id:bitop:20200425103638p:plain
データセットをtipsに変更
f:id:bitop:20200425103715p:plain
ヒストグラム表示
f:id:bitop:20200425103811p:plain
チップ額でレベル分け
f:id:bitop:20200425103918p:plain

5章 データ分析手法 基本の6パターン

データセットはtitanic、ヒストグラム
f:id:bitop:20200425104033p:plain
ビン幅を変えると印象が微妙に変化
f:id:bitop:20200425104203p:plain
性別で重ね合わせる
f:id:bitop:20200425104247p:plain
客室クラスごとの年齢を比較
f:id:bitop:20200425104334p:plain
客室ごとの年齢の箱ヒゲ図
f:id:bitop:20200425104443p:plain
客室ごとの年齢のバイオリン図
f:id:bitop:20200425104526p:plain
ここからデータセットはflights(飛行機の旅客数)
f:id:bitop:20200425104651p:plain
1949年の月ごと
f:id:bitop:20200425104734p:plain
他の年の月ごと
f:id:bitop:20200425104815p:plain
ここからtipsのデータセット
支払い総額とチップの相関関係
f:id:bitop:20200425104944p:plain
喫煙者と非喫煙者で絞り込む
f:id:bitop:20200425105014p:plain
分離して表示
f:id:bitop:20200425105515p:plain
食事の時間帯を絞る
f:id:bitop:20200425105603p:plain
ヒートマップ
f:id:bitop:20200425105631p:plain