2019-06-17

機械学習のための「前処理」入門

3 潜在ニーズの抽出

3.1 主成分分析とは？

f:id:bitop:20190617054843p:plain

bank_df_pca_0の各成分との相関
f:id:bitop:20190617060513p:plain

bank_df_pca_1の各成分との相関
f:id:bitop:20190617060614p:plain

2019-06-14

機械学習のための「前処理」入門

4章構造化データの前処理(2)

1 顧客の特性を知る

1.3 データの正規化

範囲変換
f:id:bitop:20190614073611p:plain
Z変換
f:id:bitop:20190614073655p:plain
平均ほぼゼロ
f:id:bitop:20190614073756p:plain
標準偏差　ほぼ1
f:id:bitop:20190614073921p:plain

2 顧客のグループ化

2.1 階層型クラスタリング

f:id:bitop:20190614074121p:plain
グループは15に分類されナンバー15がもっとも多い
f:id:bitop:20190614080701p:plain

f:id:bitop:20190614084446p:plain
かなり団子になっているので別々にしてみた
f:id:bitop:20190614084533p:plain
f:id:bitop:20190614084643p:plain
f:id:bitop:20190614084709p:plain
f:id:bitop:20190614084730p:plain
f:id:bitop:20190614084817p:plain
f:id:bitop:20190614084842p:plain
f:id:bitop:20190614084905p:plain
f:id:bitop:20190614084928p:plain
f:id:bitop:20190614084955p:plain
f:id:bitop:20190614085020p:plain
クラスタ数を2にしてみた。
f:id:bitop:20190614085255p:plain

2019-06-11

機械学習のための「前処理」入門

1.4 統計量の計算

f:id:bitop:20190611092658p:plain

f:id:bitop:20190611092734p:plain

1.5 データの可視化（その１）

f:id:bitop:20190611092840p:plain

f:id:bitop:20190611092920p:plain

このplotting.scatter_matrixは比較的新しい
関数のようでpandas version 0.19ではエラーが
でたのでversion(0.24.2)をあげたら描画OKとなった。
f:id:bitop:20190611092951p:plain

value_countsによる頻度(出現率)を算定できる
f:id:bitop:20190611093358p:plain

1.6 データの可視化（その２）

plt.gca()は直前に操作したaxesを取得する関数。
plt.setp()は第一引数のobjectにいろいろ設定するための
ここではaxisの横軸の目盛にラベルを後付け設定している。
f:id:bitop:20190611095206p:plain

2 データ準備

2.2 欠損値の除外

もともとより 300行(4%)除外された
f:id:bitop:20190611100829p:plain

dropnaは通常欠損値が存在する行を削除するがaxis=1と引数を指定すると列を削除できる

2.3欠損値の補完

f:id:bitop:20190611101444p:plain

2.4 外れ値の除外

f:id:bitop:20190611102014p:plain

2.5 文字列を数値へ変換

f:id:bitop:20190611102854p:plain One-Hot表現 f:id:bitop:20190611103114p:plain

2.6 分析データセットの作成

ここでto_csv('bank-prep.csv')として保存したファイルはGoogleDriveではなく
Google Colaboratoryが動作している環境(Linux)の/contentに保存されていた。

3 モデル作成

3.2 不均衡データの均衡化

imbalancedは既に入っていた。
f:id:bitop:20190611110707p:plain
imbalancedにはunder_sampling以外にもbase,exceptions,over_sampling,utilsも実装されているようです。
f:id:bitop:20190611112654p:plain