Python実践データ分析100本ノックを読む

ノック42 退会前月の退会顧客データを作成しようノック43 継続顧客のデータを作成しようノック44 予測する月の在籍期間を作成しようノック45 欠損値を除去しようノック46 文字型の変数を処理できるようにノック47 決定木を用いて退会予測モデルを作成し…

2019-10-31

Python実践データ分析100本ノックを読む

ノック50 顧客の退会を予測しよう count_1が6と５の間ぐらいが退会するボーダラインのよう

2019-10-30

Python実践データ分析100本ノックを読む

ノック41 退会前日の退会顧客データを作成使用

2019-10-27

Kaggleで勝つデータ分析の技術

2.1.1 回帰タスク真の値と予測を一致させると予測値との偏差に基づく指標なので完全に一致すると0になる。 2.1.2 分類タスク二値分類多クラス分類

2019-10-27

Python実践データ分析100本ノックを読む

ノック31 データを読み込んで確認しよう customertのhead(10) ノック32 クラスタリングで顧客をグループ化しようノック33 クラスタリング結果を分析しようノック34 クラスタリング結果を可視化しようノック35 クラスタリング結果をもとに退会顧客の傾向を…

2019-10-26

Python実践データ分析100本ノックを読む

ノック25 利用履歴データを集計しよう groupby()でas_indexをFalseにしているのはグループラベル (ここでは「年月」、「customer_id」) がindexになるのを抑制している as_indexをTrueにした場合顧客ごとの統計値（平均、中央、最大、最小）ノック26 利用…

2019-10-24

Python実践データ分析100本ノックを読む

ノック21 データを読み込み把握しようノック22 顧客データを整形しようノック23 顧客データの基礎集計をしようノック24 s最新顧客データの基礎集計をしてみよう

2019-10-22

Python実践データ分析100本ノックを読む

ノック16 顧客名の揺れを補正しよう現状補正後ノック17 日付の揺れを補正しよう本のとおりやってみると２日ほどずれがある scriptで変換した結果 WindowS Excelのシリアル値について記述されている http://www.excel.studio-kazu.jp/mwiki/ep_01_serial.…

2019-10-21

Kaggleで勝つデータ分析の技術

1.5.3 モデルの作成 ch01-01-titanic.pyのバリデーション前まで実行してsubmission_first.csvを保存させ Kaggleで評価させた結果 1.5.4 モデルの評価 1.5.5 モデルのチューニング学習するモデルのパラメータをグリットサーチで評価しもっとも高い精度を出…

2019-10-21

Python実践データ分析100本ノックを読む

ノック11 データを読み込んでみよう 1章と同じように欠損値、統計値を見てみる ◆売上テーブル - item_priceに387と多い。他はない。 - 全データが2612なので約15%。 ◆顧客テーブル - 全顧客200名 ◆統計量ノック12 データの揺れを見てみようノック13 データ…

2019-10-20

Python実践データ分析100本ノックを読む

ノック4 データを読み込んでみよう Join後、16カラムとなったので全部表示切れない。ノック5 必要なデータ列を作ろうノック6 データ検算をしようノック7 各種統計量を把握しよう全てのカラムに統計量が出るわけでわなく文字列型データにでていない。時…

2019-10-19

Python実践データ分析100本ノックを読む

ノック1 データを読み込んでみようノック2 データを結合してみようこのときconcatに引数としてignore_indexをTrueにしているがこれはindexを振りなすよう指示している transactionテーブルのカラム transaction_id 取引ごとのid price 取引金額 payment_d…

2019-10-06

Pythonではじめる機械学習

7.9 トピックモデリングと文書クラスラリング 7.9.1 LDA 結果、LatentDirichletAllocationの引数でn_topicsはないと言われたので省略してある

2019-10-06

Pythonではじめる機械学習

7.7 1単語より大きい単位のBag-of-Words（n-グラム）結果バイグラム結果トリグラム結果 TfidfVectorizerを使ったn-グラムかなり時間がかかった、約30分結果 7.8 より進んだトークン分割、語幹処理、見出し語化 spacyとnltkのinstallが必要 en_nlp = s…