2019-10-01から1ヶ月間の記事一覧

Python実践データ分析100本ノックを読む

ノック42 退会前月の退会顧客データを作成しよう ノック43 継続顧客のデータを作成しよう ノック44 予測する月の在籍期間を作成しよう ノック45 欠損値を除去しよう ノック46 文字型の変数を処理できるように ノック47 決定木を用いて退会予測モデルを作成し…

Python実践データ分析100本ノックを読む

ノック50 顧客の退会を予測しよう count_1が6と5の間ぐらいが退会するボーダラインのよう

Python実践データ分析100本ノックを読む

ノック41 退会前日の退会顧客データを作成使用

Kaggleで勝つデータ分析の技術

2.1.1 回帰タスク 真の値と予測を一致させると 予測値との偏差に基づく指標なので完全に 一致すると0になる。 2.1.2 分類タスク 二値分類 多クラス分類

Python実践データ分析100本ノックを読む

ノック31 データを読み込んで確認しよう customertのhead(10) ノック32 クラスタリングで顧客をグループ化しよう ノック33 クラスタリング結果を分析しよう ノック34 クラスタリング結果を可視化しよう ノック35 クラスタリング結果をもとに退会顧客の傾向を…

Python実践データ分析100本ノックを読む

ノック25 利用履歴データを集計しよう groupby()でas_indexをFalseにしているのはグループラベル (ここでは「年月」、「customer_id」) がindexになるのを抑制している as_indexをTrueにした場合 顧客ごとの統計値(平均、中央、最大、最小) ノック26 利用…

Python実践データ分析100本ノックを読む

ノック21 データを読み込み把握しよう ノック22 顧客データを整形しよう ノック23 顧客データの基礎集計をしよう ノック24 s最新顧客データの基礎集計をしてみよう

Python実践データ分析100本ノックを読む

ノック16 顧客名の揺れを補正しよう 現状 補正後 ノック17 日付の揺れを補正しよう 本のとおりやってみると2日ほどずれがある scriptで変換した結果 WindowS Excelのシリアル値について記述されている http://www.excel.studio-kazu.jp/mwiki/ep_01_serial.…

Kaggleで勝つデータ分析の技術

1.5.3 モデルの作成 ch01-01-titanic.pyのバリデーション前まで実行してsubmission_first.csvを保存させ Kaggleで評価させた結果 1.5.4 モデルの評価 1.5.5 モデルのチューニング 学習するモデルのパラメータをグリットサーチで評価し もっとも高い精度を出…

Python実践データ分析100本ノックを読む

ノック11 データを読み込んでみよう 1章と同じように欠損値、統計値を見てみる ◆売上テーブル - item_priceに387と多い。他はない。 - 全データが2612なので約15%。 ◆顧客テーブル - 全顧客200名 ◆統計量 ノック12 データの揺れを見てみよう ノック13 データ…

Python実践データ分析100本ノックを読む

ノック4 データを読み込んでみよう Join後、16カラムとなったので全部表示切れない。 ノック5 必要なデータ列を作ろう ノック6 データ検算をしよう ノック7 各種統計量を把握しよう 全てのカラムに統計量が出るわけでわなく 文字列型データにでていない。 時…

Python実践データ分析100本ノックを読む

ノック1 データを読み込んでみよう ノック2 データを結合してみよう このときconcatに引数としてignore_indexをTrueにしているが これはindexを振りなすよう指示している transactionテーブルのカラム transaction_id 取引ごとのid price 取引金額 payment_d…

Pythonではじめる機械学習

7.9 トピックモデリングと文書クラスラリング 7.9.1 LDA 結果、LatentDirichletAllocationの引数でn_topicsはないと言われたので省略してある

Pythonではじめる機械学習

7.7 1単語より大きい単位のBag-of-Words(n-グラム) 結果 バイグラム 結果 トリグラム 結果 TfidfVectorizerを使ったn-グラム かなり時間がかかった、約30分 結果 7.8 より進んだトークン分割、語幹処理、見出し語化 spacyとnltkのinstallが必要 en_nlp = s…

Pythonではじめる機械学習

7.4 ストップワード 結果 STOP WORDSを入れた結果、特徴量が減っている STOP WORDSを入れた評価 結果 7.5 tf-idfを用いたデータのスケール変換 結果 重要な言葉を抽出する 結果、tfidfが低い、高い特徴量(言葉)

Pythonではじめる機械学習

7.3.2 映画レビューのBoW 結果 交差検証でパラメータチューニング 結果 結果 パラメータmin_dfで調整 結果 74849->27271 63%削減 抽出された特徴量となる単語を見てみる 結果 交差検証で精度を測定 結果、精度自体は変わらず

Pythonではじめる機械学習

7.3.2 映画レビューのBoW 結果、全部で7分かかった。たぶん読み込みに時間がかかっているのでは 結果