ノック91 データを読み込んで把握しよう
ノック84 画像のどこに人がいるのか検出してみよう ノック85 画像の人の課を検出してみよう ノック86 画像内の人がどこに顔を向けているか検出しよう dlibがinstallできなかったのでpass ノック87 検出した情報を統合し、タイムプラスを作ってみよう 早い、…
ノック81 画像データを読み込んでみよう ノック81 画像データを読み込んでみよう
ノック76 実データを読み込んでみよう ノック77 リンク数の分布を可視化しよう ノック78 シミュレーションのため実データからパラメータを推定しよう
ノック74 会員数の時系列変化をジュミレーションをシミュレーションしてみよう 100回 1000回 percent_percolactionを0.1->0.2に変更,会員数が安定 ノック75 パラメータの全体像を「相図」を見ながら把握しよう
ノック73 口コミ数の時系列変化をグラフ化してみよう
電池駆動で温度・湿度をを1分周期で測定。DeepSleephaを使用した動作を検証 単三アルカリ電池4個で電圧は約1.63V(平均値)。設置後30日ほどで停止 停止後の乾電池の電圧は0.973V(平均値)全体の電圧は0.973*4=3.892V。 4Vを切ると停止の様子。 温度、湿…
ノック71 人間関係のネットワークを可視化してみよう ノック72 口コミによる情報伝播の様子を可視化してみよう
ノック69 最適ネットワークにおける輸送コストとその内訳を計算しよう ノック70 最適ネットワークにおける生産コストとその内訳を計算しよう
電池駆動で温度・湿度をを1分周期で測定。DeepSleepha使わない単純間欠動作を検証 単三アルカリ電池4個で電圧は約1.63V(平均値)。設置後12日ほどで停止 停止後の乾電池の電圧は0.983V(平均値)全体の電圧は0.983*4=3.932V。 4Vを切ると停止の様子。 温…
ノック67 最適生産計画が制約条件内に収まっているかどうかを確認しよう ノック68 ロジスティクスネットワーク設計問題を解いてみよう
ノック61 輸送最適化問題を解いてみよう ノック62 最適輸送ルートをネットワークで確認してみよう df_trをread_csvで読み込むようになっているがこれではノック61で 行った結果が反映されない。図7-3に書かれているように ノック61をおこなったあとdf_tr_sol…
ノック52 現状の輸送量、コストを確認しよう ノック53 ネットワークを可視化してみよう ノック54 ネットワークにノードを追加してみよう ノック55 ルートの重み付けを実施してみよう ノック56 輸送ルート情報を読み込んでみよう ノック57 輸送ルート情報から…
物流の最適ルートをコンサルティングする ノック51 物流に関するデータを読み込んでみよう 輸送実績を主体にコストデータを結合する FC00001 -> WH00003 間のコストが1.5なのか確認する 工場データを結合 倉庫データを結合 関東支社のみ抽出 東北支社のみ抽出
ノック42 退会前月の退会顧客データを作成しよう ノック43 継続顧客のデータを作成しよう ノック44 予測する月の在籍期間を作成しよう ノック45 欠損値を除去しよう ノック46 文字型の変数を処理できるように ノック47 決定木を用いて退会予測モデルを作成し…
ノック50 顧客の退会を予測しよう count_1が6と5の間ぐらいが退会するボーダラインのよう
ノック41 退会前日の退会顧客データを作成使用
2.1.1 回帰タスク 真の値と予測を一致させると 予測値との偏差に基づく指標なので完全に 一致すると0になる。 2.1.2 分類タスク 二値分類 多クラス分類
ノック31 データを読み込んで確認しよう customertのhead(10) ノック32 クラスタリングで顧客をグループ化しよう ノック33 クラスタリング結果を分析しよう ノック34 クラスタリング結果を可視化しよう ノック35 クラスタリング結果をもとに退会顧客の傾向を…
ノック25 利用履歴データを集計しよう groupby()でas_indexをFalseにしているのはグループラベル (ここでは「年月」、「customer_id」) がindexになるのを抑制している as_indexをTrueにした場合 顧客ごとの統計値(平均、中央、最大、最小) ノック26 利用…
ノック21 データを読み込み把握しよう ノック22 顧客データを整形しよう ノック23 顧客データの基礎集計をしよう ノック24 s最新顧客データの基礎集計をしてみよう
ノック16 顧客名の揺れを補正しよう 現状 補正後 ノック17 日付の揺れを補正しよう 本のとおりやってみると2日ほどずれがある scriptで変換した結果 WindowS Excelのシリアル値について記述されている http://www.excel.studio-kazu.jp/mwiki/ep_01_serial.…
1.5.3 モデルの作成 ch01-01-titanic.pyのバリデーション前まで実行してsubmission_first.csvを保存させ Kaggleで評価させた結果 1.5.4 モデルの評価 1.5.5 モデルのチューニング 学習するモデルのパラメータをグリットサーチで評価し もっとも高い精度を出…
ノック11 データを読み込んでみよう 1章と同じように欠損値、統計値を見てみる ◆売上テーブル - item_priceに387と多い。他はない。 - 全データが2612なので約15%。 ◆顧客テーブル - 全顧客200名 ◆統計量 ノック12 データの揺れを見てみよう ノック13 データ…
ノック4 データを読み込んでみよう Join後、16カラムとなったので全部表示切れない。 ノック5 必要なデータ列を作ろう ノック6 データ検算をしよう ノック7 各種統計量を把握しよう 全てのカラムに統計量が出るわけでわなく 文字列型データにでていない。 時…
ノック1 データを読み込んでみよう ノック2 データを結合してみよう このときconcatに引数としてignore_indexをTrueにしているが これはindexを振りなすよう指示している transactionテーブルのカラム transaction_id 取引ごとのid price 取引金額 payment_d…
7.9 トピックモデリングと文書クラスラリング 7.9.1 LDA 結果、LatentDirichletAllocationの引数でn_topicsはないと言われたので省略してある
7.7 1単語より大きい単位のBag-of-Words(n-グラム) 結果 バイグラム 結果 トリグラム 結果 TfidfVectorizerを使ったn-グラム かなり時間がかかった、約30分 結果 7.8 より進んだトークン分割、語幹処理、見出し語化 spacyとnltkのinstallが必要 en_nlp = s…
7.4 ストップワード 結果 STOP WORDSを入れた結果、特徴量が減っている STOP WORDSを入れた評価 結果 7.5 tf-idfを用いたデータのスケール変換 結果 重要な言葉を抽出する 結果、tfidfが低い、高い特徴量(言葉)
7.3.2 映画レビューのBoW 結果 交差検証でパラメータチューニング 結果 結果 パラメータmin_dfで調整 結果 74849->27271 63%削減 抽出された特徴量となる単語を見てみる 結果 交差検証で精度を測定 結果、精度自体は変わらず