2019-01-01から1年間の記事一覧

Python実践データ分析100本ノックを読む

ノック11 データを読み込んでみよう 1章と同じように欠損値、統計値を見てみる ◆売上テーブル - item_priceに387と多い。他はない。 - 全データが2612なので約15%。 ◆顧客テーブル - 全顧客200名 ◆統計量 ノック12 データの揺れを見てみよう ノック13 データ…

Python実践データ分析100本ノックを読む

ノック4 データを読み込んでみよう Join後、16カラムとなったので全部表示切れない。 ノック5 必要なデータ列を作ろう ノック6 データ検算をしよう ノック7 各種統計量を把握しよう 全てのカラムに統計量が出るわけでわなく 文字列型データにでていない。 時…

Python実践データ分析100本ノックを読む

ノック1 データを読み込んでみよう ノック2 データを結合してみよう このときconcatに引数としてignore_indexをTrueにしているが これはindexを振りなすよう指示している transactionテーブルのカラム transaction_id 取引ごとのid price 取引金額 payment_d…

Pythonではじめる機械学習

7.9 トピックモデリングと文書クラスラリング 7.9.1 LDA 結果、LatentDirichletAllocationの引数でn_topicsはないと言われたので省略してある

Pythonではじめる機械学習

7.7 1単語より大きい単位のBag-of-Words(n-グラム) 結果 バイグラム 結果 トリグラム 結果 TfidfVectorizerを使ったn-グラム かなり時間がかかった、約30分 結果 7.8 より進んだトークン分割、語幹処理、見出し語化 spacyとnltkのinstallが必要 en_nlp = s…

Pythonではじめる機械学習

7.4 ストップワード 結果 STOP WORDSを入れた結果、特徴量が減っている STOP WORDSを入れた評価 結果 7.5 tf-idfを用いたデータのスケール変換 結果 重要な言葉を抽出する 結果、tfidfが低い、高い特徴量(言葉)

Pythonではじめる機械学習

7.3.2 映画レビューのBoW 結果 交差検証でパラメータチューニング 結果 結果 パラメータmin_dfで調整 結果 74849->27271 63%削減 抽出された特徴量となる単語を見てみる 結果 交差検証で精度を測定 結果、精度自体は変わらず

Pythonではじめる機械学習

7.3.2 映画レビューのBoW 結果、全部で7分かかった。たぶん読み込みに時間がかかっているのでは 結果

Pythonではじめる機械学習

7.3.1 トイデータセットに対するBoW 結果 7.3.2 映画デビューのBoW

Pythonではじめる機械学習

7章 テキストデータの処理 7.1 文字列として 結果 結果

Pythonではじめる機械学習

6章 アルゴリズムチェーンとパイプライン 6.2 パイプラインの構築 結果 6.3 パイプラインを用いたグリッドサーチ 結果

Pythonではじめる機械学習

5.3.2.2 偏ったデータセット 結果、90%の精度 実際に決定木で学習させてっみる 結果,92%の精度

Pythonではじめる機械学習

5.2.3.2 グリットではないサーチ空間 結果

Pythonではじめる機械学習

5.2 グリッドサーチ 5.2.1 単純なグリットサーチ 結果 5.2.2 パラメータの過剰適合の危険性と検証セット 結果 5.2.3 交差検証を用いたグリットサーチ 結果 5.2.3.1 交差検証の結果の解析 結果

Pythonではじめる機械学習

5.1.3.4 グループ付き交差検証 結果

Pythonではじめる機械学習

5.1.3.1 交差検証のより詳細な制御 結果 シャッフルするオプション 結果 5.1.3.2 1つ抜き交差検証 結果 5.1.3.3 シャフル分割交差検証 結果

Pythonではじめる機械学習

5章 モデルの評価と改良 ロジスティック回帰による学習 結果 0.88程度 5.1 交差検証 5.1.1 scikit-learnでの交差検証 結果

Pythonではじめる機械学習

4.5 自動特徴量選択 4.5.1 単変量統計 結果、もとからある特徴量30にnoiseとして50の特徴量を追加した ものをSelectPercentileの引数percentil=50で全体の特徴量80を50%に減らして 80*.5=40にしている どの特徴量が選択されたか 可視化 4.5.2 モデルベース特…

Pythonではじめる機械学習

4.4 単変量非線形変換 結果 これをリッジ回帰で学習 結果 学習データをlogを使って変換させる 結果0.622->0.875に上昇

Pythonではじめる機械学習

4.3 交互作用と多項式 結果 結果 多項式特徴量 結果 4.4 単変量非線形変換 省略

Iot開発スタートブック ESP32でクラウドにつなげる電子工作をはじめよう!

電流センサによる電流値の測定 電気負荷をかけていない状態 電気負荷をかけている状態 一番高いところで電流値に変換すると 17.44(A)実効値に換算すると17.44/1.414=12.33(A) 電気負荷は1300WのポットなのでOKかと

Pythonではじめる機械学習

4.1.2 数値でエンコードされているカテゴリ 結果 get_dummiesでエンコーディングしてみる Integer Feature列はエンコーディングされていない 数値を文字列数値に変換する 結果 4.2 ビニング、離散化、線形モデル、決定木 結果 ビニング特長量を用いた線形回…

Pythonではじめる機械学習

4章 データの表現と特徴量エンジニアリング ワンホットエンコーディング(ダミー変数) 結果 pandasのget_dummies関数を使ってワンホットエンコーデイングする 結果、カラムが7つから46に増えた

Pythonではじめる機械学習

3.5.4.3 顔画像データセットを用いたアルゴリズムの比較 顔画像データセットのk-meansによる解析 結果 凝縮型クラスタリングによる画像 結果

Pythonではじめる機械学習

顔画像データセットのDBSCANによる解析 ほぼ左向きの画像 ほぼ右向きの画像 これはバラバラ これもバラバラ 正面の顔かな 合ってないけど右向きかな 合ってないけど左向きかな だいたいあっているけど正面向き プーチンと小泉ですか正面向き バラバラですが…

Pythonではじめる機械学習

3.5.4.3 顔画像データセットを用いたアルゴリズムの比較 顔画像データセットのDBSCANによる解析 結果

Pythonではじめる機械学習

3.5.4.2 正解データを用いないクラスタリングの評価 結果、KMeansが一番になった。

Pythonではじめる機械学習

3.5.4 クラスタリングアルゴリズムの比較と評価 3.5.4.1 正解データを用いたクラスタリングの評価 結果 DBSCANが一番良いみたい

Pythonではじめる機械学習

3.5.2 凝縮型クラスタリング 結果(クラスタ数3を指定) 結果(クラスタ数4を指定) 3.5.3 DBSCAN 結果 データセットをmake_moonsにする 結果、きれいに分かれた eps=0.2と減らす 結果、バラバラになる eps=0.7にする 結果、1つになる

Pythonではじめる機械学習

3.5.1.1 k-meansがうまくいかない場合 結果,距離だけでみているからうまく分離できていない? 3.5.1.2 ベクトル量子化、もしくは成分分解としてのk-means 結果