bitop’s diary

2019-01-01から1年間の記事一覧

Python実践データ分析100本ノックを読む

ノック11 データを読み込んでみよう 1章と同じように欠損値、統計値を見てみる ◆売上テーブル - item_priceに387と多い。他はない。 - 全データが2612なので約15%。 ◆顧客テーブル - 全顧客200名 ◆統計量ノック12 データの揺れを見てみようノック13 データ…

Python実践データ分析100本ノックを読む

ノック4 データを読み込んでみよう Join後、16カラムとなったので全部表示切れない。ノック5 必要なデータ列を作ろうノック6 データ検算をしようノック7 各種統計量を把握しよう全てのカラムに統計量が出るわけでわなく文字列型データにでていない。時…

Python実践データ分析100本ノックを読む

ノック1 データを読み込んでみようノック2 データを結合してみようこのときconcatに引数としてignore_indexをTrueにしているがこれはindexを振りなすよう指示している transactionテーブルのカラム transaction_id 取引ごとのid price 取引金額 payment_d…

Pythonではじめる機械学習

7.9 トピックモデリングと文書クラスラリング 7.9.1 LDA 結果、LatentDirichletAllocationの引数でn_topicsはないと言われたので省略してある

Pythonではじめる機械学習

7.7 1単語より大きい単位のBag-of-Words（n-グラム）結果バイグラム結果トリグラム結果 TfidfVectorizerを使ったn-グラムかなり時間がかかった、約30分結果 7.8 より進んだトークン分割、語幹処理、見出し語化 spacyとnltkのinstallが必要 en_nlp = s…

Pythonではじめる機械学習

7.4 ストップワード結果 STOP WORDSを入れた結果、特徴量が減っている STOP WORDSを入れた評価結果 7.5 tf-idfを用いたデータのスケール変換結果重要な言葉を抽出する結果、tfidfが低い、高い特徴量（言葉）

Pythonではじめる機械学習

7.3.2 映画レビューのBoW 結果交差検証でパラメータチューニング結果結果パラメータmin_dfで調整結果 74849->27271 63%削減抽出された特徴量となる単語を見てみる結果交差検証で精度を測定結果、精度自体は変わらず

Pythonではじめる機械学習

7.3.2 映画レビューのBoW 結果、全部で7分かかった。たぶん読み込みに時間がかかっているのでは結果

Pythonではじめる機械学習

7.3.1 トイデータセットに対するBoW 結果 7.3.2 映画デビューのBoW

Pythonではじめる機械学習

7章テキストデータの処理 7.1 文字列として結果結果

Pythonではじめる機械学習

6章アルゴリズムチェーンとパイプライン 6.2 パイプラインの構築結果 6.3 パイプラインを用いたグリッドサーチ結果

Pythonではじめる機械学習

5.3.2.2 偏ったデータセット結果、90%の精度実際に決定木で学習させてっみる結果,92%の精度

Pythonではじめる機械学習

5.2.3.2 グリットではないサーチ空間結果

Pythonではじめる機械学習

5.2 グリッドサーチ 5.2.1 単純なグリットサーチ結果 5.2.2 パラメータの過剰適合の危険性と検証セット結果 5.2.3 交差検証を用いたグリットサーチ結果 5.2.3.1 交差検証の結果の解析結果

Pythonではじめる機械学習

5.1.3.4 グループ付き交差検証結果

Pythonではじめる機械学習

5.1.3.1 交差検証のより詳細な制御結果シャッフルするオプション結果 5.1.3.2 1つ抜き交差検証結果 5.1.3.3 シャフル分割交差検証結果

Pythonではじめる機械学習

5章モデルの評価と改良ロジスティック回帰による学習結果 0.88程度 5.1 交差検証 5.1.1 scikit-learnでの交差検証結果

Pythonではじめる機械学習

4.5 自動特徴量選択 4.5.1 単変量統計結果、もとからある特徴量30にnoiseとして50の特徴量を追加したものをSelectPercentileの引数percentil=50で全体の特徴量80を50%に減らして 80*.5=40にしているどの特徴量が選択されたか可視化 4.5.2 モデルベース特…

Pythonではじめる機械学習

4.4 単変量非線形変換結果これをリッジ回帰で学習結果学習データをlogを使って変換させる結果0.622->0.875に上昇

Pythonではじめる機械学習

4.3 交互作用と多項式結果結果多項式特徴量結果 4.4 単変量非線形変換省略

Iot開発スタートブック ESP32でクラウドにつなげる電子工作をはじめよう！

電流センサによる電流値の測定電気負荷をかけていない状態電気負荷をかけている状態一番高いところで電流値に変換すると 17.44(A)実効値に換算すると17.44/1.414=12.33(A) 電気負荷は1300WのポットなのでOKかと

Pythonではじめる機械学習

4.1.2 数値でエンコードされているカテゴリ結果 get_dummiesでエンコーディングしてみる Integer Feature列はエンコーディングされていない数値を文字列数値に変換する結果 4.2 ビニング、離散化、線形モデル、決定木結果ビニング特長量を用いた線形回…

Pythonではじめる機械学習

4章データの表現と特徴量エンジニアリングワンホットエンコーディング（ダミー変数）結果 pandasのget_dummies関数を使ってワンホットエンコーデイングする結果、カラムが7つから46に増えた

Pythonではじめる機械学習

3.5.4.3 顔画像データセットを用いたアルゴリズムの比較顔画像データセットのk-meansによる解析結果凝縮型クラスタリングによる画像結果

Pythonではじめる機械学習

顔画像データセットのDBSCANによる解析ほぼ左向きの画像ほぼ右向きの画像これはバラバラこれもバラバラ正面の顔かな合ってないけど右向きかな合ってないけど左向きかなだいたいあっているけど正面向きプーチンと小泉ですか正面向きバラバラですが…

Pythonではじめる機械学習

3.5.4.3 顔画像データセットを用いたアルゴリズムの比較顔画像データセットのDBSCANによる解析結果

Pythonではじめる機械学習

3.5.4.2 正解データを用いないクラスタリングの評価結果、KMeansが一番になった。

Pythonではじめる機械学習

3.5.4 クラスタリングアルゴリズムの比較と評価 3.5.4.1 正解データを用いたクラスタリングの評価結果 DBSCANが一番良いみたい

Pythonではじめる機械学習

3.5.2 凝縮型クラスタリング結果（クラスタ数３を指定）結果（クラスタ数４を指定） 3.5.3 DBSCAN 結果データセットをmake_moonsにする結果、きれいに分かれた eps=0.2と減らす結果、バラバラになる eps=0.7にする結果、１つになる

Pythonではじめる機械学習

3.5.1.1 k-meansがうまくいかない場合結果,距離だけでみているからうまく分離できていない？ 3.5.1.2 ベクトル量子化、もしくは成分分解としてのk-means 結果