機械学習のための「前処理」入門

7章 自然言語データの前処理 1.3 Janomeを使った形態解析 形態素解析の結果 1.4 テキストの正規化 1.5 単語を品詞で抽出 単語の出現回数をカウント

機械学習のための「前処理」入門

2.2 欠損値の補完 前行で補完 前後の行で補完 2.4 特徴量の作成・その1 6時間単位の平均 6時間単位の標準偏差 2.5 目的変数の作成 特徴量は各パラメータ(電力とか温度、湿度)の平均・標準偏差とする。6時間単位 目的変数はevent.csvから作る 特徴量行列と…

機械学習のための「前処理」入門

6章 時系列データの前処理 1.2 データの読み込みと確認 時間差の計算 経過時間の計算 1時間に集約 統計値の計算 データの可視化

機械学習のための「前処理」入門

3.3 画像の反転 オリジナル 上下反転 左右反転 上下・左右反転 3.4 画像の平滑化 平均化 ガウシアン 中央値 3.5 画像の明度変更

機械学習のための「前処理」入門

2.5 t-SNEによる次元圧縮

機械学習のための「前処理」入門

5章 画像データの前処理 1.2 データの読み込みと確認 opencvはすでにinstall済みであった。 1.3 ピクセル値の確認(カラー画像) 1.4 ピクセル値の確認(グレースケース画像) 1.5 ピクセル値の確認(2値化画像) cv2.THRESH_BINARY 他のオプションも試して…

機械学習のための「前処理」入門

3 潜在ニーズの抽出 3.1 主成分分析とは? bank_df_pca_0の各成分との相関 bank_df_pca_1の各成分との相関

機械学習のための「前処理」入門

4章 構造化データの前処理(2) 1 顧客の特性を知る 1.3 データの正規化 範囲変換 Z変換 平均 ほぼゼロ 標準偏差 ほぼ1 2 顧客のグループ化 2.1 階層型クラスタリング グループは15に分類されナンバー15がもっとも多い 2.2 非階層型クラスタリング かなり団子…

機械学習のための「前処理」入門

1.4 統計量の計算 1.5 データの可視化(その1) このplotting.scatter_matrixは比較的新しい 関数のようでpandas version 0.19ではエラーが でたのでversion(0.24.2)をあげたら描画OKとなった。 value_countsによる頻度(出現率)を算定できる 1.6 データの可…

機械学習のための「前処理」入門

1章 データ分析・活用を始めるために 省略 2章 データ分析のプロセスと環境 Google Colaboratoryで作業することにする。 ワーク用のデータは出版社のサイトからDownLoadしGoogle Driveに保存する。 3章 構造化データの前処理 1.2 データの読み込みと確認 最…

「株とPython-自作プログラムでお金儲けを目指す」を読む

約1ケ月間(2019/4/19 - 2019/5/31)かかって収集した株データをplotする。 データはSQLiteに保存したデータを「raw_prices.csv」としてエキスポートした。 出来高も描画 ローソク足も描画、データは 株価データ・株主優待情報・先物データ・ランキングデータ…

「株とPython-自作プログラムでお金儲けを目指す」を読む

3.1 集めたデータを眺める

「株とPython-自作プログラムでお金儲けを目指す」を読む

2.5 上場・廃止情報の取得 P36のリスト2.4を実行させて上場情報を取得しSQLiteのデータベースに保存した結果。

「株とPython-自作プログラムでお金儲けを目指す」を読む

2.4 四本値(日足)と出来高の取得 P22のPyQueryを使ったスクレイピングを応用して「株探」のページから開始値、高値、安値、終値、出来高 を取得しSQLiteのデータベースに保存した結果。

「株とPython-自作プログラムでお金儲けを目指す」を読む

2.3.3 ブラウザを操作して取り出す方法 - selenium Firefoxで行ってみたがエラーがでるのでChromeで操作 まず使用しているブラウザのバージョンを確認 version 73なので sites.google.com にいって該当するバージョンをDownLoadしてくる。 DownLoadしたzipフ…

「株とPython-自作プログラムでお金儲けを目指す」を読む

はじめに 省略 1章 株取引の基礎知識 省略 2章 データ収集と管理 2.3 銘柄情報の取得 PyQueryのinstall (PyQueryは「Pythonクローリング&スクレイピング」本にも紹介されていた ライブラリでjQueryと同じような使い方でHTMLからスクレイピングのできるライ…

「初めての統計学」を読む

「初めての統計学」を読む

「初めての統計学」を読む

「初めての統計学」を読む

「初めての統計学」を読む

「初めての統計学」を読む

わかりやすい kaisk.hatenadiary.com

「初めての統計学」を読む

「初めての統計学」を読む

「データ分析基盤構築入門」を読む

Appendix B Embulk & Digdag入門 B-2 EmbulkとDigdagのセットアップ java install Embulkのinstall Digdagのinstall example.dig 実行結果

「データ分析基盤構築入門」を読む

6-3 Fluentdの設定カスタマイズ <label>ディレクティブ 6.29図 複数のデータパイプラインを作る設定例 プラグインのflowcounterをinstall 流れてくる(flow)データの個数を数える(counter)、byteを数える count_keysは count,bytes,count_ratio,bytes_ratio,すべてを</label>…

「データ分析基盤構築入門」を読む

6-3 Fluentdの設定カスタマイズ <label>ディレクティブ 6.28図 タグを条件にラベルを付け替えた設定例 dt-agentをリスタート してfludent-catでメッージを送る 送られてきたメッセージをlogで確認</label>

「データ分析基盤構築入門」を読む

6-3 Fluentdの設定カスタマイズ <label>ディレクティブ grepのregexpのところを変更 td-agentをrestartさせメッセージを送る ログをみるためtailコマンドを立ち上げる 表示されたメッセージ</label>

「データ分析基盤構築入門」を読む

6-3 Fluentdの設定カスタマイズ <filter>ディレクティブ 本文97page 図6.23のとうりではうまくいかなかったので以下のように変更 td-agentをrestartし、fluent-catからメッセージを送る errorを含むメッセージのみ表示 confがちゃんと書けているかチエックするのに -</filter>…