2019-06-01から1ヶ月間の記事一覧

機械学習のための「前処理」入門

2.1 全記事の形態素解析 2.2 単語文章行列の作成 高頻度、低頻度単語のカット 2.3 TF-IDFによる重み付け 3.4 単語の数値化 4.2 単語文書行列の作成

機械学習のための「前処理」入門

7章 自然言語データの前処理 1.3 Janomeを使った形態解析 形態素解析の結果 1.4 テキストの正規化 1.5 単語を品詞で抽出 単語の出現回数をカウント

機械学習のための「前処理」入門

2.2 欠損値の補完 前行で補完 前後の行で補完 2.4 特徴量の作成・その1 6時間単位の平均 6時間単位の標準偏差 2.5 目的変数の作成 特徴量は各パラメータ(電力とか温度、湿度)の平均・標準偏差とする。6時間単位 目的変数はevent.csvから作る 特徴量行列と…

機械学習のための「前処理」入門

6章 時系列データの前処理 1.2 データの読み込みと確認 時間差の計算 経過時間の計算 1時間に集約 統計値の計算 データの可視化

機械学習のための「前処理」入門

3.3 画像の反転 オリジナル 上下反転 左右反転 上下・左右反転 3.4 画像の平滑化 平均化 ガウシアン 中央値 3.5 画像の明度変更

機械学習のための「前処理」入門

2.5 t-SNEによる次元圧縮

機械学習のための「前処理」入門

5章 画像データの前処理 1.2 データの読み込みと確認 opencvはすでにinstall済みであった。 1.3 ピクセル値の確認(カラー画像) 1.4 ピクセル値の確認(グレースケース画像) 1.5 ピクセル値の確認(2値化画像) cv2.THRESH_BINARY 他のオプションも試して…

機械学習のための「前処理」入門

3 潜在ニーズの抽出 3.1 主成分分析とは? bank_df_pca_0の各成分との相関 bank_df_pca_1の各成分との相関

機械学習のための「前処理」入門

4章 構造化データの前処理(2) 1 顧客の特性を知る 1.3 データの正規化 範囲変換 Z変換 平均 ほぼゼロ 標準偏差 ほぼ1 2 顧客のグループ化 2.1 階層型クラスタリング グループは15に分類されナンバー15がもっとも多い 2.2 非階層型クラスタリング かなり団子…

機械学習のための「前処理」入門

1.4 統計量の計算 1.5 データの可視化(その1) このplotting.scatter_matrixは比較的新しい 関数のようでpandas version 0.19ではエラーが でたのでversion(0.24.2)をあげたら描画OKとなった。 value_countsによる頻度(出現率)を算定できる 1.6 データの可…

機械学習のための「前処理」入門

1章 データ分析・活用を始めるために 省略 2章 データ分析のプロセスと環境 Google Colaboratoryで作業することにする。 ワーク用のデータは出版社のサイトからDownLoadしGoogle Driveに保存する。 3章 構造化データの前処理 1.2 データの読み込みと確認 最…

「株とPython-自作プログラムでお金儲けを目指す」を読む

約1ケ月間(2019/4/19 - 2019/5/31)かかって収集した株データをplotする。 データはSQLiteに保存したデータを「raw_prices.csv」としてエキスポートした。 出来高も描画 ローソク足も描画、データは 株価データ・株主優待情報・先物データ・ランキングデータ…