2018-08-01から1ヶ月間の記事一覧
7-3 データの重複を検出する 7-3-1 マスターデータの重複を検出する import pandas as pd import numpy as np import psycopg2 conn = psycopg2.connect("dbname=BigData host=localhost user=testuser") mst_categories = pd.read_sql("SELECT * FROM mst_c…
7-2 異常値を検出する 7-2-1 データの分布を計算する import pandas as pd import numpy as np import psycopg2 conn = psycopg2.connect("dbname=BigData host=localhost user=testuser") action_log_with_noise = pd.read_sql("SELECT * FROM action_log_w…
7章 データ活用の精度を高めるための分析術 7-1 データを組み合わせて、新たな切り口を作る 7-1-1 IPアドレスから国・地域を補完する import pandas as pd import numpy as np mst_city_ip = pd.read_csv('GeoLite2-City-Blocks-IPv4.csv') print(mst_city_i…
6章 Webサイトでの行動を把握するためのデータ抽出 6-1 サイト全体の特徴・傾向を見つける 6-1-1 日次の訪問者数・訪問回数・ページビューを集計する import pandas as pd import psycopg2 import numpy as np conn = psycopg2.connect("dbname=BigData host…
5-2 ユーザー全体の時系列による状態変化を見つける import pandas as pd import psycopg2 import numpy as np conn = psycopg2.connect("dbname=BigData host=localhost user=testuser") df_user = pd.read_sql("SELECT * FROM mst_users", conn) print(df_…
5章 ユーザーを把握するためのデータ抽出 5-1 ユーザー全体の特徴・傾向を見つける 5-1-1 ユーザーのアクション数を集計する import pandas as pd import psycopg2 import numpy as np conn = psycopg2.connect("dbname=BigData host=localhost user=testuse…