「ビックデータ分析・活用のためのSQLレシピ」を読む

7-3 データの重複を検出する

7-3-1 マスターデータの重複を検出する

import pandas as pd
import numpy as np
import psycopg2

conn = psycopg2.connect("dbname=BigData host=localhost user=testuser")
mst_categories = pd.read_sql("SELECT * FROM mst_categories", conn)
print(mst_categories)

f:id:bitop:20180826071909p:plain

mst_categories.duplicated('id')

f:id:bitop:20180826071943p:plain

print(mst_categories[mst_categories.duplicated('id')])

f:id:bitop:20180826072008p:plain