Pythonデータサイエンスクックブック

(2順目)

レシピ8.8

(2項)
2つのランダムな数列を生成しているようだ
生のデータを散布図で描画

X, y = ds.make_blobs(n_samples=200, n_features=2, centers=3)
print(X.shape)
print(y.shape)
plt.scatter(X[:,0],X[:,1])
(200,2)
(200,)

f:id:bitop:20160403095348p:plain

(4項)
最初のラベルつけのデータより細かく分割されている。
f:id:bitop:20160403100311p:plain
(5項) 分割数を3に指定した場合。きれいに分割できている。 f:id:bitop:20160403095848p:plain
6項
さまざまなアルゴリズムを試した場合
このデータではAgglomerativeClusteringが一番きれいに分割できている。
f:id:bitop:20160403100052p:plain