Pythonデータサイエンスクックブック

(２順目)

レシピ8.8

(２項)
２つのランダムな数列を生成しているようだ
生のデータを散布図で描画

X, y = ds.make_blobs(n_samples=200, n_features=2, centers=3)
print(X.shape)
print(y.shape)
plt.scatter(X[:,0],X[:,1])
(200,2)
(200,)

f:id:bitop:20160403095348p:plain

(４項)
最初のラベルつけのデータより細かく分割されている。
f:id:bitop:20160403100311p:plain
(5項) 分割数を３に指定した場合。きれいに分割できている。 f:id:bitop:20160403095848p:plain
６項
さまざまなアルゴリズムを試した場合
このデータではAgglomerativeClusteringが一番きれいに分割できている。
f:id:bitop:20160403100052p:plain