科学の箱

科学・IT・登山の話題

機械学習

make_blobsで分類データを作成する

投稿日:

sklearnで分類学習モデルを構築する際にテストデータが必要になる。手で作成したりあらかじめ用意されたデータを使うこともできるが、make_blobsを使ってランダムデータを作成できる。

sklearn.datasets.make_blobs — scikit-learn 0.21.3 …

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

n_samplesは生成するデータの個数である。これはトータルの個数になる。例えばクラスタを2つ作る場合に、n_samples=100とするとそれぞれのクラスタは50ずつとなる。

centerは生成するクラスタの数である。3つのクラスタが必要であればcenters=3とする。

custer_stdは生成するクラスタの散らばりである。0であればクラスタはほぼ一か所にデータが集まる。大きくなるほど分散が大きくなり、クラスタの分類が難しくなる。

 

import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets.samples_generator import make_blobs

centers_l = [0.01, 0.1, 0.5, 1, 10, 1000]

fig, ax = plt.subplots(6, figsize=(10,20))

for i in range(len(centers_l)):
    X, y = make_blobs(n_samples=150, centers=3,random_state=0, cluster_std=centers_l[i])
    ax[i].scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn');
    
plt.show()

メタ情報

inarticle



メタ情報

inarticle



-機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

ポワソン分布の利用

一時間に平均7通のメールが来るとき100回試行した時のメール受信件数を調べる > rpois(100,7)  [1]  7 10  2  8  5  4  4  9  2  3  9  6  9 …

no image

ラテン方格

ラテン方格は1~nまでの数字についてn x nの正方行列に一回だけ現れるように並べたものである。ラテン方格を利用して実験の割り付けを行う実験計画法がラテン方格法である。 ラテン方格法と似た実験計画法に …

no image

Pythonではじめる機械学習 – GMM

k-Meansの課題 クラスタ間で微妙な位置関係にあるデータについて特定クラスタに分類された際の不確実の度合いを知ることができない。 例えば51%の確率でクラスタAであり、49%の確率でクラスタBかも …

no image

データサイエンス超入門

シンプソンのパラドックス レコメンドエンジン コンテンツベースフィルタリング 強調 アイテム ユーザー ビジネスにおけるデータ分析の手順 課題→ビジネスケース→仮説→分析→用途 データ分析の手順 デー …

no image

Core Concept in Data Analysis – Week 5

予測の分析 関連性を分析する モデルを明らかにする。 パラメータを推測する。 テストする。 予測が将来になると難しい→環境が変わってしまうため。 correlation structure (質的尺度 …

2019年10月
« 9月   11月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー