科学・IＴ・登山の話題

make_blobsで分類データを作成する

投稿日：2019年10月17日

sklearnで分類学習モデルを構築する際にテストデータが必要になる。手で作成したりあらかじめ用意されたデータを使うこともできるが、make_blobsを使ってランダムデータを作成できる。

sklearn.datasets.make_blobs — scikit-learn 0.21.3 …

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

n_samplesは生成するデータの個数である。これはトータルの個数になる。例えばクラスタを2つ作る場合に、n_samples=100とするとそれぞれのクラスタは50ずつとなる。

centerは生成するクラスタの数である。3つのクラスタが必要であればcenters=3とする。

custer_stdは生成するクラスタの散らばりである。0であればクラスタはほぼ一か所にデータが集まる。大きくなるほど分散が大きくなり、クラスタの分類が難しくなる。

import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets.samples_generator import make_blobs

centers_l = [0.01, 0.1, 0.5, 1, 10, 1000]

fig, ax = plt.subplots(6, figsize=(10,20))

for i in range(len(centers_l)):
    X, y = make_blobs(n_samples=150, centers=3,random_state=0, cluster_std=centers_l[i])
    ax[i].scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn');
    
plt.show()

Related posts:

売り上げデータの分析

logistic regressionでの失敗

-機械学習
-matplotlib

執筆者：admin

comment コメントをキャンセル

関連記事

: 多変量解析

多変量解析の分類回帰分析ロジスティック分析判別分析主成分分析因子分析共分散クラスタリング共分散 Sxy = Σ(Xi – X~)(Yi – Y~) / n 共分 …

: Statistical Reasoning for Public Health

Module up to 3 SES – 社会経済的地位 Cognitive function – 認知機能 The authors used the graphic alon …

: 仕事で始める機械学習 – 4章システムに機械学習を組み込む

機械学習アーキテクチャ学習方法としては3つのパターンがあるバッチ処理で一括学習バッチ処理で逐次学習リアルタイムで逐次学習学習と予測パターンの提供方法としては4つのパターンがあるバッチ学習- …

: モンベルダウンジャケットについて売れ筋商品を分析してみる。

幾何平均が値付けに利用されているという話を聞いたので実際の商品を例にして分析してみる。調査の目的適切なダウンジャケットを選ぶことで冬季にあるいは夏季の３０００m級の高山で気持ちよく過ご巣ことができ …

: クラスタリング

Rによるクラスタ分析の実行県別の持家率と自家用車普及率からクラスタ分析を実行し似た県を探してみる。。データソース持家と自家用車普及率のデータは下記から取得する持家普及率のデータはこちらから取得 …

PREV: pyplotでx軸のラベルを90度回転させる
NEXT: errorbarで誤差棒付きグラフの作成

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日