Dec 27, 2023
K でのエルボーメソッドの使用をやめる
エルボー法は、k-means クラスタリングで最適な「K」を見つけることをグラフィカルに表現したものです。 これは通常、エルボが作成される場所の k 値を選択することによって行われます。 ただし、これはそうではありません
エルボー法は、最適な「K」を見つけることをグラフィカルに表現したものです。 K-means クラスタリングで。 これは通常、エルボが作成される場所の k 値を選択することによって行われます。 ただし、これは最適な「K」を見つける最良の方法ではありません。
エルボー法は、k-means クラスタリング アルゴリズムで最適な K 値を見つけるためのグラフィカルな方法です。 エルボ グラフは、K のさまざまな値 (X 軸) に対応するクラスター内平方和 (WCSS) 値を Y 軸に示します。 最適な K 値は、グラフがエルボを形成する点です。
このブログでは、最も実用的な方法を見ていきます。K 平均法クラスタリング アルゴリズムのクラスター数 (または K) を見つけ、エルボ法が答えではない理由を調べます。
このブログで取り上げるトピックは次のとおりです。
始めましょう。
K 平均法クラスタリングは、距離ベースの教師なしクラスタリング アルゴリズムであり、互いに近いデータ ポイントが指定された数のクラスター/グループにグループ化されます。
これは、データ サイエンスの分野で最も使用されているクラスタリング アルゴリズムの 1 つです。 K 平均法アルゴリズムを正常に実装するには、K 平均法を使用して作成するクラスターの数を特定する必要があります。
K 平均法アルゴリズムの手順は次のとおりです。
データ サイエンスの詳細 C-Means クラスタリングの説明
前述したように、エルボー法では、グラフィック表現を介して最適な k を見つけることが含まれます。 これは、クラスター内二乗和 (WCSS)、つまりクラスター内の点とクラスター重心の間の二乗距離の合計を見つけることによって機能します。
エルボ グラフは、X 軸上の K のさまざまな値に対応する Y 軸上の WCSS 値を示します。 グラフ内にエルボの形状が表示されたら、エルボが作成される K 値を選択します。 これを肘点と呼ぶことができます。 エルボ点を超えると、「K」の値を増やしても WCSS の大幅な低下にはつながりません。
肘の曲線は次のようになると予想されます。
ただし、通常は次のようになります。
したがって、実際のデータセットの大部分では、エルボ法を使用して正しい「K」を識別するための明確なエルボ変曲点がありません。 これにより、間違った K を見つけやすくなります。
シルエット スコアは、肘法で肘点が表示されない場合に K の数を見つけるのに非常に便利な方法です。
シルエット スコアの値の範囲は -1 ~ 1 です。シルエット スコアの解釈は次のとおりです。
シルエットスコア = (ba)/max(a,b)
どこ:
肘法を比較してみましょうそしてのアイリスデータセットを使用したシルエットスコア。 Python でエルボ カーブを作成することから始めます。
肘のカーブ次のコードを使用して作成できます。
上のグラフは K=4 でエルボ ポイントを選択していますが、K=3 も妥当なエルボ ポイントのように見えます。 それで、肘の点をどこにするべきかは明確ではありません。
シルエット プロットを使用して K の値を検証してみましょう以下のコードを使用します。
K=2 の場合、シルエット スコアは最大 (0.68) ですが、これは最適な K を選択するには十分ではありません。
適切なものを選択するには、次の条件を確認する必要があります。シルエット プロットを使用した「K」:
したがって、シルエット プロットのアプローチにより、最適値として K=3 が得られます。
Iris データセットの最終クラスタリングには K=3 を選択する必要があります。
また、クラスター内の入力フィーチャの分布をインデックス付け/チェックすることで、出力クラスターを検証しました。
データ サイエンスの詳細Scikit-Learn (Sklearn) の包括的なガイド
エルボー カーブとシルエット プロットはどちらも、k-means クラスタリングの最適な K を見つけるのに非常に役立つ手法です。 実際のデータセットでは、適切な「K」を見つけるのにエルボ カーブが十分ではないケースが非常に多く見られます。 このような場合は、シルエット プロットを使用して、データセットに最適なクラスター数を判断する必要があります。

