K でのエルボーメソッドの使用をやめる

ニュース

ホームページホームページ / ニュース / K でのエルボーメソッドの使用をやめる

Dec 27, 2023

K でのエルボーメソッドの使用をやめる

エルボー法は、k-means クラスタリングで最適な「K」を見つけることをグラフィカルに表現したものです。 これは通常、エルボが作成される場所の k 値を選択することによって行われます。 ただし、これはそうではありません

エルボー法は、最適な「K」を見つけることをグラフィカルに表現したものです。 K-means クラスタリングで。 これは通常、エルボが作成される場所の k 値を選択することによって行われます。 ただし、これは最適な「K」を見つける最良の方法ではありません。

エルボー法は、k-means クラスタリング アルゴリズムで最適な K 値を見つけるためのグラフィカルな方法です。 エルボ グラフは、K のさまざまな値 (X 軸) に対応するクラスター内平方和 (WCSS) 値を Y 軸に示します。 最適な K 値は、グラフがエルボを形成する点です。

このブログでは、最も実用的な方法を見ていきます。K 平均法クラスタリング アルゴリズムのクラスター数 (または K) を見つけ、エルボ法が答えではない理由を調べます。

このブログで取り上げるトピックは次のとおりです。

始めましょう。

K 平均法クラスタリングは、距離ベースの教師なしクラスタリング アルゴリズムであり、互いに近いデータ ポイントが指定された数のクラスター/グループにグループ化されます。

これは、データ サイエンスの分野で最も使用されているクラスタリング アルゴリズムの 1 つです。 K 平均法アルゴリズムを正常に実装するには、K 平均法を使用して作成するクラスターの数を特定する必要があります。

K 平均法アルゴリズムの手順は次のとおりです。

データ サイエンスの詳細 C-Means クラスタリングの説明

前述したように、エルボー法では、グラフィック表現を介して最適な k を見つけることが含まれます。 これは、クラスター内二乗和 (WCSS)、つまりクラスター内の点とクラスター重心の間の二乗距離の合計を見つけることによって機能します。

エルボ グラフは、X 軸上の K のさまざまな値に対応する Y 軸上の WCSS 値を示します。 グラフ内にエルボの形状が表示されたら、エルボが作成される K 値を選択します。 これを肘点と呼ぶことができます。 エルボ点を超えると、「K」の値を増やしても WCSS の大幅な低下にはつながりません。

肘の曲線は次のようになると予想されます。

ただし、通常は次のようになります。

したがって、実際のデータセットの大部分では、エルボ法を使用して正しい「K」を識別するための明確なエルボ変曲点がありません。 これにより、間違った K を見つけやすくなります。

シルエット スコアは、肘法で肘点が表示されない場合に K の数を見つけるのに非常に便利な方法です。

シルエット スコアの値の範囲は -1 ~ 1 です。シルエット スコアの解釈は次のとおりです。

シルエットスコア = (ba)/max(a,b)

どこ:

肘法を比較してみましょうそしてアイリスデータセットを使用したシルエットスコア。 Python でエルボ カーブを作成することから始めます。

肘のカーブ次のコードを使用して作成できます。

上のグラフは K=4 でエルボ ポイントを選択していますが、K=3 も妥当なエルボ ポイントのように見えます。 それで、肘の点をどこにするべきかは明確ではありません。

シルエット プロットを使用して K の値を検証してみましょう以下のコードを使用します。

K=2 の場合、シルエット スコアは最大 (0.68) ですが、これは最適な K を選択するには十分ではありません。

適切なものを選択するには、次の条件を確認する必要があります。シルエット プロットを使用した「K」:

したがって、シルエット プロットのアプローチにより、最適値として K=3 が得られます。

Iris データセットの最終クラスタリングには K=3 を選択する必要があります。

また、クラスター内の入力フィーチャの分布をインデックス付け/チェックすることで、出力クラスターを検証しました。

データ サイエンスの詳細Scikit-Learn (Sklearn) の包括的なガイド

エルボー カーブとシルエット プロットはどちらも、k-means クラスタリングの最適な K を見つけるのに非常に役立つ手法です。 実際のデータセットでは、適切な「K」を見つけるのにエルボ カーブが十分ではないケースが非常に多く見られます。 このような場合は、シルエット プロットを使用して、データセットに最適なクラスター数を判断する必要があります。