クラスター分析のやり方を徹底解説｜Excel・R・SPSSでできる実務活用法と事例紹介

2025年8月1日2025年8月10日

ビジネスの現場では、顧客のニーズや行動を理解し、適切なマーケティング戦略を立てることが求められます。そうした課題に直面したとき、非常に有効なのが「クラスター分析」です。本記事では、初心者でもわかりやすくクラスター分析の基本から、Excel・R・SPSSを使った実践方法、さらに実際の事例まで丁寧に解説します。読後には、自社のデータに対してクラスター分析をどのように適用できるか、具体的なイメージを持てるようになるでしょう。

クラスター分析とは何か

クラスター分析とは、多くのデータの中から類似するグループ（＝クラスター）を見つけ出す手法です。マーケティング、商品開発、顧客分析など、あらゆるビジネスシーンで活用されています。特定の基準に基づいてデータを分類するのではなく、データ同士の“似ている度合い”をもとに自動的にグルーピングする点が特徴です。

この分析手法の魅力は、分類のための事前の仮説やモデルが不要であることです。例えば、「40代女性は美容商品に関心がある」という仮説を立てるのではなく、実際の購買データから「同じような購入パターンを持つ層」を見つけるという、データ駆動型のアプローチが可能になります。

さらに、クラスター分析は「探索的分析」としての側面を持ち、ユーザーの潜在的な行動傾向や特徴を可視化するのに非常に効果的です。そのため、分析結果を踏まえた施策立案にもつながりやすく、実務での応用範囲が広がっています。

クラスター分析の基本的な仕組み

データの選定と整形

分析を始める前に、どのようなデータを使うかを決めることが最初のステップです。例えば、顧客情報を分析する場合、「年齢」「性別」「購入頻度」「最終購入日」「平均購入金額」などがよく使われます。ここで重要なのが、クラスター分析に適しているのは数値データであるという点です。

また、データの欠損や外れ値は分析精度に大きな影響を与えるため、必ず前処理としてデータクリーニングを行います。さらに、変数ごとのスケール（単位や値の大きさ）が異なると、距離の計算に偏りが出るため、標準化（Zスコア変換など）を行うのが一般的です。

距離の測定

クラスター分析の中心となるのが「距離」の計算です。距離とはデータ同士の“似ていなさ”を数値化したもので、近ければ近いほど似ていると判断されます。代表的なのが「ユークリッド距離（直線距離）」ですが、場合によっては「マンハッタン距離」や「コサイン類似度」などが使われることもあります。

どの距離を使うかは、データの性質や目的によって選びます。たとえば、方向性の類似を重視する場合はコサイン類似度、全体の分布に対する近さを重視する場合はユークリッド距離が適しています。

クラスターの形成と可視化

距離の計算が完了すると、次はクラスタリングの工程に入ります。大きく分けて2つの手法があり、「階層的クラスター分析」と「非階層的クラスター分析（k-meansなど）」です。

階層的クラスター分析は、最も似ている2つのデータから順に結合していく方法で、デンドログラム（樹形図）として視覚化できるのが特徴です。一方、非階層的なk-means法は、あらかじめクラスタ数を決めて分類する手法で、収束するまで繰り返しクラスタ中心を調整していきます。

この可視化された結果を元に、どのグループがどのような傾向を持っているのかを解釈し、実務での意思決定に活かしていく流れになります。

Excelで行うクラスター分析のやり方

Excelでクラスター分析を行う方法は、データ分析の入門として非常に適しており、特別な統計ソフトを持たないビジネスパーソンでも手軽に取り組めます。

まずは分析対象のデータを整形しましょう。たとえば、顧客ごとの購買金額や来店頻度などを表に整理します。次に、そのデータを「標準化」してスケールを揃える必要があります。Excelでは、AVERAGE関数とSTDEV関数を使ってZスコアを算出できます。

その後、距離行列を作成し、各行と列の組み合わせごとにユークリッド距離を計算します。この作業には手作業やマクロを使う方法、もしくは分析アドイン（XLSTATやReal Statisticsなど）を利用する手もあります。

距離が出揃ったら、Excelでのクラスタリング方法としては、最も単純な「二者間比較法」を用いた階層的クラスター分析が可能です。これは最も近い2つのデータを1つにまとめ、次に最も近いものを探して……という手順を繰り返し、全体の構造を可視化します。樹形図を描くには、行と列のマトリクスの類似度を並び替えながら視覚的に理解する工夫が必要ですが、近年ではVBAマクロなどで樹形図を描画するテンプレートも公開されています。

Excelでのクラスター分析は限界もありますが、少量データや簡易な顧客分類には十分活用可能であり、実務でも重宝されています。

Rで行うクラスター分析のやり方

Rは統計解析やデータサイエンスに強いオープンソースのプログラミング言語で、クラスター分析を効率的かつ柔軟に行える環境が整っています。特に、少し慣れてくるとExcelでは実現できない高度な分析や視覚化が可能になる点で、Rの活用価値は非常に高いです。

Rでクラスター分析を行うには、まずデータの読み込みから始めます。CSVファイルやExcelデータをread.csv()やreadxl::read_excel()で取り込みます。次に、scale()関数を使って標準化を行い、dist()関数で距離行列を作成します。そして、階層的クラスタリングならhclust()関数、非階層的クラスタリングならkmeans()関数を使います。

Rコピーする編集する# データの読み込み
data <- read.csv(\"customer_data.csv\")

# 標準化
data_scaled <- scale(data)

# 距離行列作成
dist_matrix <- dist(data_scaled)

# 階層的クラスタリング
hc <- hclust(dist_matrix)

# デンドログラム表示
plot(hc)

また、クラスタ数の決定にはcutree()関数を使い、分割数を変えて比較できます。視覚化にはfactoextraパッケージのfviz_cluster()などが有用で、分析結果の説得力が一気に高まります。