IT/Web/マーケティング用語辞典

更新:2020年3月14日

くらすたりんぐ / くらすた

クラスタリング / クラスタ

多数のデータ群をなんらかの基準によって部分集合(クラスタ)に分類してデータを分析する手法

別名
英字

POINTクラスタリング / クラスタとは

クラスタ(cluster)とは、集団、群れといった意味を持つ英単語で、転じて、特徴や機能などが一致したものの集まりという意味で用いられます。

クラスタリングとは、データ解析手法の1つで、多数のデータ群をなんらかの基準によって部分集合(クラスタ)に分類してデータを分析するという方法です。クラスタリングは、クラスター分析、データクラスタリングとも呼ばれます。
クラスタリングはその分類の仕方から「階層クラスタリング」と「非階層クラスタリング」の2種類にわけられ、データの数や用途に応じて使い分けられています。

また、機械学習の分野でクラスタリングという場合は、「機会なし学習」という機械学習の種類を指します。

マーケティング分野ではクラスタリングが活用される

マーケティング分野でデータ分析をする際に、よくクラスタリングが用いられます。顧客だけでなく、企業やサービス、商品など様々なものを対象にクラスタリングがおこなわれます。

大量のデータをクラスタリングを用いて分析することで、客観的な基準のもと、自社や競合のポジショニングや消費者・顧客のカテゴリー分けをすることができます。例えば、見込み顧客をクラスタリングを用いて分類することで、クラスタごとにより効果的なマーケティング施策を実行したり、他社が参入していない市場を開拓したりすることができるようになります。

階層クラスタリングとは階層的に分類するクラスタリング手法

階層クラスタリング(階層クラスター分析)とは、クラスタリングの手法の1つで、集合体の多数のデータのうち、最も類似性の高いものから組み合わせ順にまとめていく手法のことです。1つの集合体になるまで階層的にまとめる作業がおこなわれるため、完成するとデータを樹形図のように表すことができます。

階層クラスタリングでは、クラスタの数を先に定義する必要がなく、後から決めることができますが、ビックデータなどの大量のデータ分析には計算に時間がかかってしまい不向きであることが特徴です。階層クラスタリングの分類対象数は数十個以下とも言われています。

階層クラスタリングの種類

階層クラスタリングは最も距離が近く似ているものから組み合わせて分類していく手法ですが、その距離の決め方によって様々な手法が存在します。

最も代表的な手法は「ウォード法」と呼ばれるものです。
ウォード法は、併合前の併合後のクラスタの分散のそれぞれの和と差が最小となるクラスタ同士を併合していく手法で、分類の感度が高いことが特徴です。

また、「群平均法」と呼ばれる手法もあり、これは、2つのクラスタの中から1つずつデータを選び距離を求め、その平均をクラスタ間の距離と定義して、近いものから順にまとめていく手法です。

他にも「最長距離法」「最短距離法」などの手法があります。

非階層クラスタリングとは非階層構造でビックデータも扱えるクラスタリング手法

非階層クラスタリング(非階層クラスター分析)とは、クラスタリングの手法の1つで、異なる性質のものが混ざり合った集合体の中から、似ている性質のものを集めてクラスタを作る手法です。
階層的な構造がなく、事前にクラスタ数を決める必要もありますが、分類対象が多くても分類することができるため、ビッグデータなどの膨大な数のデータであっても解析をおこなうことができることが特徴です。

非階層クラスタリングの手法

非階層クラスタリングの代表的な手法として「K-MEANS法」が挙げられます。
K-MEANS法では、

①クラスタ数を事前にk個として定め、クラスタの中心点の位置を対象のデータから「核」となるデータをランダムにk個決める
②ランダムに決めたk個のデータと最も距離の近いデータを求め、そのデータを核と同じクラスタに分類する
③それぞれのクラスタで重心点を求め、その点を次の核とする

という作業を重心点が変化しなくなるまで繰り返し、変化しなくなった時点で終了するというものです。

「クラスタリング / クラスタ」を調べた人はこの用語も調べています

クラスタリング / クラスタの使用例

「クラスター分析で見込み顧客を分類してみよう」

大量の見込み顧客のデータでも、クラスター分析を用いれば、年齢や性別、趣味嗜好、意見などから分類できます。

「このクラスタにアプローチしてみるのはどうだろう」

マーケティングにおいてクラスタリングを活用することで、見込み顧客をクラスタに分け、それぞれのクラスタ性質に合わせたマーケティング施策を実施することができます。

「今クラスタリングをしているんだけど、分析に時間がかかってしまうなあ」

大量のデータの分析には時間がかかる場合があります。ビックデータなどの分析には非階層クラスタリングを使うと良いでしょう。

クラスタリング / クラスタに関係した気になる話題

機械学習におけるクラスタリングとは教師なし学習のこと

機械学習においてクラスタリングという場合には、教師なし学習のことを指します。教師なし学習とは、予測や判定の対象となる正解(教師)がいない学習方法のことです。クラスタリングでは、事前に分類の基準となるデータが与えられないまま、コンピュータ自身がデータの特徴などを学習して判断します。

逆に教師あり学習とは、事前に正解のデータが教えられ、それを元に入力されたデータを判別する方法のことです。例えば、現在・過去のデータを入力して今後のデータの推移を予想させたり、画像識別では猫の画像を先に与え、次に入力したデータが猫か犬か判定させたりなどをすることが教師あり学習と呼ばれます。

複数のコンピュータを1台のコンピュータとして利用することもクラスタリングと呼ぶ

複数のコンピュータを連動させることで、1台のコンピュータを利用できるようにする技術のことも、クラスタリングと呼ばれます。複数台のコンピュータを繋げることで、大型高性能なコンピュータを1台で購入するよりも低価格で実現できます。
さらに、クラスタリングはこのような処理能力の向上だけでなく、障害が発生しても他のコンピュータに引き続き作業を継続させて、システムがダウンしないようにすることも目的として実施されます。


この記事がお役に立ちましたら、"いいね!"をお願いします
minweb辞書のIT用語をお届けします