k-means++: The Advantages of Careful Seeding
David Arthur and Sergei Vassilvitskii, k-means++: The Advantages of Careful Seeding. In Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms (2007), pp. 1027-1035.
言わずと知れたk-meansアルゴリズム(Lloydのアルゴリズム)の改良版.元のアルゴリズムの問題点である初期値依存性を解決し,Θ(log k)近似を達成.
問題
k-meansアルゴリズムの問題点
- 最適コストとの比に上界が無い
- nとkの値が固定でも,コストがいくらでも悪くなるような入力を作れる
k-means++
k個のクラスタ中心c1,…ckの初期値を確率的に選択する.
競合比
k-means++が出力した解のコストの期待値は,最適コストの8(ln k+2)倍で抑えられる.また,Ω(log k)近似でもある.(なので論文で証明している近似は結構タイト)
一般化
k-meansクラスタリングは,l2ノルムだけど,他の距離尺度にも適用出来る.例えば,目的関数値の冪がLだった場合は,確率の冪もLにすればいい.この時の近似比を示すには,l2ノルムの時に使っていた内積が使えない.が,三角不等式を使うと(若干弱いけど)近似比が得られる.具体的には,期待値は最適コストの2^2L(ln k+2)倍で抑えられる.
実験結果
k-means++の圧勝.コストも計算時間もk-meansに比べて優れている.
戯言
この論文の意義は,元のk-meansアルゴリズムには近似比保証が無いにも関わらず,初期値をイイ感じに選択するだけで,(期待値が)Θ(log k)近似になることを証明できることだと思う(そのまんまか…).