K-Means
定义 Definition
K-means(K 均值聚类)是一种常用的无监督学习聚类算法:把数据分成 K 个簇(groups/clusters),通过反复更新每个簇的中心点(centroid),使得簇内样本到其中心点的距离平方和尽量小。(也常写作 k-means clustering;在不同距离度量下也有变体。)
发音 Pronunciation (IPA)
/ˈkeɪ miːnz/
例句 Examples
We used k-means to group customers by their buying habits.
我们用 K-means 按购买习惯对客户分组。
After scaling the features, the team ran k-means with multiple random starts to reduce the risk of getting a poor local optimum.
在对特征做标准化之后,团队用多次随机初始化运行 K-means,以降低陷入较差局部最优解的风险。
词源 Etymology
名称来自数学记号:K 表示要分成的簇的数量,means 指每个簇用其样本的均值(mean)作为代表中心(即“簇中心/质心”)。该方法在 20 世纪中期逐步成形,并在统计学与模式识别领域广泛传播。
相关词 Related Words
文学与著作中的用例 Literary Works
- J. MacQueen (1967), Some Methods for Classification and Analysis of Multivariate Observations(提出并推广 K-means 的经典论文之一)
- Christopher M. Bishop, Pattern Recognition and Machine Learning(常见机器学习教材,含 K-means 与 EM 的相关讲解)
- Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning(统计学习经典教材,讨论聚类与 K-means)
- Kevin P. Murphy, Machine Learning: A Probabilistic Perspective(从概率视角介绍聚类与相关算法)
- Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification(模式识别经典教材,涵盖 K-means 等聚类方法)