BIRCH

机器学习数据挖掘
范式
问题
  • 因素分析
  • CCA
  • ICA
  • LDA
  • NMF英语Non-negative matrix factorization
  • PCA
  • PGD英语Proper generalized decomposition
  • t-SNE英语t-distributed stochastic neighbor embedding
  • SDL
结构预测英语Structured prediction
  • RANSAC
  • k-NN
  • 局部异常因子英语Local outlier factor
  • 孤立森林英语Isolation forest
与人类学习
  • 主动学习英语Active learning (machine learning)
  • 众包
  • Human-in-the-loop英语Human-in-the-loop
模型诊断
  • 学习曲线英语Learning curve (machine learning)
数学基础
  • 内核机器英语Kernel machines
  • 偏差–方差困境英语Bias–variance tradeoff
  • 计算学习理论英语Computational learning theory
  • 经验风险最小化
  • 奥卡姆学习英语Occam learning
  • PAC学习英语Probably approximately correct learning
  • 统计学习
  • VC理论
大会与出版物
  • NeurIPS
  • ICML英语International Conference on Machine Learning
  • ICLR
  • ML英语Machine Learning (journal)
  • JMLR英语Journal of Machine Learning Research
相关条目
  • 人工智能术语英语Glossary of artificial intelligence
  • 机器学习研究数据集列表英语List of datasets for machine-learning research
  • 机器学习概要英语Outline of machine learning

BIRCH(英文全称:balanced iterative reducing and clustering using hierarchies,中文:利用层次方法的平衡迭代规约和聚类[1]是一个非监督式分层聚类算法,于1996年由 Tian Zhang 提出。算法的优势在于能够利用有限的内存资源完成对大数据集的高质量的聚类。[2]该算法通过构建聚类特征树(Clustering Feature Tree,简称CF Tree),在接下来的聚类过程中,直接对聚类特征进行聚类,而无需对原始数据集进行聚类。[3]因此在多数情况下只需要扫描一次数据库即可进行聚类,IO成本与数据集尺寸呈线性关系。[4]

聚类特征树

算法利用构建聚类特征树进行计算,树上的节点称作聚类特征 C F {\displaystyle CF} )。 聚类特征为一个三维向量 ( n , L S , S S ) {\displaystyle (n,LS,SS)} [5] n {\displaystyle n} 表示子类中节点的数目, L S {\displaystyle LS} 表示 n {\displaystyle n} 个点的线性和, S S {\displaystyle SS} 表示 n {\displaystyle n} 个点的平方和。

参考资料

  1. ^ 樊仲欣;王兴;苗春生;. 基于连通距离和连通强度的BIRCH改进算法. 计算机应用. 2018: 6 [2018-12-09]. (原始内容存档于2019-02-15). 
  2. ^ BIRCH算法学习 - Liam Q的专栏 - CSDN博客. blog.csdn.net. [2018-12-09]. (原始内容存档于2019-02-15). 
  3. ^ 朱, 映辉; 江, 玉珍. BIRCH聚类算法优化及并行化研究. 计算机工程与设计. 2007, (18): 4345–4346+4369 [2018-12-11]. ISSN 1000-7024. doi:10.16208/j.issn1000-7024.2007.18.014. (原始内容存档于2019-02-15). 
  4. ^ BIRCH聚类算法原理 - 刘建平Pinard - 博客园. www.cnblogs.com. [2018-12-09]. (原始内容存档于2018-12-24) (中文(中国大陆)). 
  5. ^ BIRCH算法---使用聚类特征树的多阶段算法 - 走在前往架构师的路上 - CSDN博客. blog.csdn.net. [2018-12-09]. (原始内容存档于2019-02-15).