首页 > 教育学习 > 为什么 > 机器学习中，有没有给定的阈值返回聚类结果的算法？

机器学习中，有没有给定的阈值返回聚类结果的算法？
2012-01-19 17:30:49 来源：点击：

学习

4 个答案

答案 1：
这里竟然也开始问专业问题了，内牛满面。赶紧抢答一下。。。你说的相似度问题，绝大多数算法是从Rate Distortion Theory入手（Elements of Information Theory 2nd Ed. Chapter 13）。在这一框架下，相似度是Distortion rate，其核心思想是在给定一定失真度的前提下，如何最优对信号编码。这样，相似度误差就可以在信息论框架下有一个很好的解释了。能想到的最直接Paper是Bialek@Princeton组前几年的一篇PNASpnas.org/content...应该算是直接解决了你的问题。但是，对于Rate Distortion Theory我目前看到的最好的在Machine Learning上的演绎，是马毅@UIUC他们组的这篇，虽然这个文章本身并不是直接探讨clustering的：perception.csl.uiuc.edu/coding...
答案 2：
这个问题，我没太看明白。感觉上楼主期望得到一种能根据参数调整输出类别数目的方法。我觉得有一种方法也许可以满足楼主的要求，它就是on-line kmean算法：具体步骤如下：输入：相似度参数阈值，所有样本输出：类别数目和类别参数（中心，如果需要可以有协方差阵）1，初始化类别集合为空；2，对于输入的一个样本，计算其与所有已有类别中心的相似度（为距离大小的反向函数），找到最大相似度和对应的已有类别（如果已有类别集合为空，则认为该相似度为无穷大），如果相似度大于输入的相似度参数阈值，则认为该样本属于该类，更新该类别的中心（以及协方差），如果相似度小于阈值，则认为该样本不属于任何类，则用其初始化一个新类别（该样本即为类别中心）；3，对所有样本进行2的处理，最终得到N个类别；4，对上述类别进行去噪处理，将属于该类别的样本数目小于设定阈值的类别删除，剩下的结果即为最终聚类结果；如果相似度阈值大，则要求严格，每类的覆盖范围就小，最终得到的类别数目会多；繁之，相似度阈值小，要求宽松，每类的覆盖范围大，最终得到的类别数目会少。希望这个回答会对你有所启发。
答案 3：
可能是我没看懂LZ的意思，我理解的是包括k-means在内的很多经典的clustering算法都可以加入参数啊。本身带参数的也有，基于密度的聚类。拿k-means来说，你首先要解决的问题是k的选取，这里就可以加入参数了啊；而在迭代的过程中，每次分配样本的时候，也可以加入参数啊。不一定要选一个现成的算法啊，那些经典的算法都是通用解，但往往不是具体场景下的最优解。你在理解思想过后，应该根据自己的应用加入一些特化的东西。
答案 4：
基于图的聚类有大量满足你需求的算法，最简单的做法是：1、计算出点与点之间的相似度（为减少存储空间，低于某个阈值的可以忽略），以相似值为权把点链接成图。2、设定一个阈值alpha，把低于阈值的边砍掉，有边连接的子图作为一个聚类一般来说，alpha越大，子图越多，分出来的类就越多

QQ空间新浪微博腾讯微博人人网更多

机器学习中，有没有给定的阈值返回聚类结果的算法？
2012-01-19 17:30:49 来源：点击：

4 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

机器学习中，有没有给定的阈值返回聚类结果的算法？ 2012-01-19 17:30:49 来源： 点击：

4 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

机器学习中，有没有给定的阈值返回聚类结果的算法？
2012-01-19 17:30:49 来源：点击：