霍普金斯统计 用于通过测量给定数据集由统一数据分布生成的概率来评估数据集的聚类趋势。换句话说,它测试数据的空间随机性。
如何解释霍普金斯统计量 H呢 ?如果数据点在空间中均匀分布,H大约是0.5;如果聚类情况存在于数据集中,H会接近1;当 H 高于0.75表示在90%的置信水平下,数据集中存在聚类趋势。
我们可以反复进行霍普金斯统计测试,使用0.5作为拒绝数据集中存在聚类趋势的阈值。即,如果 H < 0.5,则数据集中不太可能有具有统计学意义的群集。换句话说,如果霍普金斯统计值接近 1,那么我们可以得出结论,该数据集是可聚类数据。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。