直方图bin数目的选择
bin 的数目(
Square-root choice
其中
Sturges' formula
Sturges' formula 假设数据服从正态分布,在
Rice rule
Rice rule 是一种 Sturges' formula 的简单替换。
Doane's formula
Doane's formula 是一种 Sturges' formula 的改进版,以提高在非正态数据上的适用性,因此比较推荐这种方法。
其中,
Scott's normal reference rule
Scott's normal reference rule 比较适用于从正态分布数据中随机抽取的样本。
其中,
Freedman–Diaconis' choice
Freedman–Diaconis' choice 是一种 Scott's normal reference rule 的改进型,用四分位距来代替样本标准差,可以降低离群值的干扰。
其中,四分位距
应用场景
- 对于基本服从正态分布的数据,可以选用 Scott's normal reference rule
- 对于不服从正态分布的数据,可以选用 Doane's formula
- 对于拖尾分布,可以选用 Freedman–Diaconis' choice
- 当数据中都是整数时(即不连续分布),可以参考 matlab 的整数规则
MATLAB 整数规则
整数规则对整数数据有用,因为它为每个整数创建一个 bin。它使用 bin 宽度 1 并将 bin 边界放在整数的中间。为避免无意间创建太多 bin,可以使用该规则创建 65536 (