====== Perplexity statistics ======
Mean PPL(Q)                   :  16.574922 ±   0.145677
Mean PPL(base)                :  13.052024 ±   0.108483
Cor(ln(PPL(Q)), ln(PPL(base))):  94.24%
Mean ln(PPL(Q)/PPL(base))     :   0.238948 ±   0.002939
Mean PPL(Q)/PPL(base)         :   1.269912 ±   0.003733
Mean PPL(Q)-PPL(base)         :   3.522897 ±   0.056595

====== KL divergence statistics ======
Mean    KLD:   0.367217 ±   0.001523
Maximum KLD:  17.225899
99.9%   KLD:   5.747202
99.0%   KLD:   2.751391
99.0%   KLD:   2.751391
Median  KLD:   0.188572
10.0%   KLD:   0.004681
 5.0%   KLD:   0.001022
 1.0%   KLD:   0.000091
Minimum KLD:  -0.000001

====== Token probability statistics ======
Mean    Δp: -2.359 ± 0.041 %
Maximum Δp: 98.460%
99.9%   Δp: 72.658%
99.0%   Δp: 39.222%
95.0%   Δp: 18.089%
90.0%   Δp:  9.430%
75.0%   Δp:  0.936%
Median  Δp: -0.049%
25.0%   Δp: -3.806%
10.0%   Δp: -17.383%
 5.0%   Δp: -29.954%
 1.0%   Δp: -61.715%
 0.1%   Δp: -89.682%
Minimum Δp: -99.948%
RMS Δp    : 15.613 ± 0.067 %
Same top p: 74.188 ± 0.115 %