====== Perplexity statistics ======
Mean PPL(Q)                   :  15.756085 ±   0.134240
Mean PPL(base)                :  13.052024 ±   0.108483
Cor(ln(PPL(Q)), ln(PPL(base))):  94.45%
Mean ln(PPL(Q)/PPL(base))     :   0.188283 ±   0.002810
Mean PPL(Q)/PPL(base)         :   1.207176 ±   0.003392
Mean PPL(Q)-PPL(base)         :   2.704061 ±   0.047735

====== KL divergence statistics ======
Mean    KLD:   0.341147 ±   0.001464
Maximum KLD:  14.537857
99.9%   KLD:   5.610807
99.0%   KLD:   2.699044
99.0%   KLD:   2.699044
Median  KLD:   0.169474
10.0%   KLD:   0.004443
 5.0%   KLD:   0.000969
 1.0%   KLD:   0.000097
Minimum KLD:  -0.000001

====== Token probability statistics ======
Mean    Δp: -2.851 ± 0.040 %
Maximum Δp: 98.231%
99.9%   Δp: 65.858%
99.0%   Δp: 35.218%
95.0%   Δp: 15.581%
90.0%   Δp:  7.938%
75.0%   Δp:  0.705%
Median  Δp: -0.075%
25.0%   Δp: -4.118%
10.0%   Δp: -17.346%
 5.0%   Δp: -29.981%
 1.0%   Δp: -63.627%
 0.1%   Δp: -93.594%
Minimum Δp: -99.962%
RMS Δp    : 15.306 ± 0.069 %
Same top p: 75.011 ± 0.114 %