====== Perplexity statistics ======
Mean PPL(Q)                   :   8.963688 ±   0.058386
Mean PPL(base)                :   7.237090 ±   0.045539
Cor(ln(PPL(Q)), ln(PPL(base))):  95.93%
Mean ln(PPL(Q)/PPL(base))     :   0.213963 ±   0.001840
Mean PPL(Q)/PPL(base)         :   1.238576 ±   0.002279
Mean PPL(Q)-PPL(base)         :   1.726598 ±   0.019534

====== KL divergence statistics ======
Mean    KLD:   0.209768 ±   0.000734
Maximum KLD:  11.045219
99.9%   KLD:   3.037534
99.0%   KLD:   1.327696
99.0%   KLD:   1.327696
Median  KLD:   0.145406
10.0%   KLD:   0.013515
 5.0%   KLD:   0.004453
 1.0%   KLD:   0.000589
Minimum KLD:   0.000000

====== Token probability statistics ======
Mean    Δp: -4.187 ± 0.035 %
Maximum Δp: 87.898%
99.9%   Δp: 53.785%
99.0%   Δp: 29.326%
95.0%   Δp: 12.210%
90.0%   Δp:  5.784%
75.0%   Δp:  0.302%
Median  Δp: -0.896%
25.0%   Δp: -7.479%
10.0%   Δp: -19.150%
 5.0%   Δp: -28.492%
 1.0%   Δp: -52.697%
 0.1%   Δp: -83.945%
Minimum Δp: -97.765%
RMS Δp    : 13.969 ± 0.056 %
Same top p: 77.664 ± 0.110 %