====== Perplexity statistics ======
Mean PPL(Q)                   :   7.841948 ±   0.049502
Mean PPL(base)                :   7.237090 ±   0.045539
Cor(ln(PPL(Q)), ln(PPL(base))):  98.36%
Mean ln(PPL(Q)/PPL(base))     :   0.080268 ±   0.001143
Mean PPL(Q)/PPL(base)         :   1.083578 ±   0.001238
Mean PPL(Q)-PPL(base)         :   0.604858 ±   0.009476

====== KL divergence statistics ======
Mean    KLD:   0.081774 ±   0.000354
Maximum KLD:   7.690053
99.9%   KLD:   1.654508
99.0%   KLD:   0.555790
99.0%   KLD:   0.555790
Median  KLD:   0.056256
10.0%   KLD:   0.003426
 5.0%   KLD:   0.001063
 1.0%   KLD:   0.000157
Minimum KLD:   0.000000

====== Token probability statistics ======
Mean    Δp: -2.133 ± 0.021 %
Maximum Δp: 73.495%
99.9%   Δp: 32.336%
99.0%   Δp: 17.093%
95.0%   Δp:  7.846%
90.0%   Δp:  4.045%
75.0%   Δp:  0.372%
Median  Δp: -0.301%
25.0%   Δp: -3.967%
10.0%   Δp: -10.805%
 5.0%   Δp: -16.007%
 1.0%   Δp: -30.015%
 0.1%   Δp: -62.256%
Minimum Δp: -96.763%
RMS Δp    :  8.316 ± 0.043 %
Same top p: 85.224 ± 0.094 %