Watt-Tool-8B-GGUF / scores /Watt-Tool-8B-iq3_m.ppx

Regenerate Perplexity, KLD, ARC, HellaSwag, MMLU, Truthful QA and WinoGrande scores

a5d4592 verified about 2 months ago

1.07 kB

	====== Perplexity statistics ======
	Mean PPL(Q) : 8.963688 ± 0.058386
	Mean PPL(base) : 7.237090 ± 0.045539
	Cor(ln(PPL(Q)), ln(PPL(base))): 95.93%
	Mean ln(PPL(Q)/PPL(base)) : 0.213963 ± 0.001840
	Mean PPL(Q)/PPL(base) : 1.238576 ± 0.002279
	Mean PPL(Q)-PPL(base) : 1.726598 ± 0.019534

	====== KL divergence statistics ======
	Mean KLD: 0.209768 ± 0.000734
	Maximum KLD: 11.045219
	99.9% KLD: 3.037534
	99.0% KLD: 1.327696
	99.0% KLD: 1.327696
	Median KLD: 0.145406
	10.0% KLD: 0.013515
	5.0% KLD: 0.004453
	1.0% KLD: 0.000589
	Minimum KLD: 0.000000

	====== Token probability statistics ======
	Mean Δp: -4.187 ± 0.035 %
	Maximum Δp: 87.898%
	99.9% Δp: 53.785%
	99.0% Δp: 29.326%
	95.0% Δp: 12.210%
	90.0% Δp: 5.784%
	75.0% Δp: 0.302%
	Median Δp: -0.896%
	25.0% Δp: -7.479%
	10.0% Δp: -19.150%
	5.0% Δp: -28.492%
	1.0% Δp: -52.697%
	0.1% Δp: -83.945%
	Minimum Δp: -97.765%
	RMS Δp : 13.969 ± 0.056 %
	Same top p: 77.664 ± 0.110 %