Watt-Tool-8B-GGUF / scores /Watt-Tool-8B-q3_k_s.ppx

Generate Perplexity, KLD, ARC, HellaSwag, MMLU, Truthful QA and WinoGrande scores

10312a8 verified 26 days ago

1.07 kB

	====== Perplexity statistics ======
	Mean PPL(Q) : 8.869361 ± 0.056188
	Mean PPL(base) : 7.237090 ± 0.045539
	Cor(ln(PPL(Q)), ln(PPL(base))): 96.40%
	Mean ln(PPL(Q)/PPL(base)) : 0.203384 ± 0.001694
	Mean PPL(Q)/PPL(base) : 1.225543 ± 0.002076
	Mean PPL(Q)-PPL(base) : 1.632272 ± 0.017247

	====== KL divergence statistics ======
	Mean KLD: 0.171689 ± 0.000675
	Maximum KLD: 8.647476
	99.9% KLD: 3.093943
	99.0% KLD: 1.167801
	99.0% KLD: 1.167801
	Median KLD: 0.116922
	10.0% KLD: 0.009604
	5.0% KLD: 0.003321
	1.0% KLD: 0.000607
	Minimum KLD: 0.000004

	====== Token probability statistics ======
	Mean Δp: -5.020 ± 0.030 %
	Maximum Δp: 68.248%
	99.9% Δp: 34.217%
	99.0% Δp: 17.833%
	95.0% Δp: 7.053%
	90.0% Δp: 2.939%
	75.0% Δp: 0.031%
	Median Δp: -1.308%
	25.0% Δp: -7.961%
	10.0% Δp: -18.717%
	5.0% Δp: -26.619%
	1.0% Δp: -49.119%
	0.1% Δp: -82.457%
	Minimum Δp: -99.092%
	RMS Δp : 12.587 ± 0.055 %
	Same top p: 80.614 ± 0.104 %