remodlai
/

Llama-3.2-1B-Instruct-Nova-FP8

Model card Files Files and versions

brian-remodl commited on Sep 6

Commit

b042219

·

verified ·

1 Parent(s): 53da694

Upload Nova FP8 quantized model v1.1

Files changed (2) hide show

README.md +1 -1
config.json +2 -2

README.md CHANGED Viewed

@@ -45,7 +45,7 @@ This model is a Nova-quantized FP8 version of [meta-llama/Llama-3.2-1B-Instruct]
 | Metric | Value |
 |--------|-------|
 | Model Size Reduction | 50.0% |
-| Quantization Time | 0.12311434745788574 seconds |
 | Memory Usage | 3.44 GB |
 ## Validation Results

 | Metric | Value |
 |--------|-------|
 | Model Size Reduction | 50.0% |
+| Quantization Time | 0.12972354888916016 seconds |
 | Memory Usage | 3.44 GB |
 ## Validation Results

config.json CHANGED Viewed

@@ -91,13 +91,13 @@
   "transformers_version": "4.53.0",
   "model_type": "llama",
   "nova_quant": true,
-  "nova_quant_version": "1.0",
   "quantization_config": {
     "quant_method": "fp8",
     "fmt": "e4m3",
     "flashinfer_optimized": true,
     "quantized_by": "nova",
-    "quantized_at": "2025-09-06T01:18:59.343846",
     "source_model": "meta-llama/Llama-3.2-1B-Instruct",
     "modules_to_not_convert": [
       "lm_head",

   "transformers_version": "4.53.0",
   "model_type": "llama",
   "nova_quant": true,
+  "nova_quant_version": "1.1",
   "quantization_config": {
     "quant_method": "fp8",
     "fmt": "e4m3",
     "flashinfer_optimized": true,
     "quantized_by": "nova",
+    "quantized_at": "2025-09-06T01:50:12.562042",
     "source_model": "meta-llama/Llama-3.2-1B-Instruct",
     "modules_to_not_convert": [
       "lm_head",