ai-forever/FRIDA · model_FRIDA_static_avx512vnni

Jun 26

•

Квантизация выполнена с использованием 8-битной асимметричной квантизации весов (симметричной для активаций) и калибровочного датасета на основе подмножества датасета ai-forever/solyanka (конфигурация lenta, 100 сэмплов).

Тип квантизации: Статическая, 8-битная (AVX512 VNNI)
Калибровочный датасет: ai-forever/solyanka (lenta, 100 сэмплов)
Операторы для квантизации: Add, Gather, MatMul, Reshape, Softmax, Tanh
Метод калибровки: Entropy (256 бинов)

Используемые конфиги:

operators_to_quantize = ["Add", "Gather", "MatMul", "Reshape", "Softmax", "Tanh"]
        
        config = AutoQuantizationConfig.avx512_vnni(
            is_static=True,
            use_symmetric_activations=False,
            use_symmetric_weights=True,
            per_channel=True,
            operators_to_quantize=operators_to_quantize
        )
        return config

        calibration_config = CalibrationConfig(
            dataset_name="ai-forever/solyanka",
            dataset_config_name="lenta",
            dataset_split="train",
            dataset_num_samples=num_calibration_samples,
            method=CalibrationMethod.Entropy,
            num_bins=256
        )

Upload model_FRIDA_static_avx512vnni_8bit.onnxa4bc6623

Colegero changed pull request title from Upload model_FRIDA_static_avx512vnni_8bit.onnx to model_FRIDA_static_avx512vnni_8bit.onnx Jun 26