Tokenizer¶
In [1]:
# tokviz/visualization.py
from IPython.display import HTML, display
from transformers import AutoTokenizer
def token_visualizer(text, models=['openai-community/gpt2']):
"""
Compares tokenization patterns across different language models and visualizes the results.
Args:
text (str): The input text to tokenize and compare.
models (list): A list of language model names or identifiers to compare.
Default is ['gpt-2'].
"""
for model in models:
tokenizer = AutoTokenizer.from_pretrained(model)
tokenizer_visualizer(text, tokenizer, model)
def tokenizer_visualizer(text, tokenizer, model_name):
tokens = tokenizer.tokenize(text)
token_colors = get_token_colors(tokens)
num_tokens = len(tokens)
num_chars = len(text)
display(HTML(f"<h2>Model: {model_name}</h2>"))
display(HTML(f"<p><b>Number of Tokens:</b> {num_tokens}</p>"))
display(HTML(f"<p><b>Number of Characters:</b> {num_chars}</p>"))
visualize_tokens(tokenizer, tokens, token_colors)
def visualize_tokens(tokenizer, tokens, token_colors):
"""
Visualizes tokenized text with color-coded highlighting.
Args:
tokens (list): List of tokens.
token_colors (dict): Dictionary mapping tokens to their corresponding colors.
"""
colored_text = ""
for token in tokens:
token_str = tokenizer.convert_tokens_to_string([token])
color = token_colors[token]
colored_text += f'<span style="background-color: {color}; padding: 2px;">{token_str}</span> '
display(HTML(colored_text))
def get_token_colors(tokens):
"""
Generates colors for tokens in the input text.
Args:
tokens (list): List of tokens.
Returns:
dict: Dictionary mapping tokens to their corresponding colors.
"""
unique_tokens = list(set(tokens))
token_colors = {token: number_to_color(hash(token)) for token in unique_tokens}
return token_colors
def number_to_color(number):
"""
Generates a color based on a numerical value.
Args:
number (int): The numerical value.
Returns:
str: A color value in HSL format.
"""
golden_ratio_conjugate = 0.618033988749895
a = 1664525
c = 1013904223
m = 2**32
pseudorandom = (a * number + c) % m
hue = ((pseudorandom * golden_ratio_conjugate) % 1) * 360
s = 60 + (pseudorandom % 21)
l = 70 + (pseudorandom % 21)
return f"hsl({hue}, {s}%, {l}%)"
In [2]:
# from tokviz import token_visualizer
text = "Альпака - домашнее мозоленогое животное, предположительно произошедшее от викуньи (вигони). Разводят в высокогорном поясе Южной Америки (Анды). На сегодняшний день там обитает около трёх миллионов альпак, большая часть из которых населяет Перу. Выращивают альпак для стрижки шерсти, из которой делают тёплые и мягкие одеяла, пледы и одежду, а из меха делают предметы для дома."
token_visualizer(text, models=["FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview","ai-sage/GigaChat-20B-A3B-instruct","msu-rcc-lair/RuadaptQwen2.5-32B-instruct"])
Model: FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview
Number of Tokens: 140
Number of Characters: 376
А ль п ак а - дом аш нее м оз ол ен ого е живот ное , пред пол ож ительно произ о шедш ее от в ик ун ь и ( в иг он и ). Раз вод ят в выс ок ог ор ном поя се Ю ж ной А мер ики ( А н ды ). На сегодня ш ний день там об ит ает около тр ё х миллион ов а ль п ак , больш ая часть из которых нас еля ет Пер у . Вы ращ ивают а ль п ак для стр иж ки ш ер сти , из которой дел ают т ё пл ые и мяг кие од е я ла , пл ед ы и од ежду , а из мех а дел ают предмет ы для дома .
Model: ai-sage/GigaChat-20B-A3B-instruct
Number of Tokens: 93
Number of Characters: 376
Аль п ака - домашнее моз олен ого е животное , предположительно произошед шее от вик ун ьи ( ви го ни ). Раз вод ят в высок огор ном поя се Южной Америки ( А нды ). На сегодняшний день там обит ает около трёх миллионов альп ак , большая часть из которых нас еля ет Перу . Вы ращ ивают альп ак для стриж ки шерсти , из которой делают тёп лые и мягкие одея ла , пл еды и одежду , а из м еха делают предметы для дома .
Model: msu-rcc-lair/RuadaptQwen2.5-32B-instruct
Number of Tokens: 94
Number of Characters: 376
А льп ак а - домашнее моз олен ого е животное , предполож ительно произошедшее от вик ун ьи ( виг они ). Раз водят в высок огор ном по я се Южной Америки ( Ан ды ). На сегодняшний день там обитает около трёх миллионов аль пак , большая часть из которых нас еляет Перу . Вы ращ ивают аль пак для стр иж ки шерсти , из которой делают тёпл ые и мягкие од ея ла , пл ед ы и одежду , а из мех а делают предметы для дома .
In [3]:
# from tokviz import token_visualizer
text = """Алгоритм быстрой сортировки (quicksort) — это эффективный алгоритм сортировки, использующий метод "разделяй и властвуй". Он основан на принципе выбора опорного элемента (pivot) из массива, затем разделения массива на две подмассива: один с элементами, меньшими или равными опорному, и другой — с элементами, большими опорного. Затем рекурсивно применяется тот же процесс к подмассивам. Абсолютное преимущество быстрой сортировки состоит в том, что она выполняется за время \(O(n \log n)\) в среднем и в лучшем случаях. На языке Python алгоритм быстрой сортировки может быть реализован следующим образом: ```python def quicksort(arr): # Обработка ошибок: пустой массив или массив с одним элементом if arr is None: raise ValueError("Input array cannot be None.") if len(arr) <= 1: return arr # Выбор опорного элемента (в данном случае первый элемент массива) pivot = arr[0] # Разделение массива на две части less = [x for x in arr[1:] if x <= pivot] # Элементы меньше или равные опорному greater = [x for x in arr[1:] if x > pivot] # Элементы больше опорного # Рекурсивная сортировка подмассивов и объединение результатов return quicksort(less) + [pivot] + quicksort(greater) # Пример использования: try: array = [3, 6, 8, 10, 1, 2, 1] sorted_array = quicksort(array) print("Сортированный массив:", sorted_array) except ValueError as e: print("Ошибка:", e) ``` ### Обработка ошибок: 1. В начале функции проверяется, не передан ли `None` вместо массива, и генерируется исключение `ValueError` в таком случае. 2. Если массив содержит один или ноль элементов, он считается уже отсортированным, функция возвращает его без изменений. ### Обработка дубликатов: У нас есть условие `x <= pivot` в списке `less`, что позволяет корректно обрабатывать массивы с дубликатами. ### Ошибочный код: Предоставленный вами фрагмент ошибочного кода использует неправильные операторы сравнения в list comprehensions: ```python def quicksort_wrong(arr): if len(arr) <= 1: return arr pivot = arr[0] less = [x for x in arr[1:] if x < pivot] # Включая равные в greater! greater = [x for x in arr[1:] if x >= pivot] # Включая равные в less! return quicksort_wrong(less) + [pivot] + quicksort_wrong(greater) ``` **Проблема:** В этом варианте все элементы, равные опорному, попадают в массив `greater`. В случае наличия значительного количества повторяющихся элементов это может привести к недостаточной разбиению массива, что, в худшем случае, замедлит работу алгоритма до \(O(n^2)\) времени. Кроме того, в ситуации, когда все элементы в массиве равны, функция может вызываться рекурсивно каждый раз с одним и тем же массивом, что приводит к бесконечной rekурсии и ошибке переполнения стека вызовов."""
token_visualizer(text, models=["FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview","ai-sage/GigaChat-20B-A3B-instruct","msu-rcc-lair/RuadaptQwen2.5-32B-instruct"])
<>:3: SyntaxWarning: invalid escape sequence '\(' <>:3: SyntaxWarning: invalid escape sequence '\(' /tmp/ipykernel_458952/3167544564.py:3: SyntaxWarning: invalid escape sequence '\(' text = """Алгоритм быстрой сортировки (quicksort) — это эффективный алгоритм сортировки, использующий метод "разделяй и властвуй". Он основан на принципе выбора опорного элемента (pivot) из массива, затем разделения массива на две подмассива: один с элементами, меньшими или равными опорному, и другой — с элементами, большими опорного. Затем рекурсивно применяется тот же процесс к подмассивам. Абсолютное преимущество быстрой сортировки состоит в том, что она выполняется за время \(O(n \log n)\) в среднем и в лучшем случаях. На языке Python алгоритм быстрой сортировки может быть реализован следующим образом: ```python def quicksort(arr): # Обработка ошибок: пустой массив или массив с одним элементом if arr is None: raise ValueError("Input array cannot be None.") if len(arr) <= 1: return arr # Выбор опорного элемента (в данном случае первый элемент массива) pivot = arr[0] # Разделение массива на две части less = [x for x in arr[1:] if x <= pivot] # Элементы меньше или равные опорному greater = [x for x in arr[1:] if x > pivot] # Элементы больше опорного # Рекурсивная сортировка подмассивов и объединение результатов return quicksort(less) + [pivot] + quicksort(greater) # Пример использования: try: array = [3, 6, 8, 10, 1, 2, 1] sorted_array = quicksort(array) print("Сортированный массив:", sorted_array) except ValueError as e: print("Ошибка:", e) ``` ### Обработка ошибок: 1. В начале функции проверяется, не передан ли `None` вместо массива, и генерируется исключение `ValueError` в таком случае. 2. Если массив содержит один или ноль элементов, он считается уже отсортированным, функция возвращает его без изменений. ### Обработка дубликатов: У нас есть условие `x <= pivot` в списке `less`, что позволяет корректно обрабатывать массивы с дубликатами. ### Ошибочный код: Предоставленный вами фрагмент ошибочного кода использует неправильные операторы сравнения в list comprehensions: ```python def quicksort_wrong(arr): if len(arr) <= 1: return arr pivot = arr[0] less = [x for x in arr[1:] if x < pivot] # Включая равные в greater! greater = [x for x in arr[1:] if x >= pivot] # Включая равные в less! return quicksort_wrong(less) + [pivot] + quicksort_wrong(greater) ``` **Проблема:** В этом варианте все элементы, равные опорному, попадают в массив `greater`. В случае наличия значительного количества повторяющихся элементов это может привести к недостаточной разбиению массива, что, в худшем случае, замедлит работу алгоритма до \(O(n^2)\) времени. Кроме того, в ситуации, когда все элементы в массиве равны, функция может вызываться рекурсивно каждый раз с одним и тем же массивом, что приводит к бесконечной rekурсии и ошибке переполнения стека вызовов."""
Model: FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview
Number of Tokens: 816
Number of Characters: 2670
А л гор ит м бы строй с ор тиров ки ( qu icks ort ) — это эффектив ный ал гор ит м с ор тиров ки , использ ующ ий метод " раз д еля й и вла ств уй ". Он основан на принцип е выбор а оп ор ного элемент а ( pivot ) из массив а , затем раздел ения массив а на две под м ассив а : один с элемент ами , мень ш ими или рав ными оп ор ному , и другой — с элемент ами , больш ими оп ор ного . З ат ем рек урс ив но применя ется тот же процесс к под м ассив ам . А б сол ют ное преим ущ ество бы строй с ор тиров ки состоит в том , что она выполня ется за время \( O (n \ log n )\ ) в сред нем и в луч ш ем случаях . На я зы ке Python ал гор ит м бы строй с ор тиров ки может быть реализ ован след ующ им образом : ``` python def quick sort (arr ): # Об работка ошиб ок : п уст ой массив или массив с одним элемент ом if arr is None : raise ValueError (" Input array cannot be None .") if len (arr ) <= 1 : return arr # Вы бор оп ор ного элемент а ( в данном случае первый элемент массив а ) pivot = arr [ 0 ] # Раз дел ение массив а на две части less = [ x for x in arr [ 1 :] if x <= pivot ] # Э лемент ы меньше или рав ные оп ор ному greater = [ x for x in arr [ 1 :] if x > pivot ] # Э лемент ы больше оп ор ного # Р ек урс ив ная с ор тиров ка под м ассив ов и объ един ение результат ов return quick sort ( less ) + [ pivot ] + quick sort (g reater ) # Пр имер использования : try : array = [ 3 , 6 , 8 , 1 0 , 1 , 2 , 1 ] sorted _array = quick sort (array ) print (" С ор тиров анны й массив :", sorted _array ) except ValueError as e : print (" Ошибка :", e ) ``` ### Об работка ошиб ок : 1 . В начал е функци и провер я ется , не перед ан ли ` None ` вмест о массив а , и г ен ер ируется ис ключение ` Value Error ` в так ом случае . 2 . Если массив содержит один или н оль элемент ов , он счит ается уже от сор тиров анны м , функци я в озвращает его без измен ений . ### Об работка д уб лик ат ов : У нас есть услов ие ` x <= pivot ` в спис ке ` less `, что позволяет кор рект но об рабат ывать массив ы с д уб лик ат ами . ### О шиб очный код : Пред ост ав лен ный в ами ф раг мент ошиб оч ного код а использ ует н еп рав иль ные опер атор ы сравн ения в list compreh ensions : ``` python def quick sort _wrong (arr ): if len (arr ) <= 1 : return arr pivot = arr [ 0 ] less = [ x for x in arr [ 1 :] if x < pivot ] # В ключ ая рав ные в greater ! greater = [ x for x in arr [ 1 :] if x >= pivot ] # В ключ ая рав ные в less ! return quick sort _wrong ( less ) + [ pivot ] + quick sort _wrong (g reater ) ``` ** Пр об лем а :** В этом вари ан те все элемент ы , рав ные оп ор ному , поп ад ают в массив ` greater `. В случае налич ия знач итель ного кол ич еств а повтор я ющихся элемент ов это может пр ив ести к нед ост ат очной раз би ению массив а , что , в х уд ш ем случае , зам ед лит работу ал гор ит ма до \( O (n ^ 2 )\ ) времени . Кроме того , в ситуации , когда все элемент ы в массив е рав ны , функци я может выз ыв аться рек урс ив но каждый раз с одним и тем же массив ом , что пр ив од ит к бес кон еч ной rek урс ии и ошиб ке пер еп олн ения ст ек а выз ов ов .
Model: ai-sage/GigaChat-20B-A3B-instruct
Number of Tokens: 674
Number of Characters: 2670
Ал горитм быстрой сорт ировки ( quick sort ) — это эффективный алгоритм сорт ировки , использ ующий метод " раздел яй и вла ству й ". Он основан на принципе выбора опор ного элемента ( pivot ) из массива , затем разделения массива на две под масс ива : один с элементами , мень шими или рав ными опор ному , и другой — с элементами , большими опор ного . Затем рек ур сив но применяется тот же процесс к под масс ив ам . Абсолют ное преимущество быстрой сорт ировки состоит в том , что она выполняется за время \( O (n \ log n )\) в среднем и в лучшем случаях . На языке Python алгоритм быстрой сорт ировки может быть реализ ован следующим образом : ``` python def quick sort (arr ): # Об работка ошибок : пустой массив или массив с одним элементом if arr is None : raise Value Error (" Input array cannot be None .") if len (arr ) <= 1 : return arr # Выбор опор ного элемента ( в данном случае первый элемент массива ) pivot = arr [ 0 ] # Раз деление массива на две части less = [ x for x in arr [ 1 : ] if x <= pivot ] # Э лем енты меньше или рав ные опор ному greater = [ x for x in arr [ 1 : ] if x > pivot ] # Э лем енты больше опор ного # Рек ур сив ная сорт ировка под масс ив ов и объединение результатов return quick sort ( less ) + [ pivot ] + quick sort (g reater ) # Пример использования : try : array = [ 3 , 6 , 8 , 1 0 , 1 , 2 , 1 ] sorted _array = quick sort (array ) print (" С орт ированный массив :", sorted _array ) except Value Error as e : print (" Ошибка :", e ) ``` ### Об работка ошибок : 1 . В начале функции провер яется , не передан ли ` None ` вместо массива , и генери руется исключение ` Value Error ` в таком случае . 2 . Если массив содержит один или н оль элементов , он считается уже отс орт ированным , функция возвращает его без изменений . ### Об работка дубли кат ов : У нас есть условие ` x <= pivot ` в списке ` less `, что позволяет коррект но обрабатывать массив ы с дубли кат ами . ### О шиб очный код : Предостав ленный вами фрагмент ошиб очного кода использует неправиль ные операторы сравнения в list compreh ensions : ``` python def quick sort _w rong (arr ): if len (arr ) <= 1 : return arr pivot = arr [ 0 ] less = [ x for x in arr [ 1 : ] if x < pivot ] # Включ ая рав ные в greater ! greater = [ x for x in arr [ 1 : ] if x >= pivot ] # Включ ая рав ные в less ! return quick sort _w rong ( less ) + [ pivot ] + quick sort _w rong (g reater ) ``` ** Проблем а :** В этом варианте все элементы , рав ные опор ному , попадают в массив ` greater `. В случае наличия знач ительного количества повтор я ющихся элементов это может привести к недостат очной раз би ению массива , что , в худ шем случае , замед лит работу алгорит ма до \( O (n ^ 2 )\) времени . Кроме того , в ситуации , когда все элементы в массив е рав ны , функция может выз ываться рек ур сив но каждый раз с одним и тем же массив ом , что приводит к бесконе чной rek ур сии и ошиб ке переп олнения стек а вызов ов .
Model: msu-rcc-lair/RuadaptQwen2.5-32B-instruct
Number of Tokens: 664
Number of Characters: 2670
Ал гор итм бы строй сор тиров ки ( qu icks ort ) — это эффектив ный алгоритм сор тиров ки , использ ующий метод " разд еля й и в ла ств уй ". Он основан на принципе выбора опор ного элемента ( pivot ) из массива , затем разделения массива на две под м ассив а : один с элементами , мень шими или рав ными опор ному , и другой — с элементами , большими опор ного . Затем рек урс ивно применяется тот же процесс к под м ассив ам . Абсолют ное преимущество бы строй сор тиров ки состоит в том , что она выполняется за время \( O (n \ log n )\ ) в среднем и в лучшем случаях . На языке Python алгоритм бы строй сор тиров ки может быть реализован следующим образом : ``` python def quick sort (arr ): # Об работка ошибок : пустой массив или массив с одним элементом if arr is None : raise ValueError (" Input array cannot be None .") if len (arr ) <= 1 : return arr # Выбор опор ного элемента ( в данном случае первый элемент массива ) pivot = arr [ 0 ] # Раздел ение массива на две части less = [ x for x in arr [ 1 :] if x <= pivot ] # Элемент ы меньше или рав ные опор ному greater = [ x for x in arr [ 1 :] if x > pivot ] # Элемент ы больше опор ного # Рек урс ивная сор тиров ка под м ассив ов и объединение результатов return quick sort ( less ) + [ pivot ] + quick sort (g reater ) # Пример использования : try : array = [ 3 , 6 , 8 , 1 0 , 1 , 2 , 1 ] sorted _array = quick sort (array ) print (" С ортиров анный массив :", sorted _array ) except ValueError as e : print (" Ошибка :", e ) ``` ### Об работка ошибок : 1 . В начале функции провер яется , не передан ли ` None ` вместо массива , и генер ируется исключение ` Value Error ` в таком случае . 2 . Если массив содержит один или н оль элементов , он считается уже отс ортиров анным , функция возвращает его без изменений . ### Об работка дубли кат ов : У нас есть условие ` x <= pivot ` в списке ` less `, что позволяет корректно обрабатывать массив ы с дубли кат ами . ### О шиб очный код : Пред остав ленный вами фрагмент ошиб очного кода использует неправ иль ные оператор ы сравнения в list compreh ensions : ``` python def quick sort _wrong (arr ): if len (arr ) <= 1 : return arr pivot = arr [ 0 ] less = [ x for x in arr [ 1 :] if x < pivot ] # Включ ая рав ные в greater ! greater = [ x for x in arr [ 1 :] if x >= pivot ] # Включ ая рав ные в less ! return quick sort _wrong ( less ) + [ pivot ] + quick sort _wrong (g reater ) ``` ** Пр об лема :** В этом варианте все элементы , рав ные опор ному , попадают в массив ` greater `. В случае наличия значительного количества повторя ющихся элементов это может привести к недостат очной раз би ению массива , что , в худшем случае , замедлит работу алгоритма до \( O (n ^ 2 )\ ) времени . Кроме того , в ситуации , когда все элементы в массив е равны , функция может выз ываться рек урс ивно каждый раз с одним и тем же массив ом , что приводит к бескон ечной rek урс ии и ошибке переп олн ения стека вызов ов .
In [4]:
from transformers import AutoTokenizer
source_model_id = "FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview"
source_tokenizer = AutoTokenizer.from_pretrained(source_model_id)
source_tokenizer
Out[4]:
LlamaTokenizerFast(name_or_path='FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview', vocab_size=151643, model_max_length=16384, is_fast=True, padding_side='left', truncation_side='right', special_tokens={'bos_token': '<|begin▁of▁sentence|>', 'eos_token': '<|end▁of▁sentence|>', 'pad_token': '<|end▁of▁sentence|>'}, clean_up_tokenization_spaces=False, added_tokens_decoder={ 151643: AddedToken("<|end▁of▁sentence|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151644: AddedToken("<|User|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151645: AddedToken("<|Assistant|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151646: AddedToken("<|begin▁of▁sentence|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151647: AddedToken("<|EOT|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151648: AddedToken("<think>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151649: AddedToken("</think>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151650: AddedToken("<|quad_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151651: AddedToken("<|quad_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151652: AddedToken("<|vision_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151653: AddedToken("<|vision_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151654: AddedToken("<|vision_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151655: AddedToken("<|image_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151656: AddedToken("<|video_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151657: AddedToken("<tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151658: AddedToken("</tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151659: AddedToken("<|fim_prefix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151660: AddedToken("<|fim_middle|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151661: AddedToken("<|fim_suffix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151662: AddedToken("<|fim_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151663: AddedToken("<|repo_name|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151664: AddedToken("<|file_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), } )
In [5]:
from transformers import AutoTokenizer
giga_model_id = "ai-sage/GigaChat-20B-A3B-instruct"
giga_tokenizer = AutoTokenizer.from_pretrained(giga_model_id)
giga_tokenizer
Out[5]:
PreTrainedTokenizerFast(name_or_path='ai-sage/GigaChat-20B-A3B-instruct', vocab_size=128000, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '<|message_sep|>', 'additional_special_tokens': ['<|role_sep|>', '<|message_sep|>', '[', ']', '<|role_sep|>', '<|message_sep|>', '[', ']']}, clean_up_tokenization_spaces=True, added_tokens_decoder={ 1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 61: AddedToken("[", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 63: AddedToken("]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 128000: AddedToken("<|role_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 128001: AddedToken("<|message_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), } )
In [6]:
from transformers import AutoTokenizer
giga_model_id = "ai-sage/GigaChat-20B-A3B-instruct"
tokenizer = AutoTokenizer.from_pretrained(giga_model_id)
tokenizer.add_bos_token = False
tokenizer.model_max_length = 32768
tokenizer.add_special_tokens({"bos_token": ""})
tokenizer.add_special_tokens(source_tokenizer.special_tokens_map)
tokenizer.add_tokens([x.content for x in source_tokenizer.added_tokens_decoder.values()])
tokenizer.clean_up_tokenization_spaces = False
vocab_size = len(tokenizer.get_vocab())
print("vocab_size", vocab_size)
tokenizer
vocab_size 128024
Out[6]:
PreTrainedTokenizerFast(name_or_path='ai-sage/GigaChat-20B-A3B-instruct', vocab_size=128000, model_max_length=32768, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<|begin▁of▁sentence|>', 'eos_token': '<|end▁of▁sentence|>', 'pad_token': '<|end▁of▁sentence|>', 'additional_special_tokens': ['<|role_sep|>', '<|message_sep|>', '[', ']', '<|role_sep|>', '<|message_sep|>', '[', ']']}, clean_up_tokenization_spaces=False, added_tokens_decoder={ 1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 61: AddedToken("[", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 63: AddedToken("]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 128000: AddedToken("<|role_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 128001: AddedToken("<|message_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 128002: AddedToken("<|begin▁of▁sentence|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128003: AddedToken("<|end▁of▁sentence|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128004: AddedToken("<|User|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128005: AddedToken("<|Assistant|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128006: AddedToken("<|EOT|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128007: AddedToken("<think>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128008: AddedToken("</think>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128009: AddedToken("<|quad_start|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128010: AddedToken("<|quad_end|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128011: AddedToken("<|vision_start|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128012: AddedToken("<|vision_end|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128013: AddedToken("<|vision_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128014: AddedToken("<|image_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128015: AddedToken("<|video_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128016: AddedToken("<tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128017: AddedToken("</tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128018: AddedToken("<|fim_prefix|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128019: AddedToken("<|fim_middle|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128020: AddedToken("<|fim_suffix|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128021: AddedToken("<|fim_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128022: AddedToken("<|repo_name|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), 128023: AddedToken("<|file_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False), } )
In [7]:
# tokenizer.chat_template = '{%- if tools %}\n {{- \'<|im_start|>system\\n\' }}\n {%- if messages[0][\'role\'] == \'system\' %}\n {{- messages[0][\'content\'] }}\n {%- else %}\n {{- \'You are a helpful assistant.\' }}\n {%- endif %}\n {{- "\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>" }}\n {%- for tool in tools %}\n {{- "\\n" }}\n {{- tool | tojson }}\n {%- endfor %}\n {{- "\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\"name\\": <function-name>, \\"arguments\\": <args-json-object>}\\n</tool_call><|im_end|>\\n" }}\n{%- else %}\n {%- if messages[0][\'role\'] == \'system\' %}\n {{- \'<|im_start|>system\\n\' + messages[0][\'content\'] + \'<|im_end|>\\n\' }}\n {%- else %}\n {{- \'<|im_start|>system\\nYou are a helpful assistant.<|im_end|>\\n\' }}\n {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}\n {{- \'<|im_start|>\' + message.role + \'\\n\' + message.content + \'<|im_end|>\' + \'\\n\' }}\n {%- elif message.role == "assistant" %}\n {{- \'<|im_start|>\' + message.role }}\n {%- if message.content %}\n {{- \'\\n\' + message.content }}\n {%- endif %}\n {%- for tool_call in message.tool_calls %}\n {%- if tool_call.function is defined %}\n {%- set tool_call = tool_call.function %}\n {%- endif %}\n {{- \'\\n<tool_call>\\n{"name": "\' }}\n {{- tool_call.name }}\n {{- \'", "arguments": \' }}\n {{- tool_call.arguments | tojson }}\n {{- \'}\\n</tool_call>\' }}\n {%- endfor %}\n {{- \'<|im_end|>\\n\' }}\n {%- elif message.role == "tool" %}\n {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}\n {{- \'<|im_start|>user\' }}\n {%- endif %}\n {{- \'\\n<tool_response>\\n\' }}\n {{- message.content }}\n {{- \'\\n</tool_response>\' }}\n {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}\n {{- \'<|im_end|>\\n\' }}\n {%- endif %}\n {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n {{- \'<|im_start|>assistant\\n\' }}\n{%- endif %}\n'
tokenizer.chat_template = source_tokenizer.chat_template
tokenizer.chat_template
Out[7]:
"{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt='') %}{%- for message in messages %}{%- if message['role'] == 'system' %}{% set ns.system_prompt = message['content'] %}{%- endif %}{%- endfor %}{{bos_token}}{{ns.system_prompt}}{%- for message in messages %}{%- if message['role'] == 'user' %}{%- set ns.is_tool = false -%}{{'<|User|>' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is none %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls']%}{%- if not ns.is_first %}{{'<|Assistant|><|tool▁calls▁begin|><|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|tool▁call▁end|>'}}{%- set ns.is_first = true -%}{%- else %}{{'\\n' + '<|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|tool▁call▁end|>'}}{{'<|tool▁calls▁end|><|end▁of▁sentence|>'}}{%- endif %}{%- endfor %}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is not none %}{%- if ns.is_tool %}{{'<|tool▁outputs▁end|>' + message['content'] + '<|end▁of▁sentence|>'}}{%- set ns.is_tool = false -%}{%- else %}{% set content = message['content'] %}{% if '</think>' in content %}{% set content = content.split('</think>')[-1] %}{% endif %}{{'<|Assistant|>' + content + '<|end▁of▁sentence|>'}}{%- endif %}{%- endif %}{%- if message['role'] == 'tool' %}{%- set ns.is_tool = true -%}{%- if ns.is_output_first %}{{'<|tool▁outputs▁begin|><|tool▁output▁begin|>' + message['content'] + '<|tool▁output▁end|>'}}{%- set ns.is_output_first = false %}{%- else %}{{'\\n<|tool▁output▁begin|>' + message['content'] + '<|tool▁output▁end|>'}}{%- endif %}{%- endif %}{%- endfor -%}{% if ns.is_tool %}{{'<|tool▁outputs▁end|>'}}{% endif %}{% if add_generation_prompt and not ns.is_tool %}{{'<|Assistant|>'}}{% endif %}"
In [8]:
# from tokviz import token_visualizer
text = """Алгоритм быстрой сортировки (quicksort) — это эффективный алгоритм сортировки, использующий метод "разделяй и властвуй". Он основан на принципе выбора опорного элемента (pivot) из массива, затем разделения массива на две подмассива: один с элементами, меньшими или равными опорному, и другой — с элементами, большими опорного. Затем рекурсивно применяется тот же процесс к подмассивам. Абсолютное преимущество быстрой сортировки состоит в том, что она выполняется за время \(O(n \log n)\) в среднем и в лучшем случаях. На языке Python алгоритм быстрой сортировки может быть реализован следующим образом: ```python def quicksort(arr): # Обработка ошибок: пустой массив или массив с одним элементом if arr is None: raise ValueError("Input array cannot be None.") if len(arr) <= 1: return arr # Выбор опорного элемента (в данном случае первый элемент массива) pivot = arr[0] # Разделение массива на две части less = [x for x in arr[1:] if x <= pivot] # Элементы меньше или равные опорному greater = [x for x in arr[1:] if x > pivot] # Элементы больше опорного # Рекурсивная сортировка подмассивов и объединение результатов return quicksort(less) + [pivot] + quicksort(greater) # Пример использования: try: array = [3, 6, 8, 10, 1, 2, 1] sorted_array = quicksort(array) print("Сортированный массив:", sorted_array) except ValueError as e: print("Ошибка:", e) ``` ### Обработка ошибок: 1. В начале функции проверяется, не передан ли `None` вместо массива, и генерируется исключение `ValueError` в таком случае. 2. Если массив содержит один или ноль элементов, он считается уже отсортированным, функция возвращает его без изменений. ### Обработка дубликатов: У нас есть условие `x <= pivot` в списке `less`, что позволяет корректно обрабатывать массивы с дубликатами. ### Ошибочный код: Предоставленный вами фрагмент ошибочного кода использует неправильные операторы сравнения в list comprehensions: ```python def quicksort_wrong(arr): if len(arr) <= 1: return arr pivot = arr[0] less = [x for x in arr[1:] if x < pivot] # Включая равные в greater! greater = [x for x in arr[1:] if x >= pivot] # Включая равные в less! return quicksort_wrong(less) + [pivot] + quicksort_wrong(greater) ``` **Проблема:** В этом варианте все элементы, равные опорному, попадают в массив `greater`. В случае наличия значительного количества повторяющихся элементов это может привести к недостаточной разбиению массива, что, в худшем случае, замедлит работу алгоритма до \(O(n^2)\) времени. Кроме того, в ситуации, когда все элементы в массиве равны, функция может вызываться рекурсивно каждый раз с одним и тем же массивом, что приводит к бесконечной rekурсии и ошибке переполнения стека вызовов."""
text = tokenizer.apply_chat_template([{"role": "user", "content":text}], tokenize=False)
tokenizer_visualizer(text, tokenizer, "FuseAI-Flash-merge-32B")
<>:3: SyntaxWarning: invalid escape sequence '\(' <>:3: SyntaxWarning: invalid escape sequence '\(' /tmp/ipykernel_458952/141869410.py:3: SyntaxWarning: invalid escape sequence '\(' text = """Алгоритм быстрой сортировки (quicksort) — это эффективный алгоритм сортировки, использующий метод "разделяй и властвуй". Он основан на принципе выбора опорного элемента (pivot) из массива, затем разделения массива на две подмассива: один с элементами, меньшими или равными опорному, и другой — с элементами, большими опорного. Затем рекурсивно применяется тот же процесс к подмассивам. Абсолютное преимущество быстрой сортировки состоит в том, что она выполняется за время \(O(n \log n)\) в среднем и в лучшем случаях. На языке Python алгоритм быстрой сортировки может быть реализован следующим образом: ```python def quicksort(arr): # Обработка ошибок: пустой массив или массив с одним элементом if arr is None: raise ValueError("Input array cannot be None.") if len(arr) <= 1: return arr # Выбор опорного элемента (в данном случае первый элемент массива) pivot = arr[0] # Разделение массива на две части less = [x for x in arr[1:] if x <= pivot] # Элементы меньше или равные опорному greater = [x for x in arr[1:] if x > pivot] # Элементы больше опорного # Рекурсивная сортировка подмассивов и объединение результатов return quicksort(less) + [pivot] + quicksort(greater) # Пример использования: try: array = [3, 6, 8, 10, 1, 2, 1] sorted_array = quicksort(array) print("Сортированный массив:", sorted_array) except ValueError as e: print("Ошибка:", e) ``` ### Обработка ошибок: 1. В начале функции проверяется, не передан ли `None` вместо массива, и генерируется исключение `ValueError` в таком случае. 2. Если массив содержит один или ноль элементов, он считается уже отсортированным, функция возвращает его без изменений. ### Обработка дубликатов: У нас есть условие `x <= pivot` в списке `less`, что позволяет корректно обрабатывать массивы с дубликатами. ### Ошибочный код: Предоставленный вами фрагмент ошибочного кода использует неправильные операторы сравнения в list comprehensions: ```python def quicksort_wrong(arr): if len(arr) <= 1: return arr pivot = arr[0] less = [x for x in arr[1:] if x < pivot] # Включая равные в greater! greater = [x for x in arr[1:] if x >= pivot] # Включая равные в less! return quicksort_wrong(less) + [pivot] + quicksort_wrong(greater) ``` **Проблема:** В этом варианте все элементы, равные опорному, попадают в массив `greater`. В случае наличия значительного количества повторяющихся элементов это может привести к недостаточной разбиению массива, что, в худшем случае, замедлит работу алгоритма до \(O(n^2)\) времени. Кроме того, в ситуации, когда все элементы в массиве равны, функция может вызываться рекурсивно каждый раз с одним и тем же массивом, что приводит к бесконечной rekурсии и ошибке переполнения стека вызовов."""
Model: FuseAI-Flash-merge-32B
Number of Tokens: 676
Number of Characters: 2699
<|begin▁of▁sentence|> <|User|> Ал горитм быстрой сорт ировки ( quick sort ) — это эффективный алгоритм сорт ировки , использ ующий метод " раздел яй и вла ству й ". Он основан на принципе выбора опор ного элемента ( pivot ) из массива , затем разделения массива на две под масс ива : один с элементами , мень шими или рав ными опор ному , и другой — с элементами , большими опор ного . Затем рек ур сив но применяется тот же процесс к под масс ив ам . Абсолют ное преимущество быстрой сорт ировки состоит в том , что она выполняется за время \( O (n \ log n )\) в среднем и в лучшем случаях . На языке Python алгоритм быстрой сорт ировки может быть реализ ован следующим образом : ``` python def quick sort (arr ): # Об работка ошибок : пустой массив или массив с одним элементом if arr is None : raise Value Error (" Input array cannot be None .") if len (arr ) <= 1 : return arr # Выбор опор ного элемента ( в данном случае первый элемент массива ) pivot = arr [ 0 ] # Раз деление массива на две части less = [ x for x in arr [ 1 : ] if x <= pivot ] # Э лем енты меньше или рав ные опор ному greater = [ x for x in arr [ 1 : ] if x > pivot ] # Э лем енты больше опор ного # Рек ур сив ная сорт ировка под масс ив ов и объединение результатов return quick sort ( less ) + [ pivot ] + quick sort (g reater ) # Пример использования : try : array = [ 3 , 6 , 8 , 1 0 , 1 , 2 , 1 ] sorted _array = quick sort (array ) print (" С орт ированный массив :", sorted _array ) except Value Error as e : print (" Ошибка :", e ) ``` ### Об работка ошибок : 1 . В начале функции провер яется , не передан ли ` None ` вместо массива , и генери руется исключение ` Value Error ` в таком случае . 2 . Если массив содержит один или н оль элементов , он считается уже отс орт ированным , функция возвращает его без изменений . ### Об работка дубли кат ов : У нас есть условие ` x <= pivot ` в списке ` less `, что позволяет коррект но обрабатывать массив ы с дубли кат ами . ### О шиб очный код : Предостав ленный вами фрагмент ошиб очного кода использует неправиль ные операторы сравнения в list compreh ensions : ``` python def quick sort _w rong (arr ): if len (arr ) <= 1 : return arr pivot = arr [ 0 ] less = [ x for x in arr [ 1 : ] if x < pivot ] # Включ ая рав ные в greater ! greater = [ x for x in arr [ 1 : ] if x >= pivot ] # Включ ая рав ные в less ! return quick sort _w rong ( less ) + [ pivot ] + quick sort _w rong (g reater ) ``` ** Проблем а :** В этом варианте все элементы , рав ные опор ному , попадают в массив ` greater `. В случае наличия знач ительного количества повтор я ющихся элементов это может привести к недостат очной раз би ению массива , что , в худ шем случае , замед лит работу алгорит ма до \( O (n ^ 2 )\) времени . Кроме того , в ситуации , когда все элементы в массив е рав ны , функция может выз ываться рек ур сив но каждый раз с одним и тем же массив ом , что приводит к бесконе чной rek ур сии и ошиб ке переп олнения стек а вызов ов .
GPTQ¶
In [9]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
pretrained_model_dir = "FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-Flash-32B-Preview"
In [10]:
from datasets import Dataset, load_dataset, concatenate_datasets
from transformers import set_seed
args_seed = 14
set_seed(args_seed)
In [11]:
import torch
def f_tokenize(input_messages):
input_prompt = source_tokenizer.apply_chat_template(input_messages, tokenize=False, add_special_tokens=False)
input_ids = source_tokenizer.encode(input_prompt, return_tensors="pt", add_special_tokens=False)[0]
attention_mask = torch.ones_like(input_ids)
return {"tokens": input_ids, "attention_mask": attention_mask, "text": input_prompt}
In [12]:
import re
def f_ds_example(row):
convs = []
convs.append({"role": "user", "content": row["ru_query"]})
convs.append({"role": "assistant", "content": row["response"]})
tokenized = f_tokenize(convs)
return {"input_ids": tokenized["tokens"], "attention_mask": tokenized["attention_mask"], "text": tokenized["text"]}
ds_example = load_dataset("mizinovmv/ru_example_DeepSeek-R1-Distill-Qwen-32B")["train"]
ds_example = ds_example.map(f_ds_example, num_proc=8, remove_columns=ds_example.column_names)
ds_example = ds_example.filter(lambda x: len(re.findall(r'[\u4e00-\u9fff]+', x["text"])) == 0)
ds_example
Out[12]:
Dataset({ features: ['input_ids', 'attention_mask', 'text'], num_rows: 223 })
In [13]:
ds_example[0]["text"]
Out[13]:
'<|begin▁of▁sentence|><|User|>Опишите, что делает алгоритм быстрой сортировки (quicksort), и реализуйте его на языке программирования вашего выбора. Ваша реализация должна включать возможность обработки дублирующихся элементов в массиве входных данных и должна иметь временную сложность O(nlogn).\n\nКроме того, включите обработку ошибок в коде для обработки сценариев, в которых массив входных данных пуст или содержит только один элемент.\n\nЧтобы увеличить сложность, предоставьте фрагмент ошибочного кода в качестве ссылки для увеличения отирровки (запутанности):\n\n```python\ndef quicksort(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[0]\n less = [x for x in arr[1:] if x <= pivot]\n greater = [x for x in arr[1:] if x > pivot]\n\n return quicksort(less) + [pivot] + quicksort(greater)\n\n# Ошибочный код\ndef quicksort_wrong(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[0]\n less = [x for x in arr[1:] if x < pivot]\n greater = [x for x in arr[1:] if x >= pivot]\n\n return quicksort_wrong(less) + [pivot] + quicksort_wrong(greater)\n```\n\nВ этом переписанном задании предоставлен альтернативный, недопустимый вариант алгоритма быстрой сортировки в качестве ссылочного кода. Ошибочный код использует неправильные операторы неравенства в list comprehensions, что приведет к некорректной сортировке и потенциально к бесконечной рекурсии в определенных сценариях.<|Assistant|>\n\nДля реализации алгоритма быстрой сортировки (quicksort) на Python, который обрабатывает дублирующиеся элементы и ошибки, выполним следующие шаги:\n\n1. **Проверка на пустой массив или массив с одним элементом**: Если длина массива <= 1, возвращаем его как есть.\n2. **Выбор опорного элемента (pivot)**: Используем первый элемент массива.\n3. **Разделение массива**: Создаем два подмассива — `less` для элементов <= pivot и `greater` для элементов > pivot.\n4. **Рекурсивная сортировка**: Рекурсивно сортируем `less` и `greater`, затем объединяем результаты.\n5. **Обработка ошибок**: Проверяем, что входные данные — это список, иначе выбрасываем TypeError.\n\n**Код:**\n\n```python\ndef quicksort(arr):\n if not isinstance(arr, list):\n raise TypeError("Input must be a list")\n if len(arr) <= 1:\n return arr.copy() # Возвращаем копию, чтобы не изменять исходный список\n \n pivot = arr[0]\n less = [x for x in arr[1:] if x <= pivot]\n greater = [x for x in arr[1:] if x > pivot]\n \n return quicksort(less) + [pivot] + quicksort(greater)\n```\n\n**Объяснение ошибочного кода:**\n\nВ предоставленном ошибочном коде `quicksort_wrong`:\n- `less` включает элементы < pivot, а `greater` — >= pivot.\n- Это приводит к проблемам при дублирующихся элементах, так как они могут попасть в `greater`, вызывая бесконечную рекурсию.\n\n**Пример использования:**\n\n```python\ntry:\n arr = [3, 1, 4, 1, 5]\n sorted_arr = quicksort(arr)\n print("Отсортированный массив:", sorted_arr)\nexcept TypeError as e:\n print("Ошибка:", e)\n```\n\n**Вывод:**\n\nЭта реализация обеспечивает корректную сортировку массива, включая обработку дубликатов и ошибок, с временной сложностью O(n log n) в среднем случае.<|end▁of▁sentence|>'
In [14]:
def f_qwq_cot(row):
convs = []
convs.append({"role": "user", "content": row["problem"]})
convs.append({"role": "assistant", "content": row["qwq"]})
tokenized = f_tokenize(convs)
return {"input_ids": tokenized["tokens"], "attention_mask": tokenized["attention_mask"], "text": tokenized["text"]}
qwq_ds = load_dataset("amphora/QwQ-LongCoT-130K")["train"].filter(lambda x: (len(x["qwq"]) < 2*1024) & (x["source"] == "qwq-magpie")).select(range(900))
qwq_ds = qwq_ds.map(f_qwq_cot, num_proc=8, remove_columns=qwq_ds.column_names)
qwq_ds
Map (num_proc=8): 0%| | 0/900 [00:00<?, ? examples/s]
Out[14]:
Dataset({ features: ['input_ids', 'attention_mask', 'text'], num_rows: 900 })
In [15]:
# from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
from gptqmodel import GPTQModel, QuantizeConfig, get_best_device
quantize_config = QuantizeConfig(
bits=4,
group_size=32,
desc_act=True,
sym=True,
lm_head=False,
damp_percent=0.1,
damp_auto_increment=0.0015
)
In [16]:
model = GPTQModel.from_pretrained(
pretrained_model_dir,
quantize_config,
device_map="cpu",
trust_remote_code=True,
)
model.config.use_cache = False
model
INFO - Effective Quantization BPW (bits per weight): 5.0 bpw, based on [bits: 4, group_size: 32]
Fetching 22 files: 0%| | 0/22 [00:00<?, ?it/s]
Loading checkpoint shards: 0%| | 0/14 [00:00<?, ?it/s]
Out[16]:
Qwen2GPTQ( (model): Qwen2ForCausalLM( (model): Qwen2Model( (embed_tokens): Embedding(152064, 5120) (layers): ModuleList( (0-63): 64 x Qwen2DecoderLayer( (self_attn): Qwen2Attention( (q_proj): Linear(in_features=5120, out_features=5120, bias=True) (k_proj): Linear(in_features=5120, out_features=1024, bias=True) (v_proj): Linear(in_features=5120, out_features=1024, bias=True) (o_proj): Linear(in_features=5120, out_features=5120, bias=False) ) (mlp): Qwen2MLP( (gate_proj): Linear(in_features=5120, out_features=27648, bias=False) (up_proj): Linear(in_features=5120, out_features=27648, bias=False) (down_proj): Linear(in_features=27648, out_features=5120, bias=False) (act_fn): SiLU() ) (input_layernorm): Qwen2RMSNorm((5120,), eps=1e-05) (post_attention_layernorm): Qwen2RMSNorm((5120,), eps=1e-05) ) ) (norm): Qwen2RMSNorm((5120,), eps=1e-05) (rotary_emb): Qwen2RotaryEmbedding() ) (lm_head): Linear(in_features=5120, out_features=152064, bias=False) ) )
In [17]:
import logging
logger = logging.getLogger()
logger.setLevel(logging.DEBUG)
logging.debug("test")
DEBUG:root:test
In [18]:
quant_dataset = concatenate_datasets([ds_example, qwq_ds])
quant_dataset = quant_dataset.shuffle(seed=14)
quant_dataset
DEBUG:fsspec.local:open file: /home/mmv/.cache/huggingface/datasets/mizinovmv___ru_example_deep_seek-r1-distill-qwen-32_b/default/0.0.0/0b70e6cc2460f7d4434d233d59812676c733befc/tmpc_fb8hd6
Out[18]:
Dataset({ features: ['input_ids', 'attention_mask', 'text'], num_rows: 1123 })
In [19]:
from gptqmodel.utils.backend import BACKEND
# TODO https://github.com/ModelCloud/GPTQModel/blob/v1.7.3/gptqmodel/models/base.py#L780 time.sleep(0.15)
# /home/mmv/.pyenv/versions/3.12.5/versions/3.12.5/lib/python3.12/site-packages/gptqmodel/models/base.py
model.quantize(quant_dataset, batch_size=1, calibration_enable_gpu_cache=False, tokenizer=tokenizer)
INFO - Auto pick kernel based on compatibility: <class 'gptqmodel.nn_modules.qlinear.exllama.ExllamaQuantLinear'>
|----------------------------------------| 0:00:00 / 0:00:00 [1/64] 1.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 0, 'module': 'self_attn.k_proj', 'loss': '0.21932', 'damp': '0.10000', 'time': '1.539', 'fwd_time': '181.555'} INFO - {'layer': 0, 'module': 'self_attn.v_proj', 'loss': '0.06990', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.555'} INFO - {'layer': 0, 'module': 'self_attn.q_proj', 'loss': '0.63353', 'damp': '0.10000', 'time': '1.497', 'fwd_time': '181.555'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 0, 'module': 'self_attn.o_proj', 'loss': '1.53644', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '180.229'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 0, 'module': 'mlp.up_proj', 'loss': '0.48136', 'damp': '0.10000', 'time': '2.423', 'fwd_time': '180.524'} INFO - {'layer': 0, 'module': 'mlp.gate_proj', 'loss': '0.52939', 'damp': '0.10000', 'time': '2.411', 'fwd_time': '180.524'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 0, 'module': 'mlp.down_proj', 'loss': '0.60040', 'damp': '0.10000', 'time': '11.206', 'fwd_time': '194.950'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 0 of 63 |█---------------------------------------| 0:16:04 / 8:34:08 [2/64] 3.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 1, 'module': 'self_attn.k_proj', 'loss': '0.00747', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.374'} INFO - {'layer': 1, 'module': 'self_attn.v_proj', 'loss': '0.00383', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '181.374'} INFO - {'layer': 1, 'module': 'self_attn.q_proj', 'loss': '0.02565', 'damp': '0.10000', 'time': '1.502', 'fwd_time': '181.374'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 1, 'module': 'self_attn.o_proj', 'loss': '0.01501', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '180.135'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 1, 'module': 'mlp.up_proj', 'loss': '2.40089', 'damp': '0.10000', 'time': '2.445', 'fwd_time': '180.711'} INFO - {'layer': 1, 'module': 'mlp.gate_proj', 'loss': '6.17636', 'damp': '0.10000', 'time': '2.421', 'fwd_time': '180.711'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 1, 'module': 'mlp.down_proj', 'loss': '0.07097', 'damp': '0.10000', 'time': '11.123', 'fwd_time': '194.713'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 1 of 63 |█---------------------------------------| 0:32:07 / 11:25:09 [3/64] 4.7%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 2, 'module': 'self_attn.k_proj', 'loss': '0.03215', 'damp': '0.10000', 'time': '1.347', 'fwd_time': '181.320'} INFO - {'layer': 2, 'module': 'self_attn.v_proj', 'loss': '0.01367', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.320'} INFO - {'layer': 2, 'module': 'self_attn.q_proj', 'loss': '0.09015', 'damp': '0.10000', 'time': '1.512', 'fwd_time': '181.320'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 2, 'module': 'self_attn.o_proj', 'loss': '0.09266', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.239'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 2, 'module': 'mlp.up_proj', 'loss': '5.20606', 'damp': '0.10000', 'time': '2.403', 'fwd_time': '180.694'} INFO - {'layer': 2, 'module': 'mlp.gate_proj', 'loss': '10.58370', 'damp': '0.10000', 'time': '2.400', 'fwd_time': '180.694'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 2, 'module': 'mlp.down_proj', 'loss': '0.36352', 'damp': '0.10000', 'time': '11.242', 'fwd_time': '195.008'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 2 of 63 |██--------------------------------------| 0:48:12 / 12:51:12 [4/64] 6.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 3, 'module': 'self_attn.k_proj', 'loss': '0.20204', 'damp': '0.10000', 'time': '1.358', 'fwd_time': '181.430'} INFO - {'layer': 3, 'module': 'self_attn.v_proj', 'loss': '0.07010', 'damp': '0.10000', 'time': '1.345', 'fwd_time': '181.430'} INFO - {'layer': 3, 'module': 'self_attn.q_proj', 'loss': '0.58422', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '181.430'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 3, 'module': 'self_attn.o_proj', 'loss': '0.32670', 'damp': '0.10000', 'time': '1.508', 'fwd_time': '180.149'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 3, 'module': 'mlp.up_proj', 'loss': '6.34731', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'} INFO - {'layer': 3, 'module': 'mlp.gate_proj', 'loss': '13.98404', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 3, 'module': 'mlp.down_proj', 'loss': '0.86336', 'damp': '0.10000', 'time': '11.249', 'fwd_time': '195.066'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 3 of 63 |███-------------------------------------| 1:04:16 / 13:42:36 [5/64] 7.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 4, 'module': 'self_attn.k_proj', 'loss': '0.19773', 'damp': '0.10000', 'time': '1.336', 'fwd_time': '181.222'} INFO - {'layer': 4, 'module': 'self_attn.v_proj', 'loss': '0.10230', 'damp': '0.10000', 'time': '1.326', 'fwd_time': '181.222'} INFO - {'layer': 4, 'module': 'self_attn.q_proj', 'loss': '0.60618', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.222'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 4, 'module': 'self_attn.o_proj', 'loss': '0.63086', 'damp': '0.10000', 'time': '1.490', 'fwd_time': '180.260'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 4, 'module': 'mlp.up_proj', 'loss': '16.42926', 'damp': '0.10000', 'time': '2.387', 'fwd_time': '180.716'} INFO - {'layer': 4, 'module': 'mlp.gate_proj', 'loss': '32.29819', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.716'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 4, 'module': 'mlp.down_proj', 'loss': '587.46689', 'damp': '0.10000', 'time': '11.247', 'fwd_time': '195.045'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 4 of 63 |███-------------------------------------| 1:20:19 / 14:16:42 [6/64] 9.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 5, 'module': 'self_attn.k_proj', 'loss': '0.72354', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '181.371'} INFO - {'layer': 5, 'module': 'self_attn.v_proj', 'loss': '0.42462', 'damp': '0.10000', 'time': '1.334', 'fwd_time': '181.371'} INFO - {'layer': 5, 'module': 'self_attn.q_proj', 'loss': '2.40297', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.371'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 5, 'module': 'self_attn.o_proj', 'loss': '0.73659', 'damp': '0.10000', 'time': '1.501', 'fwd_time': '180.189'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 5, 'module': 'mlp.up_proj', 'loss': '26.50791', 'damp': '0.10000', 'time': '2.416', 'fwd_time': '180.533'} INFO - {'layer': 5, 'module': 'mlp.gate_proj', 'loss': '49.79549', 'damp': '0.10000', 'time': '2.393', 'fwd_time': '180.533'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 5, 'module': 'mlp.down_proj', 'loss': '522.29541', 'damp': '0.10000', 'time': '11.290', 'fwd_time': '194.825'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 5 of 63 |████------------------------------------| 1:36:23 / 14:41:13 [7/64] 10.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 6, 'module': 'self_attn.k_proj', 'loss': '0.66616', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.275'} INFO - {'layer': 6, 'module': 'self_attn.v_proj', 'loss': '0.49659', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.275'} INFO - {'layer': 6, 'module': 'self_attn.q_proj', 'loss': '2.35563', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '181.275'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 6, 'module': 'self_attn.o_proj', 'loss': '0.58956', 'damp': '0.10000', 'time': '1.506', 'fwd_time': '180.152'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 6, 'module': 'mlp.up_proj', 'loss': '42.32227', 'damp': '0.10000', 'time': '2.401', 'fwd_time': '180.759'} INFO - {'layer': 6, 'module': 'mlp.gate_proj', 'loss': '75.13210', 'damp': '0.10000', 'time': '2.409', 'fwd_time': '180.759'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 6, 'module': 'mlp.down_proj', 'loss': '31.55573', 'damp': '0.10000', 'time': '11.224', 'fwd_time': '194.953'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 6 of 63 |█████-----------------------------------| 1:52:26 / 14:59:28 [8/64] 12.5%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 7, 'module': 'self_attn.k_proj', 'loss': '0.85074', 'damp': '0.10000', 'time': '1.335', 'fwd_time': '181.299'} INFO - {'layer': 7, 'module': 'self_attn.v_proj', 'loss': '0.69796', 'damp': '0.10000', 'time': '1.331', 'fwd_time': '181.299'} INFO - {'layer': 7, 'module': 'self_attn.q_proj', 'loss': '3.08233', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '181.299'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 7, 'module': 'self_attn.o_proj', 'loss': '0.63950', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.195'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 7, 'module': 'mlp.up_proj', 'loss': '49.91836', 'damp': '0.10000', 'time': '2.395', 'fwd_time': '180.666'} INFO - {'layer': 7, 'module': 'mlp.gate_proj', 'loss': '89.78850', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.666'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 7, 'module': 'mlp.down_proj', 'loss': '2.12929', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.884'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 7 of 63 |█████-----------------------------------| 2:08:29 / 15:13:39 [9/64] 14.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 8, 'module': 'self_attn.k_proj', 'loss': '1.07405', 'damp': '0.10000', 'time': '1.363', 'fwd_time': '181.173'} INFO - {'layer': 8, 'module': 'self_attn.v_proj', 'loss': '0.64949', 'damp': '0.10000', 'time': '1.328', 'fwd_time': '181.173'} INFO - {'layer': 8, 'module': 'self_attn.q_proj', 'loss': '3.66730', 'damp': '0.10000', 'time': '1.483', 'fwd_time': '181.173'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 8, 'module': 'self_attn.o_proj', 'loss': '0.57933', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '180.237'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 8, 'module': 'mlp.up_proj', 'loss': '30.98035', 'damp': '0.10000', 'time': '2.376', 'fwd_time': '180.517'} INFO - {'layer': 8, 'module': 'mlp.gate_proj', 'loss': '54.68026', 'damp': '0.10000', 'time': '2.375', 'fwd_time': '180.517'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 8, 'module': 'mlp.down_proj', 'loss': '2.39296', 'damp': '0.10000', 'time': '11.024', 'fwd_time': '194.860'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 8 of 63 |██████----------------------------------| 2:24:31 / 15:24:54 [10/64] 15.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 9, 'module': 'self_attn.k_proj', 'loss': '0.85622', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.847'} INFO - {'layer': 9, 'module': 'self_attn.v_proj', 'loss': '0.70850', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.847'} INFO - {'layer': 9, 'module': 'self_attn.q_proj', 'loss': '3.05020', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.847'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 9, 'module': 'self_attn.o_proj', 'loss': '0.97835', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '179.724'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 9, 'module': 'mlp.up_proj', 'loss': '12.53627', 'damp': '0.10000', 'time': '2.276', 'fwd_time': '180.037'} INFO - {'layer': 9, 'module': 'mlp.gate_proj', 'loss': '13.44056', 'damp': '0.10000', 'time': '2.272', 'fwd_time': '180.037'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 9, 'module': 'mlp.down_proj', 'loss': '2.59464', 'damp': '0.10000', 'time': '10.920', 'fwd_time': '194.478'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 9 of 63 |██████----------------------------------| 2:40:31 / 15:33:54 [11/64] 17.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 10, 'module': 'self_attn.k_proj', 'loss': '1.16653', 'damp': '0.10000', 'time': '1.312', 'fwd_time': '180.710'} INFO - {'layer': 10, 'module': 'self_attn.v_proj', 'loss': '0.90903', 'damp': '0.10000', 'time': '1.360', 'fwd_time': '180.710'} INFO - {'layer': 10, 'module': 'self_attn.q_proj', 'loss': '4.31524', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.710'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 10, 'module': 'self_attn.o_proj', 'loss': '0.95127', 'damp': '0.10000', 'time': '1.505', 'fwd_time': '179.513'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 10, 'module': 'mlp.up_proj', 'loss': '14.21657', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '180.007'} INFO - {'layer': 10, 'module': 'mlp.gate_proj', 'loss': '15.31685', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.007'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 10, 'module': 'mlp.down_proj', 'loss': '3.00897', 'damp': '0.10000', 'time': '10.969', 'fwd_time': '194.558'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 10 of 63 |███████---------------------------------| 2:56:30 / 15:41:20 [12/64] 18.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 11, 'module': 'self_attn.k_proj', 'loss': '0.94783', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.753'} INFO - {'layer': 11, 'module': 'self_attn.v_proj', 'loss': '0.68951', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.753'} INFO - {'layer': 11, 'module': 'self_attn.q_proj', 'loss': '3.46378', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.753'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 11, 'module': 'self_attn.o_proj', 'loss': '1.90921', 'damp': '0.10000', 'time': '1.447', 'fwd_time': '179.657'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 11, 'module': 'mlp.up_proj', 'loss': '19.40327', 'damp': '0.10000', 'time': '2.280', 'fwd_time': '180.037'} INFO - {'layer': 11, 'module': 'mlp.gate_proj', 'loss': '23.92704', 'damp': '0.10000', 'time': '2.285', 'fwd_time': '180.037'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 11, 'module': 'mlp.down_proj', 'loss': '2.97715', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.557'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 11 of 63 |████████--------------------------------| 3:12:30 / 15:47:41 [13/64] 20.3%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 12, 'module': 'self_attn.k_proj', 'loss': '1.08602', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.704'} INFO - {'layer': 12, 'module': 'self_attn.v_proj', 'loss': '0.74431', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.704'} INFO - {'layer': 12, 'module': 'self_attn.q_proj', 'loss': '4.01792', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.704'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 12, 'module': 'self_attn.o_proj', 'loss': '1.80497', 'damp': '0.10000', 'time': '1.432', 'fwd_time': '179.639'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 12, 'module': 'mlp.up_proj', 'loss': '16.91254', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.145'} INFO - {'layer': 12, 'module': 'mlp.gate_proj', 'loss': '18.04272', 'damp': '0.10000', 'time': '2.274', 'fwd_time': '180.145'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 12, 'module': 'mlp.down_proj', 'loss': '3.48199', 'damp': '0.10000', 'time': '11.011', 'fwd_time': '194.583'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 12 of 63 |████████--------------------------------| 3:28:29 / 15:53:04 [14/64] 21.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 13, 'module': 'self_attn.k_proj', 'loss': '1.22753', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.711'} INFO - {'layer': 13, 'module': 'self_attn.v_proj', 'loss': '0.89010', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.711'} INFO - {'layer': 13, 'module': 'self_attn.q_proj', 'loss': '4.36018', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.711'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 13, 'module': 'self_attn.o_proj', 'loss': '1.75457', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '179.614'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 13, 'module': 'mlp.up_proj', 'loss': '19.40314', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '179.951'} INFO - {'layer': 13, 'module': 'mlp.gate_proj', 'loss': '20.87128', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '179.951'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 13, 'module': 'mlp.down_proj', 'loss': '3.92058', 'damp': '0.10000', 'time': '11.225', 'fwd_time': '194.541'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 13 of 63 |█████████-------------------------------| 3:44:29 / 15:57:47 [15/64] 23.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 14, 'module': 'self_attn.k_proj', 'loss': '1.47310', 'damp': '0.10000', 'time': '1.327', 'fwd_time': '180.463'} INFO - {'layer': 14, 'module': 'self_attn.v_proj', 'loss': '0.97991', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.463'} INFO - {'layer': 14, 'module': 'self_attn.q_proj', 'loss': '5.31070', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.463'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 14, 'module': 'self_attn.o_proj', 'loss': '1.86601', 'damp': '0.10000', 'time': '1.513', 'fwd_time': '179.592'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 14, 'module': 'mlp.up_proj', 'loss': '20.50224', 'damp': '0.10000', 'time': '2.349', 'fwd_time': '180.003'} INFO - {'layer': 14, 'module': 'mlp.gate_proj', 'loss': '22.18833', 'damp': '0.10000', 'time': '2.281', 'fwd_time': '180.003'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 14, 'module': 'mlp.down_proj', 'loss': '4.27567', 'damp': '0.10000', 'time': '11.369', 'fwd_time': '194.563'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 14 of 63 |██████████------------------------------| 4:00:29 / 16:01:56 [16/64] 25.0%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 15, 'module': 'self_attn.k_proj', 'loss': '1.24926', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '180.693'} INFO - {'layer': 15, 'module': 'self_attn.v_proj', 'loss': '0.96484', 'damp': '0.10000', 'time': '1.370', 'fwd_time': '180.693'} INFO - {'layer': 15, 'module': 'self_attn.q_proj', 'loss': '4.50831', 'damp': '0.10000', 'time': '1.576', 'fwd_time': '180.693'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 15, 'module': 'self_attn.o_proj', 'loss': '2.08441', 'damp': '0.10000', 'time': '1.527', 'fwd_time': '179.613'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 15, 'module': 'mlp.up_proj', 'loss': '21.55517', 'damp': '0.10000', 'time': '2.360', 'fwd_time': '180.055'} INFO - {'layer': 15, 'module': 'mlp.gate_proj', 'loss': '24.37054', 'damp': '0.10000', 'time': '2.485', 'fwd_time': '180.055'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 15, 'module': 'mlp.down_proj', 'loss': '4.66921', 'damp': '0.10000', 'time': '11.144', 'fwd_time': '194.668'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 15 of 63 |██████████------------------------------| 4:16:30 / 16:05:38 [17/64] 26.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 16, 'module': 'self_attn.k_proj', 'loss': '1.20586', 'damp': '0.10000', 'time': '1.367', 'fwd_time': '180.786'} INFO - {'layer': 16, 'module': 'self_attn.v_proj', 'loss': '0.74171', 'damp': '0.10000', 'time': '1.377', 'fwd_time': '180.786'} INFO - {'layer': 16, 'module': 'self_attn.q_proj', 'loss': '4.09036', 'damp': '0.10000', 'time': '1.525', 'fwd_time': '180.786'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 16, 'module': 'self_attn.o_proj', 'loss': '1.66565', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.672'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 16, 'module': 'mlp.up_proj', 'loss': '20.58864', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '179.962'} INFO - {'layer': 16, 'module': 'mlp.gate_proj', 'loss': '22.13742', 'damp': '0.10000', 'time': '2.317', 'fwd_time': '179.962'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 16, 'module': 'mlp.down_proj', 'loss': '4.32864', 'damp': '0.10000', 'time': '11.065', 'fwd_time': '194.604'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 16 of 63 |███████████-----------------------------| 4:32:30 / 16:08:53 [18/64] 28.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 17, 'module': 'self_attn.k_proj', 'loss': '1.55755', 'damp': '0.10000', 'time': '1.392', 'fwd_time': '180.714'} INFO - {'layer': 17, 'module': 'self_attn.v_proj', 'loss': '0.92695', 'damp': '0.10000', 'time': '1.403', 'fwd_time': '180.714'} INFO - {'layer': 17, 'module': 'self_attn.q_proj', 'loss': '5.36392', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.714'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 17, 'module': 'self_attn.o_proj', 'loss': '1.68428', 'damp': '0.10000', 'time': '1.561', 'fwd_time': '179.547'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 17, 'module': 'mlp.up_proj', 'loss': '20.66038', 'damp': '0.10000', 'time': '2.341', 'fwd_time': '180.057'} INFO - {'layer': 17, 'module': 'mlp.gate_proj', 'loss': '21.92830', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.057'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 17, 'module': 'mlp.down_proj', 'loss': '4.24783', 'damp': '0.10000', 'time': '11.208', 'fwd_time': '194.595'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 17 of 63 |███████████-----------------------------| 4:48:30 / 16:11:47 [19/64] 29.7%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 18, 'module': 'self_attn.k_proj', 'loss': '1.60531', 'damp': '0.10000', 'time': '1.404', 'fwd_time': '181.426'} INFO - {'layer': 18, 'module': 'self_attn.v_proj', 'loss': '0.96575', 'damp': '0.10000', 'time': '1.319', 'fwd_time': '181.426'} INFO - {'layer': 18, 'module': 'self_attn.q_proj', 'loss': '5.49226', 'damp': '0.10000', 'time': '1.459', 'fwd_time': '181.426'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 18, 'module': 'self_attn.o_proj', 'loss': '1.48581', 'damp': '0.10000', 'time': '1.522', 'fwd_time': '179.533'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 18, 'module': 'mlp.up_proj', 'loss': '20.34096', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.133'} INFO - {'layer': 18, 'module': 'mlp.gate_proj', 'loss': '21.43189', 'damp': '0.10000', 'time': '2.457', 'fwd_time': '180.133'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 18, 'module': 'mlp.down_proj', 'loss': '4.20860', 'damp': '0.10000', 'time': '10.987', 'fwd_time': '194.768'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 18 of 63 |████████████----------------------------| 5:04:33 / 16:14:33 [20/64] 31.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 19, 'module': 'self_attn.k_proj', 'loss': '1.38301', 'damp': '0.10000', 'time': '1.424', 'fwd_time': '180.684'} INFO - {'layer': 19, 'module': 'self_attn.v_proj', 'loss': '0.94416', 'damp': '0.10000', 'time': '1.473', 'fwd_time': '180.684'} INFO - {'layer': 19, 'module': 'self_attn.q_proj', 'loss': '5.01696', 'damp': '0.10000', 'time': '1.593', 'fwd_time': '180.684'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 19, 'module': 'self_attn.o_proj', 'loss': '1.21167', 'damp': '0.10000', 'time': '1.650', 'fwd_time': '179.390'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 19, 'module': 'mlp.up_proj', 'loss': '20.60382', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '179.854'} INFO - {'layer': 19, 'module': 'mlp.gate_proj', 'loss': '21.65518', 'damp': '0.10000', 'time': '2.306', 'fwd_time': '179.854'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 19, 'module': 'mlp.down_proj', 'loss': '4.24532', 'damp': '0.10000', 'time': '11.253', 'fwd_time': '194.715'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 19 of 63 |█████████████---------------------------| 5:20:33 / 16:16:54 [21/64] 32.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 20, 'module': 'self_attn.k_proj', 'loss': '1.67529', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.886'} INFO - {'layer': 20, 'module': 'self_attn.v_proj', 'loss': '0.97326', 'damp': '0.10000', 'time': '1.394', 'fwd_time': '180.886'} INFO - {'layer': 20, 'module': 'self_attn.q_proj', 'loss': '5.80866', 'damp': '0.10000', 'time': '1.638', 'fwd_time': '180.886'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 20, 'module': 'self_attn.o_proj', 'loss': '2.01039', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '179.451'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 20, 'module': 'mlp.up_proj', 'loss': '20.08991', 'damp': '0.10000', 'time': '2.333', 'fwd_time': '179.710'} INFO - {'layer': 20, 'module': 'mlp.gate_proj', 'loss': '20.81839', 'damp': '0.10000', 'time': '2.396', 'fwd_time': '179.710'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 20, 'module': 'mlp.down_proj', 'loss': '4.39435', 'damp': '0.10000', 'time': '11.599', 'fwd_time': '194.532'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 20 of 63 |█████████████---------------------------| 5:36:34 / 16:19:06 [22/64] 34.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 21, 'module': 'self_attn.k_proj', 'loss': '1.37911', 'damp': '0.10000', 'time': '1.429', 'fwd_time': '180.597'} INFO - {'layer': 21, 'module': 'self_attn.v_proj', 'loss': '0.84209', 'damp': '0.10000', 'time': '1.401', 'fwd_time': '180.597'} INFO - {'layer': 21, 'module': 'self_attn.q_proj', 'loss': '4.83675', 'damp': '0.10000', 'time': '1.528', 'fwd_time': '180.597'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 21, 'module': 'self_attn.o_proj', 'loss': '1.99481', 'damp': '0.10000', 'time': '1.546', 'fwd_time': '179.461'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 21, 'module': 'mlp.up_proj', 'loss': '19.99206', 'damp': '0.10000', 'time': '2.361', 'fwd_time': '179.779'} INFO - {'layer': 21, 'module': 'mlp.gate_proj', 'loss': '20.76938', 'damp': '0.10000', 'time': '2.369', 'fwd_time': '179.779'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 21, 'module': 'mlp.down_proj', 'loss': '4.42359', 'damp': '0.10000', 'time': '11.515', 'fwd_time': '194.516'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 21 of 63 |██████████████--------------------------| 5:52:35 / 16:21:06 [23/64] 35.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 22, 'module': 'self_attn.k_proj', 'loss': '1.50769', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.490'} INFO - {'layer': 22, 'module': 'self_attn.v_proj', 'loss': '1.15672', 'damp': '0.10000', 'time': '1.275', 'fwd_time': '180.490'} INFO - {'layer': 22, 'module': 'self_attn.q_proj', 'loss': '5.48060', 'damp': '0.10000', 'time': '1.425', 'fwd_time': '180.490'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 22, 'module': 'self_attn.o_proj', 'loss': '2.49873', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.557'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 22, 'module': 'mlp.up_proj', 'loss': '21.26843', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.081'} INFO - {'layer': 22, 'module': 'mlp.gate_proj', 'loss': '22.03465', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.081'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 22, 'module': 'mlp.down_proj', 'loss': '4.79118', 'damp': '0.10000', 'time': '10.968', 'fwd_time': '194.443'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 22 of 63 |███████████████-------------------------| 6:08:34 / 16:22:50 [24/64] 37.5%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 23, 'module': 'self_attn.k_proj', 'loss': '1.44571', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.920'} INFO - {'layer': 23, 'module': 'self_attn.v_proj', 'loss': '1.18315', 'damp': '0.10000', 'time': '1.384', 'fwd_time': '180.920'} INFO - {'layer': 23, 'module': 'self_attn.q_proj', 'loss': '5.38706', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '180.920'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 23, 'module': 'self_attn.o_proj', 'loss': '2.65820', 'damp': '0.10000', 'time': '1.488', 'fwd_time': '179.860'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 23, 'module': 'mlp.up_proj', 'loss': '22.39951', 'damp': '0.10000', 'time': '2.343', 'fwd_time': '180.171'} INFO - {'layer': 23, 'module': 'mlp.gate_proj', 'loss': '23.49767', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '180.171'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 23, 'module': 'mlp.down_proj', 'loss': '5.14678', 'damp': '0.10000', 'time': '11.171', 'fwd_time': '194.532'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 23 of 63 |███████████████-------------------------| 6:24:35 / 16:24:32 [25/64] 39.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 24, 'module': 'self_attn.k_proj', 'loss': '1.88726', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.631'} INFO - {'layer': 24, 'module': 'self_attn.v_proj', 'loss': '1.25504', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.631'} INFO - {'layer': 24, 'module': 'self_attn.q_proj', 'loss': '6.79697', 'damp': '0.10000', 'time': '1.547', 'fwd_time': '180.631'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 24, 'module': 'self_attn.o_proj', 'loss': '2.37069', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.619'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 24, 'module': 'mlp.up_proj', 'loss': '23.00431', 'damp': '0.10000', 'time': '2.300', 'fwd_time': '180.072'} INFO - {'layer': 24, 'module': 'mlp.gate_proj', 'loss': '23.90416', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 24, 'module': 'mlp.down_proj', 'loss': '5.33596', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.506'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 24 of 63 |████████████████------------------------| 6:40:35 / 16:26:03 [26/64] 40.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 25, 'module': 'self_attn.k_proj', 'loss': '2.08859', 'damp': '0.10000', 'time': '1.484', 'fwd_time': '180.593'} INFO - {'layer': 25, 'module': 'self_attn.v_proj', 'loss': '1.52274', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.593'} INFO - {'layer': 25, 'module': 'self_attn.q_proj', 'loss': '7.71944', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.593'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 25, 'module': 'self_attn.o_proj', 'loss': '2.59465', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.589'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 25, 'module': 'mlp.up_proj', 'loss': '23.82350', 'damp': '0.10000', 'time': '2.295', 'fwd_time': '180.004'} INFO - {'layer': 25, 'module': 'mlp.gate_proj', 'loss': '24.36376', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.004'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 25, 'module': 'mlp.down_proj', 'loss': '6.14879', 'damp': '0.10000', 'time': '10.939', 'fwd_time': '194.410'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 25 of 63 |████████████████------------------------| 6:56:35 / 16:27:27 [27/64] 42.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 26, 'module': 'self_attn.k_proj', 'loss': '1.85201', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.676'} INFO - {'layer': 26, 'module': 'self_attn.v_proj', 'loss': '1.08654', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.676'} INFO - {'layer': 26, 'module': 'self_attn.q_proj', 'loss': '6.72261', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.676'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 26, 'module': 'self_attn.o_proj', 'loss': '2.70091', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.585'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 26, 'module': 'mlp.up_proj', 'loss': '24.94679', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.067'} INFO - {'layer': 26, 'module': 'mlp.gate_proj', 'loss': '25.21166', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.067'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 26, 'module': 'mlp.down_proj', 'loss': '6.65333', 'damp': '0.10000', 'time': '10.951', 'fwd_time': '194.490'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 26 of 63 |█████████████████-----------------------| 7:12:34 / 16:28:43 [28/64] 43.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 27, 'module': 'self_attn.k_proj', 'loss': '1.80303', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.700'} INFO - {'layer': 27, 'module': 'self_attn.v_proj', 'loss': '1.11704', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.700'} INFO - {'layer': 27, 'module': 'self_attn.q_proj', 'loss': '6.16689', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.700'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 27, 'module': 'self_attn.o_proj', 'loss': '4.27886', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.605'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 27, 'module': 'mlp.up_proj', 'loss': '25.90349', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.071'} INFO - {'layer': 27, 'module': 'mlp.gate_proj', 'loss': '26.13162', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.071'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 27, 'module': 'mlp.down_proj', 'loss': '7.54102', 'damp': '0.10000', 'time': '10.965', 'fwd_time': '194.569'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 27 of 63 |██████████████████----------------------| 7:28:34 / 16:29:56 [29/64] 45.3%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 28, 'module': 'self_attn.k_proj', 'loss': '1.69771', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.722'} INFO - {'layer': 28, 'module': 'self_attn.v_proj', 'loss': '1.60528', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.722'} INFO - {'layer': 28, 'module': 'self_attn.q_proj', 'loss': '6.53194', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.722'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 28, 'module': 'self_attn.o_proj', 'loss': '4.20230', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '179.598'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 28, 'module': 'mlp.up_proj', 'loss': '28.05067', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '179.985'} INFO - {'layer': 28, 'module': 'mlp.gate_proj', 'loss': '28.02932', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '179.985'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 28, 'module': 'mlp.down_proj', 'loss': '8.23658', 'damp': '0.10000', 'time': '10.941', 'fwd_time': '194.268'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 28 of 63 |██████████████████----------------------| 7:44:33 / 16:31:02 [30/64] 46.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 29, 'module': 'self_attn.k_proj', 'loss': '2.46457', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.571'} INFO - {'layer': 29, 'module': 'self_attn.v_proj', 'loss': '1.97819', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.571'} INFO - {'layer': 29, 'module': 'self_attn.q_proj', 'loss': '8.90249', 'damp': '0.10000', 'time': '1.499', 'fwd_time': '180.571'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 29, 'module': 'self_attn.o_proj', 'loss': '5.20760', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.634'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 29, 'module': 'mlp.up_proj', 'loss': '30.33147', 'damp': '0.10000', 'time': '2.388', 'fwd_time': '180.025'} INFO - {'layer': 29, 'module': 'mlp.gate_proj', 'loss': '30.10080', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.025'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 29, 'module': 'mlp.down_proj', 'loss': '9.00467', 'damp': '0.10000', 'time': '11.021', 'fwd_time': '194.483'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 29 of 63 |███████████████████---------------------| 8:00:33 / 16:32:06 [31/64] 48.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 30, 'module': 'self_attn.k_proj', 'loss': '2.05785', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.603'} INFO - {'layer': 30, 'module': 'self_attn.v_proj', 'loss': '1.95388', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.603'} INFO - {'layer': 30, 'module': 'self_attn.q_proj', 'loss': '7.90785', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.603'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 30, 'module': 'self_attn.o_proj', 'loss': '6.99206', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.691'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 30, 'module': 'mlp.up_proj', 'loss': '32.67397', 'damp': '0.10000', 'time': '2.312', 'fwd_time': '179.985'} INFO - {'layer': 30, 'module': 'mlp.gate_proj', 'loss': '32.30062', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '179.985'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 30, 'module': 'mlp.down_proj', 'loss': '10.09964', 'damp': '0.10000', 'time': '10.901', 'fwd_time': '194.551'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 30 of 63 |████████████████████--------------------| 8:16:32 / 16:33:04 [32/64] 50.0%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 31, 'module': 'self_attn.k_proj', 'loss': '2.18536', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.667'} INFO - {'layer': 31, 'module': 'self_attn.v_proj', 'loss': '1.97777', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.667'} INFO - {'layer': 31, 'module': 'self_attn.q_proj', 'loss': '8.18490', 'damp': '0.10000', 'time': '1.453', 'fwd_time': '180.667'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 31, 'module': 'self_attn.o_proj', 'loss': '4.57464', 'damp': '0.10000', 'time': '1.462', 'fwd_time': '179.678'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 31, 'module': 'mlp.up_proj', 'loss': '35.59037', 'damp': '0.10000', 'time': '2.315', 'fwd_time': '180.072'} INFO - {'layer': 31, 'module': 'mlp.gate_proj', 'loss': '35.25336', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 31, 'module': 'mlp.down_proj', 'loss': '10.93689', 'damp': '0.10000', 'time': '11.025', 'fwd_time': '194.621'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 31 of 63 |████████████████████--------------------| 8:32:32 / 16:34:00 [33/64] 51.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 32, 'module': 'self_attn.k_proj', 'loss': '2.10946', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.689'} INFO - {'layer': 32, 'module': 'self_attn.v_proj', 'loss': '1.52154', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.689'} INFO - {'layer': 32, 'module': 'self_attn.q_proj', 'loss': '7.29806', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.689'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 32, 'module': 'self_attn.o_proj', 'loss': '4.84362', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.669'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 32, 'module': 'mlp.up_proj', 'loss': '39.63444', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '180.155'} INFO - {'layer': 32, 'module': 'mlp.gate_proj', 'loss': '41.30604', 'damp': '0.10000', 'time': '2.348', 'fwd_time': '180.155'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 32, 'module': 'mlp.down_proj', 'loss': '10.75069', 'damp': '0.10000', 'time': '10.995', 'fwd_time': '194.617'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 32 of 63 |█████████████████████-------------------| 8:48:32 / 16:34:53 [34/64] 53.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 33, 'module': 'self_attn.k_proj', 'loss': '2.25656', 'damp': '0.10000', 'time': '1.310', 'fwd_time': '180.567'} INFO - {'layer': 33, 'module': 'self_attn.v_proj', 'loss': '1.63852', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.567'} INFO - {'layer': 33, 'module': 'self_attn.q_proj', 'loss': '8.25086', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.567'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 33, 'module': 'self_attn.o_proj', 'loss': '4.94513', 'damp': '0.10000', 'time': '1.472', 'fwd_time': '179.621'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 33, 'module': 'mlp.up_proj', 'loss': '37.36087', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.088'} INFO - {'layer': 33, 'module': 'mlp.gate_proj', 'loss': '38.17615', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.088'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 33, 'module': 'mlp.down_proj', 'loss': '10.10525', 'damp': '0.10000', 'time': '11.033', 'fwd_time': '194.652'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 33 of 63 |█████████████████████-------------------| 9:04:32 / 16:35:43 [35/64] 54.7%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 34, 'module': 'self_attn.k_proj', 'loss': '2.18897', 'damp': '0.10000', 'time': '1.315', 'fwd_time': '180.776'} INFO - {'layer': 34, 'module': 'self_attn.v_proj', 'loss': '1.79533', 'damp': '0.10000', 'time': '1.352', 'fwd_time': '180.776'} INFO - {'layer': 34, 'module': 'self_attn.q_proj', 'loss': '8.13230', 'damp': '0.10000', 'time': '1.478', 'fwd_time': '180.776'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 34, 'module': 'self_attn.o_proj', 'loss': '6.20360', 'damp': '0.10000', 'time': '1.480', 'fwd_time': '179.655'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 34, 'module': 'mlp.up_proj', 'loss': '36.49163', 'damp': '0.10000', 'time': '2.371', 'fwd_time': '180.149'} INFO - {'layer': 34, 'module': 'mlp.gate_proj', 'loss': '36.59039', 'damp': '0.10000', 'time': '2.332', 'fwd_time': '180.149'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 34, 'module': 'mlp.down_proj', 'loss': '10.11572', 'damp': '0.10000', 'time': '11.043', 'fwd_time': '194.593'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 34 of 63 |██████████████████████------------------| 9:20:33 / 16:36:32 [36/64] 56.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 35, 'module': 'self_attn.k_proj', 'loss': '2.29760', 'damp': '0.10000', 'time': '1.313', 'fwd_time': '180.746'} INFO - {'layer': 35, 'module': 'self_attn.v_proj', 'loss': '1.81589', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '180.746'} INFO - {'layer': 35, 'module': 'self_attn.q_proj', 'loss': '9.18513', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.746'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 35, 'module': 'self_attn.o_proj', 'loss': '4.96898', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.650'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 35, 'module': 'mlp.up_proj', 'loss': '37.04196', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '180.059'} INFO - {'layer': 35, 'module': 'mlp.gate_proj', 'loss': '36.97671', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '180.059'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 35, 'module': 'mlp.down_proj', 'loss': '10.21576', 'damp': '0.10000', 'time': '10.956', 'fwd_time': '194.511'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 35 of 63 |███████████████████████-----------------| 9:36:32 / 16:37:14 [37/64] 57.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 36, 'module': 'self_attn.k_proj', 'loss': '2.35134', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.704'} INFO - {'layer': 36, 'module': 'self_attn.v_proj', 'loss': '1.76898', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.704'} INFO - {'layer': 36, 'module': 'self_attn.q_proj', 'loss': '8.95750', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.704'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 36, 'module': 'self_attn.o_proj', 'loss': '6.40625', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.611'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 36, 'module': 'mlp.up_proj', 'loss': '35.14434', 'damp': '0.10000', 'time': '2.283', 'fwd_time': '180.017'} INFO - {'layer': 36, 'module': 'mlp.gate_proj', 'loss': '33.75306', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.017'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 36, 'module': 'mlp.down_proj', 'loss': '10.16060', 'damp': '0.10000', 'time': '10.978', 'fwd_time': '194.454'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 36 of 63 |███████████████████████-----------------| 9:52:32 / 16:37:57 [38/64] 59.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 37, 'module': 'self_attn.k_proj', 'loss': '2.09853', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.895'} INFO - {'layer': 37, 'module': 'self_attn.v_proj', 'loss': '1.62890', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.895'} INFO - {'layer': 37, 'module': 'self_attn.q_proj', 'loss': '7.87804', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.895'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 37, 'module': 'self_attn.o_proj', 'loss': '5.14967', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.642'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 37, 'module': 'mlp.up_proj', 'loss': '34.78158', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.039'} INFO - {'layer': 37, 'module': 'mlp.gate_proj', 'loss': '33.21568', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.039'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 37, 'module': 'mlp.down_proj', 'loss': '9.65291', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.502'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 37 of 63 |████████████████████████----------------| 10:08:32 / 16:38:37 [39/64] 60.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 38, 'module': 'self_attn.k_proj', 'loss': '2.25152', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.605'} INFO - {'layer': 38, 'module': 'self_attn.v_proj', 'loss': '2.25329', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.605'} INFO - {'layer': 38, 'module': 'self_attn.q_proj', 'loss': '8.57306', 'damp': '0.10000', 'time': '1.440', 'fwd_time': '180.605'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 38, 'module': 'self_attn.o_proj', 'loss': '5.87199', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.558'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 38, 'module': 'mlp.up_proj', 'loss': '35.01609', 'damp': '0.10000', 'time': '2.377', 'fwd_time': '180.077'} INFO - {'layer': 38, 'module': 'mlp.gate_proj', 'loss': '33.53525', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.077'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 38, 'module': 'mlp.down_proj', 'loss': '10.37327', 'damp': '0.10000', 'time': '10.891', 'fwd_time': '194.470'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 38 of 63 |█████████████████████████---------------| 10:24:32 / 16:39:15 [40/64] 62.5%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 39, 'module': 'self_attn.k_proj', 'loss': '2.06724', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'} INFO - {'layer': 39, 'module': 'self_attn.v_proj', 'loss': '2.29155', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'} INFO - {'layer': 39, 'module': 'self_attn.q_proj', 'loss': '8.40444', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '180.626'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 39, 'module': 'self_attn.o_proj', 'loss': '6.23639', 'damp': '0.10000', 'time': '1.498', 'fwd_time': '179.668'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 39, 'module': 'mlp.up_proj', 'loss': '35.45480', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.061'} INFO - {'layer': 39, 'module': 'mlp.gate_proj', 'loss': '35.16239', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.061'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 39, 'module': 'mlp.down_proj', 'loss': '10.17532', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.559'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 39 of 63 |█████████████████████████---------------| 10:40:32 / 16:39:51 [41/64] 64.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 40, 'module': 'self_attn.k_proj', 'loss': '2.55298', 'damp': '0.10000', 'time': '1.353', 'fwd_time': '180.736'} INFO - {'layer': 40, 'module': 'self_attn.v_proj', 'loss': '2.03756', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.736'} INFO - {'layer': 40, 'module': 'self_attn.q_proj', 'loss': '9.32236', 'damp': '0.10000', 'time': '1.463', 'fwd_time': '180.736'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 40, 'module': 'self_attn.o_proj', 'loss': '7.15637', 'damp': '0.10000', 'time': '1.471', 'fwd_time': '179.673'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 40, 'module': 'mlp.up_proj', 'loss': '34.27767', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '179.916'} INFO - {'layer': 40, 'module': 'mlp.gate_proj', 'loss': '33.71945', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '179.916'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 40, 'module': 'mlp.down_proj', 'loss': '9.93580', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.355'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 40 of 63 |██████████████████████████--------------| 10:56:32 / 16:40:25 [42/64] 65.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 41, 'module': 'self_attn.k_proj', 'loss': '2.58491', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '182.811'} INFO - {'layer': 41, 'module': 'self_attn.v_proj', 'loss': '2.53599', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '182.811'} INFO - {'layer': 41, 'module': 'self_attn.q_proj', 'loss': '10.17238', 'damp': '0.10000', 'time': '1.443', 'fwd_time': '182.811'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 41, 'module': 'self_attn.o_proj', 'loss': '7.04449', 'damp': '0.10000', 'time': '1.450', 'fwd_time': '179.564'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 41, 'module': 'mlp.up_proj', 'loss': '35.32753', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.086'} INFO - {'layer': 41, 'module': 'mlp.gate_proj', 'loss': '33.75855', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.086'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 41, 'module': 'mlp.down_proj', 'loss': '11.40161', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.378'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 41 of 63 |██████████████████████████--------------| 11:12:34 / 16:41:01 [43/64] 67.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 42, 'module': 'self_attn.k_proj', 'loss': '2.35824', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.626'} INFO - {'layer': 42, 'module': 'self_attn.v_proj', 'loss': '1.72195', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.626'} INFO - {'layer': 42, 'module': 'self_attn.q_proj', 'loss': '9.03940', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.626'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 42, 'module': 'self_attn.o_proj', 'loss': '6.03776', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.586'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 42, 'module': 'mlp.up_proj', 'loss': '37.64269', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.052'} INFO - {'layer': 42, 'module': 'mlp.gate_proj', 'loss': '35.07131', 'damp': '0.10000', 'time': '2.304', 'fwd_time': '180.052'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 42, 'module': 'mlp.down_proj', 'loss': '13.06790', 'damp': '0.10000', 'time': '10.952', 'fwd_time': '194.323'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 42 of 63 |███████████████████████████-------------| 11:28:34 / 16:41:33 [44/64] 68.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 43, 'module': 'self_attn.k_proj', 'loss': '2.28732', 'damp': '0.10000', 'time': '1.300', 'fwd_time': '180.716'} INFO - {'layer': 43, 'module': 'self_attn.v_proj', 'loss': '1.95555', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.716'} INFO - {'layer': 43, 'module': 'self_attn.q_proj', 'loss': '8.47664', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.716'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 43, 'module': 'self_attn.o_proj', 'loss': '8.52545', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.701'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 43, 'module': 'mlp.up_proj', 'loss': '39.51856', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.046'} INFO - {'layer': 43, 'module': 'mlp.gate_proj', 'loss': '36.65776', 'damp': '0.10000', 'time': '2.308', 'fwd_time': '180.046'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 43, 'module': 'mlp.down_proj', 'loss': '16.02491', 'damp': '0.10000', 'time': '11.016', 'fwd_time': '194.344'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 43 of 63 |████████████████████████████------------| 11:44:33 / 16:42:01 [45/64] 70.3%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 44, 'module': 'self_attn.k_proj', 'loss': '1.93263', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.616'} INFO - {'layer': 44, 'module': 'self_attn.v_proj', 'loss': '2.67497', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.616'} INFO - {'layer': 44, 'module': 'self_attn.q_proj', 'loss': '8.30756', 'damp': '0.10000', 'time': '1.441', 'fwd_time': '180.616'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 44, 'module': 'self_attn.o_proj', 'loss': '9.71007', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '179.635'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 44, 'module': 'mlp.up_proj', 'loss': '39.93449', 'damp': '0.10000', 'time': '2.340', 'fwd_time': '180.023'} INFO - {'layer': 44, 'module': 'mlp.gate_proj', 'loss': '36.77854', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.023'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 44, 'module': 'mlp.down_proj', 'loss': '16.62127', 'damp': '0.10000', 'time': '11.042', 'fwd_time': '194.590'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 44 of 63 |████████████████████████████------------| 12:00:33 / 16:42:30 [46/64] 71.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 45, 'module': 'self_attn.k_proj', 'loss': '2.33465', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.694'} INFO - {'layer': 45, 'module': 'self_attn.v_proj', 'loss': '2.81778', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.694'} INFO - {'layer': 45, 'module': 'self_attn.q_proj', 'loss': '9.41949', 'damp': '0.10000', 'time': '1.457', 'fwd_time': '180.694'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 45, 'module': 'self_attn.o_proj', 'loss': '12.23259', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.583'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 45, 'module': 'mlp.up_proj', 'loss': '41.66721', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.015'} INFO - {'layer': 45, 'module': 'mlp.gate_proj', 'loss': '38.44549', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.015'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 45, 'module': 'mlp.down_proj', 'loss': '18.68768', 'damp': '0.10000', 'time': '10.922', 'fwd_time': '194.533'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 45 of 63 |█████████████████████████████-----------| 12:16:33 / 16:42:57 [47/64] 73.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 46, 'module': 'self_attn.k_proj', 'loss': '2.13504', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'} INFO - {'layer': 46, 'module': 'self_attn.v_proj', 'loss': '3.00420', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'} INFO - {'layer': 46, 'module': 'self_attn.q_proj', 'loss': '8.96905', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.723'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 46, 'module': 'self_attn.o_proj', 'loss': '14.64149', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.635'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 46, 'module': 'mlp.up_proj', 'loss': '44.77886', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.021'} INFO - {'layer': 46, 'module': 'mlp.gate_proj', 'loss': '41.66031', 'damp': '0.10000', 'time': '2.286', 'fwd_time': '180.021'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 46, 'module': 'mlp.down_proj', 'loss': '22.01645', 'damp': '0.10000', 'time': '10.905', 'fwd_time': '194.516'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 46 of 63 |██████████████████████████████----------| 12:32:32 / 16:43:22 [48/64] 75.0%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 47, 'module': 'self_attn.k_proj', 'loss': '2.24537', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.710'} INFO - {'layer': 47, 'module': 'self_attn.v_proj', 'loss': '2.84377', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.710'} INFO - {'layer': 47, 'module': 'self_attn.q_proj', 'loss': '9.31574', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.710'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 47, 'module': 'self_attn.o_proj', 'loss': '10.03240', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.660'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 47, 'module': 'mlp.up_proj', 'loss': '50.59407', 'damp': '0.10000', 'time': '2.298', 'fwd_time': '180.042'} INFO - {'layer': 47, 'module': 'mlp.gate_proj', 'loss': '47.86652', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.042'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 47, 'module': 'mlp.down_proj', 'loss': '26.41652', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.429'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 47 of 63 |██████████████████████████████----------| 12:48:32 / 16:43:47 [49/64] 76.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 48, 'module': 'self_attn.k_proj', 'loss': '2.44420', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.642'} INFO - {'layer': 48, 'module': 'self_attn.v_proj', 'loss': '3.79191', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.642'} INFO - {'layer': 48, 'module': 'self_attn.q_proj', 'loss': '10.23924', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.642'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 48, 'module': 'self_attn.o_proj', 'loss': '12.53692', 'damp': '0.10000', 'time': '1.577', 'fwd_time': '179.616'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 48, 'module': 'mlp.up_proj', 'loss': '55.46630', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'} INFO - {'layer': 48, 'module': 'mlp.gate_proj', 'loss': '53.09388', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 48, 'module': 'mlp.down_proj', 'loss': '30.89529', 'damp': '0.10000', 'time': '10.949', 'fwd_time': '194.562'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 48 of 63 |███████████████████████████████---------| 13:04:31 / 16:44:10 [50/64] 78.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 49, 'module': 'self_attn.k_proj', 'loss': '2.52239', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.647'} INFO - {'layer': 49, 'module': 'self_attn.v_proj', 'loss': '3.65270', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.647'} INFO - {'layer': 49, 'module': 'self_attn.q_proj', 'loss': '10.91024', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.647'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 49, 'module': 'self_attn.o_proj', 'loss': '14.26922', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.595'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 49, 'module': 'mlp.up_proj', 'loss': '66.36527', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '179.994'} INFO - {'layer': 49, 'module': 'mlp.gate_proj', 'loss': '64.04491', 'damp': '0.10000', 'time': '2.290', 'fwd_time': '179.994'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 49, 'module': 'mlp.down_proj', 'loss': '43.17512', 'damp': '0.10000', 'time': '10.985', 'fwd_time': '194.529'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 49 of 63 |███████████████████████████████---------| 13:20:31 / 16:44:34 [51/64] 79.7%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 50, 'module': 'self_attn.k_proj', 'loss': '2.66782', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.563'} INFO - {'layer': 50, 'module': 'self_attn.v_proj', 'loss': '4.38692', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.563'} INFO - {'layer': 50, 'module': 'self_attn.q_proj', 'loss': '11.92033', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.563'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 50, 'module': 'self_attn.o_proj', 'loss': '11.55887', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.510'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 50, 'module': 'mlp.up_proj', 'loss': '76.91088', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '179.967'} INFO - {'layer': 50, 'module': 'mlp.gate_proj', 'loss': '76.20550', 'damp': '0.10000', 'time': '2.302', 'fwd_time': '179.967'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 50, 'module': 'mlp.down_proj', 'loss': '49.31875', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.503'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 50 of 63 |████████████████████████████████--------| 13:36:30 / 16:44:55 [52/64] 81.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 51, 'module': 'self_attn.k_proj', 'loss': '2.71374', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '181.482'} INFO - {'layer': 51, 'module': 'self_attn.v_proj', 'loss': '3.84296', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '181.482'} INFO - {'layer': 51, 'module': 'self_attn.q_proj', 'loss': '11.35158', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '181.482'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 51, 'module': 'self_attn.o_proj', 'loss': '21.91198', 'damp': '0.10000', 'time': '1.449', 'fwd_time': '179.641'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 51, 'module': 'mlp.up_proj', 'loss': '85.67807', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '180.082'} INFO - {'layer': 51, 'module': 'mlp.gate_proj', 'loss': '86.28110', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.082'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 51, 'module': 'mlp.down_proj', 'loss': '57.13311', 'damp': '0.10000', 'time': '10.955', 'fwd_time': '194.350'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 51 of 63 |█████████████████████████████████-------| 13:52:31 / 16:45:18 [53/64] 82.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 52, 'module': 'self_attn.k_proj', 'loss': '2.95962', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.684'} INFO - {'layer': 52, 'module': 'self_attn.v_proj', 'loss': '6.29919', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.684'} INFO - {'layer': 52, 'module': 'self_attn.q_proj', 'loss': '13.32253', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.684'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 52, 'module': 'self_attn.o_proj', 'loss': '17.50098', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.625'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 52, 'module': 'mlp.up_proj', 'loss': '93.98927', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.075'} INFO - {'layer': 52, 'module': 'mlp.gate_proj', 'loss': '94.03600', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.075'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 52, 'module': 'mlp.down_proj', 'loss': '66.89360', 'damp': '0.10000', 'time': '10.940', 'fwd_time': '194.547'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 52 of 63 |█████████████████████████████████-------| 14:08:31 / 16:45:38 [54/64] 84.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 53, 'module': 'self_attn.k_proj', 'loss': '3.41568', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.720'} INFO - {'layer': 53, 'module': 'self_attn.v_proj', 'loss': '6.68261', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.720'} INFO - {'layer': 53, 'module': 'self_attn.q_proj', 'loss': '14.38581', 'damp': '0.10000', 'time': '1.444', 'fwd_time': '180.720'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 53, 'module': 'self_attn.o_proj', 'loss': '20.21694', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.585'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 53, 'module': 'mlp.up_proj', 'loss': '104.72342', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.071'} INFO - {'layer': 53, 'module': 'mlp.gate_proj', 'loss': '105.06948', 'damp': '0.10000', 'time': '2.329', 'fwd_time': '180.071'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 53, 'module': 'mlp.down_proj', 'loss': '75.09118', 'damp': '0.10000', 'time': '10.924', 'fwd_time': '194.528'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 53 of 63 |██████████████████████████████████------| 14:24:31 / 16:45:58 [55/64] 85.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 54, 'module': 'self_attn.k_proj', 'loss': '3.36520', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.724'} INFO - {'layer': 54, 'module': 'self_attn.v_proj', 'loss': '6.15906', 'damp': '0.10000', 'time': '1.284', 'fwd_time': '180.724'} INFO - {'layer': 54, 'module': 'self_attn.q_proj', 'loss': '14.19391', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.724'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 54, 'module': 'self_attn.o_proj', 'loss': '17.05255', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '179.625'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 54, 'module': 'mlp.up_proj', 'loss': '116.01665', 'damp': '0.10000', 'time': '2.269', 'fwd_time': '179.932'} INFO - {'layer': 54, 'module': 'mlp.gate_proj', 'loss': '115.23258', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '179.932'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 54, 'module': 'mlp.down_proj', 'loss': '81.21964', 'damp': '0.10000', 'time': '10.906', 'fwd_time': '194.418'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 54 of 63 |███████████████████████████████████-----| 14:40:30 / 16:46:17 [56/64] 87.5%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 55, 'module': 'self_attn.k_proj', 'loss': '3.17986', 'damp': '0.10000', 'time': '1.309', 'fwd_time': '180.614'} INFO - {'layer': 55, 'module': 'self_attn.v_proj', 'loss': '6.37354', 'damp': '0.10000', 'time': '1.322', 'fwd_time': '180.614'} INFO - {'layer': 55, 'module': 'self_attn.q_proj', 'loss': '14.36818', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.614'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 55, 'module': 'self_attn.o_proj', 'loss': '23.59741', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.590'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 55, 'module': 'mlp.up_proj', 'loss': '127.39666', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.035'} INFO - {'layer': 55, 'module': 'mlp.gate_proj', 'loss': '124.96896', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.035'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 55, 'module': 'mlp.down_proj', 'loss': '95.18001', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.525'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 55 of 63 |███████████████████████████████████-----| 14:56:30 / 16:46:35 [57/64] 89.1%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 56, 'module': 'self_attn.k_proj', 'loss': '3.51710', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.578'} INFO - {'layer': 56, 'module': 'self_attn.v_proj', 'loss': '8.92079', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.578'} INFO - {'layer': 56, 'module': 'self_attn.q_proj', 'loss': '15.57063', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.578'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 56, 'module': 'self_attn.o_proj', 'loss': '18.93305', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '179.618'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 56, 'module': 'mlp.up_proj', 'loss': '137.50682', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '180.052'} INFO - {'layer': 56, 'module': 'mlp.gate_proj', 'loss': '133.82163', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.052'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 56, 'module': 'mlp.down_proj', 'loss': '104.22985', 'damp': '0.10000', 'time': '10.929', 'fwd_time': '194.535'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 56 of 63 |████████████████████████████████████----| 15:12:30 / 16:46:53 [58/64] 90.6%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 57, 'module': 'self_attn.k_proj', 'loss': '3.39507', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.633'} INFO - {'layer': 57, 'module': 'self_attn.v_proj', 'loss': '9.25974', 'damp': '0.10000', 'time': '1.283', 'fwd_time': '180.633'} INFO - {'layer': 57, 'module': 'self_attn.q_proj', 'loss': '16.10579', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.633'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 57, 'module': 'self_attn.o_proj', 'loss': '14.65038', 'damp': '0.10000', 'time': '1.442', 'fwd_time': '179.609'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 57, 'module': 'mlp.up_proj', 'loss': '146.27147', 'damp': '0.10000', 'time': '2.271', 'fwd_time': '180.001'} INFO - {'layer': 57, 'module': 'mlp.gate_proj', 'loss': '140.22373', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.001'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 57, 'module': 'mlp.down_proj', 'loss': '114.18199', 'damp': '0.10000', 'time': '11.026', 'fwd_time': '194.483'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 57 of 63 |████████████████████████████████████----| 15:28:29 / 16:47:10 [59/64] 92.2%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 58, 'module': 'self_attn.k_proj', 'loss': '3.59921', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.761'} INFO - {'layer': 58, 'module': 'self_attn.v_proj', 'loss': '10.66743', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.761'} INFO - {'layer': 58, 'module': 'self_attn.q_proj', 'loss': '15.81635', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.761'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 58, 'module': 'self_attn.o_proj', 'loss': '15.86379', 'damp': '0.10000', 'time': '1.510', 'fwd_time': '179.620'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 58, 'module': 'mlp.up_proj', 'loss': '158.08565', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.014'} INFO - {'layer': 58, 'module': 'mlp.gate_proj', 'loss': '149.25287', 'damp': '0.10000', 'time': '2.345', 'fwd_time': '180.014'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 58, 'module': 'mlp.down_proj', 'loss': '137.70841', 'damp': '0.10000', 'time': '10.935', 'fwd_time': '194.487'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 58 of 63 |█████████████████████████████████████---| 15:44:29 / 16:47:26 [60/64] 93.8%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 59, 'module': 'self_attn.k_proj', 'loss': '3.67538', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.754'} INFO - {'layer': 59, 'module': 'self_attn.v_proj', 'loss': '14.46169', 'damp': '0.10000', 'time': '1.289', 'fwd_time': '180.754'} INFO - {'layer': 59, 'module': 'self_attn.q_proj', 'loss': '18.15292', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.754'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 59, 'module': 'self_attn.o_proj', 'loss': '37.87932', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.615'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 59, 'module': 'mlp.up_proj', 'loss': '175.38797', 'damp': '0.10000', 'time': '2.328', 'fwd_time': '180.052'} INFO - {'layer': 59, 'module': 'mlp.gate_proj', 'loss': '162.44526', 'damp': '0.10000', 'time': '2.331', 'fwd_time': '180.052'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 59, 'module': 'mlp.down_proj', 'loss': '179.52118', 'damp': '0.10000', 'time': '10.903', 'fwd_time': '194.595'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 59 of 63 |██████████████████████████████████████--| 16:00:29 / 16:47:43 [61/64] 95.3%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 60, 'module': 'self_attn.k_proj', 'loss': '3.14580', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.662'} INFO - {'layer': 60, 'module': 'self_attn.v_proj', 'loss': '15.64041', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.662'} INFO - {'layer': 60, 'module': 'self_attn.q_proj', 'loss': '17.17400', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.662'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 60, 'module': 'self_attn.o_proj', 'loss': '47.29679', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.653'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 60, 'module': 'mlp.up_proj', 'loss': '191.12323', 'damp': '0.10000', 'time': '2.287', 'fwd_time': '180.117'} INFO - {'layer': 60, 'module': 'mlp.gate_proj', 'loss': '173.92417', 'damp': '0.10000', 'time': '2.289', 'fwd_time': '180.117'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 60, 'module': 'mlp.down_proj', 'loss': '381.57719', 'damp': '0.10000', 'time': '10.930', 'fwd_time': '194.374'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 60 of 63 |██████████████████████████████████████--| 16:16:28 / 16:47:57 [62/64] 96.9%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 61, 'module': 'self_attn.k_proj', 'loss': '3.22560', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.663'} INFO - {'layer': 61, 'module': 'self_attn.v_proj', 'loss': '19.75692', 'damp': '0.10000', 'time': '1.285', 'fwd_time': '180.663'} INFO - {'layer': 61, 'module': 'self_attn.q_proj', 'loss': '17.35482', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.663'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 61, 'module': 'self_attn.o_proj', 'loss': '57.58032', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '179.432'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 61, 'module': 'mlp.up_proj', 'loss': '205.42150', 'damp': '0.10000', 'time': '2.284', 'fwd_time': '179.905'} INFO - {'layer': 61, 'module': 'mlp.gate_proj', 'loss': '187.30222', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '179.905'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 61, 'module': 'mlp.down_proj', 'loss': '321.43789', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.398'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 61 of 63 |███████████████████████████████████████-| 16:32:27 / 16:48:12 [63/64] 98.4%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 62, 'module': 'self_attn.k_proj', 'loss': '3.10699', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.628'} INFO - {'layer': 62, 'module': 'self_attn.v_proj', 'loss': '22.59203', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.628'} INFO - {'layer': 62, 'module': 'self_attn.q_proj', 'loss': '17.16475', 'damp': '0.10000', 'time': '1.436', 'fwd_time': '180.628'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 62, 'module': 'self_attn.o_proj', 'loss': '82.21398', 'damp': '0.10000', 'time': '1.428', 'fwd_time': '179.517'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 62, 'module': 'mlp.up_proj', 'loss': '205.27777', 'damp': '0.10000', 'time': '2.263', 'fwd_time': '179.917'} INFO - {'layer': 62, 'module': 'mlp.gate_proj', 'loss': '191.64138', 'damp': '0.10000', 'time': '2.267', 'fwd_time': '179.917'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 62, 'module': 'mlp.down_proj', 'loss': '544.66563', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.511'}
0%| | 0/1123 [00:00<?, ?it/s]
Quantizing mlp.down_proj in layer 62 of 63 |████████████████████████████████████████| 16:48:26 / 16:48:26 [64/64] 100.0%
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 63, 'module': 'self_attn.k_proj', 'loss': '2.77712', 'damp': '0.10000', 'time': '1.279', 'fwd_time': '180.354'} INFO - {'layer': 63, 'module': 'self_attn.v_proj', 'loss': '14.33761', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.354'} INFO - {'layer': 63, 'module': 'self_attn.q_proj', 'loss': '12.67621', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.354'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 63, 'module': 'self_attn.o_proj', 'loss': '35.30698', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '179.569'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 63, 'module': 'mlp.up_proj', 'loss': '221.10228', 'damp': '0.10000', 'time': '2.296', 'fwd_time': '179.977'} INFO - {'layer': 63, 'module': 'mlp.gate_proj', 'loss': '213.36907', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '179.977'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - {'layer': 63, 'module': 'mlp.down_proj', 'loss': '877.11320', 'damp': '0.10000', 'time': '10.990', 'fwd_time': '194.567'}
0%| | 0/1123 [00:00<?, ?it/s]
INFO - Quantization summary: [{'layer': 0, 'module': 'self_attn.k_proj', 'loss': '0.21932', 'damp': '0.10000', 'time': '1.539', 'fwd_time': '181.555'}, {'layer': 0, 'module': 'self_attn.v_proj', 'loss': '0.06990', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.555'}, {'layer': 0, 'module': 'self_attn.q_proj', 'loss': '0.63353', 'damp': '0.10000', 'time': '1.497', 'fwd_time': '181.555'}, {'layer': 0, 'module': 'self_attn.o_proj', 'loss': '1.53644', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '180.229'}, {'layer': 0, 'module': 'mlp.up_proj', 'loss': '0.48136', 'damp': '0.10000', 'time': '2.423', 'fwd_time': '180.524'}, {'layer': 0, 'module': 'mlp.gate_proj', 'loss': '0.52939', 'damp': '0.10000', 'time': '2.411', 'fwd_time': '180.524'}, {'layer': 0, 'module': 'mlp.down_proj', 'loss': '0.60040', 'damp': '0.10000', 'time': '11.206', 'fwd_time': '194.950'}, {'layer': 1, 'module': 'self_attn.k_proj', 'loss': '0.00747', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.374'}, {'layer': 1, 'module': 'self_attn.v_proj', 'loss': '0.00383', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '181.374'}, {'layer': 1, 'module': 'self_attn.q_proj', 'loss': '0.02565', 'damp': '0.10000', 'time': '1.502', 'fwd_time': '181.374'}, {'layer': 1, 'module': 'self_attn.o_proj', 'loss': '0.01501', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '180.135'}, {'layer': 1, 'module': 'mlp.up_proj', 'loss': '2.40089', 'damp': '0.10000', 'time': '2.445', 'fwd_time': '180.711'}, {'layer': 1, 'module': 'mlp.gate_proj', 'loss': '6.17636', 'damp': '0.10000', 'time': '2.421', 'fwd_time': '180.711'}, {'layer': 1, 'module': 'mlp.down_proj', 'loss': '0.07097', 'damp': '0.10000', 'time': '11.123', 'fwd_time': '194.713'}, {'layer': 2, 'module': 'self_attn.k_proj', 'loss': '0.03215', 'damp': '0.10000', 'time': '1.347', 'fwd_time': '181.320'}, {'layer': 2, 'module': 'self_attn.v_proj', 'loss': '0.01367', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.320'}, {'layer': 2, 'module': 'self_attn.q_proj', 'loss': '0.09015', 'damp': '0.10000', 'time': '1.512', 'fwd_time': '181.320'}, {'layer': 2, 'module': 'self_attn.o_proj', 'loss': '0.09266', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.239'}, {'layer': 2, 'module': 'mlp.up_proj', 'loss': '5.20606', 'damp': '0.10000', 'time': '2.403', 'fwd_time': '180.694'}, {'layer': 2, 'module': 'mlp.gate_proj', 'loss': '10.58370', 'damp': '0.10000', 'time': '2.400', 'fwd_time': '180.694'}, {'layer': 2, 'module': 'mlp.down_proj', 'loss': '0.36352', 'damp': '0.10000', 'time': '11.242', 'fwd_time': '195.008'}, {'layer': 3, 'module': 'self_attn.k_proj', 'loss': '0.20204', 'damp': '0.10000', 'time': '1.358', 'fwd_time': '181.430'}, {'layer': 3, 'module': 'self_attn.v_proj', 'loss': '0.07010', 'damp': '0.10000', 'time': '1.345', 'fwd_time': '181.430'}, {'layer': 3, 'module': 'self_attn.q_proj', 'loss': '0.58422', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '181.430'}, {'layer': 3, 'module': 'self_attn.o_proj', 'loss': '0.32670', 'damp': '0.10000', 'time': '1.508', 'fwd_time': '180.149'}, {'layer': 3, 'module': 'mlp.up_proj', 'loss': '6.34731', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'}, {'layer': 3, 'module': 'mlp.gate_proj', 'loss': '13.98404', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'}, {'layer': 3, 'module': 'mlp.down_proj', 'loss': '0.86336', 'damp': '0.10000', 'time': '11.249', 'fwd_time': '195.066'}, {'layer': 4, 'module': 'self_attn.k_proj', 'loss': '0.19773', 'damp': '0.10000', 'time': '1.336', 'fwd_time': '181.222'}, {'layer': 4, 'module': 'self_attn.v_proj', 'loss': '0.10230', 'damp': '0.10000', 'time': '1.326', 'fwd_time': '181.222'}, {'layer': 4, 'module': 'self_attn.q_proj', 'loss': '0.60618', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.222'}, {'layer': 4, 'module': 'self_attn.o_proj', 'loss': '0.63086', 'damp': '0.10000', 'time': '1.490', 'fwd_time': '180.260'}, {'layer': 4, 'module': 'mlp.up_proj', 'loss': '16.42926', 'damp': '0.10000', 'time': '2.387', 'fwd_time': '180.716'}, {'layer': 4, 'module': 'mlp.gate_proj', 'loss': '32.29819', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.716'}, {'layer': 4, 'module': 'mlp.down_proj', 'loss': '587.46689', 'damp': '0.10000', 'time': '11.247', 'fwd_time': '195.045'}, {'layer': 5, 'module': 'self_attn.k_proj', 'loss': '0.72354', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '181.371'}, {'layer': 5, 'module': 'self_attn.v_proj', 'loss': '0.42462', 'damp': '0.10000', 'time': '1.334', 'fwd_time': '181.371'}, {'layer': 5, 'module': 'self_attn.q_proj', 'loss': '2.40297', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.371'}, {'layer': 5, 'module': 'self_attn.o_proj', 'loss': '0.73659', 'damp': '0.10000', 'time': '1.501', 'fwd_time': '180.189'}, {'layer': 5, 'module': 'mlp.up_proj', 'loss': '26.50791', 'damp': '0.10000', 'time': '2.416', 'fwd_time': '180.533'}, {'layer': 5, 'module': 'mlp.gate_proj', 'loss': '49.79549', 'damp': '0.10000', 'time': '2.393', 'fwd_time': '180.533'}, {'layer': 5, 'module': 'mlp.down_proj', 'loss': '522.29541', 'damp': '0.10000', 'time': '11.290', 'fwd_time': '194.825'}, {'layer': 6, 'module': 'self_attn.k_proj', 'loss': '0.66616', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.275'}, {'layer': 6, 'module': 'self_attn.v_proj', 'loss': '0.49659', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.275'}, {'layer': 6, 'module': 'self_attn.q_proj', 'loss': '2.35563', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '181.275'}, {'layer': 6, 'module': 'self_attn.o_proj', 'loss': '0.58956', 'damp': '0.10000', 'time': '1.506', 'fwd_time': '180.152'}, {'layer': 6, 'module': 'mlp.up_proj', 'loss': '42.32227', 'damp': '0.10000', 'time': '2.401', 'fwd_time': '180.759'}, {'layer': 6, 'module': 'mlp.gate_proj', 'loss': '75.13210', 'damp': '0.10000', 'time': '2.409', 'fwd_time': '180.759'}, {'layer': 6, 'module': 'mlp.down_proj', 'loss': '31.55573', 'damp': '0.10000', 'time': '11.224', 'fwd_time': '194.953'}, {'layer': 7, 'module': 'self_attn.k_proj', 'loss': '0.85074', 'damp': '0.10000', 'time': '1.335', 'fwd_time': '181.299'}, {'layer': 7, 'module': 'self_attn.v_proj', 'loss': '0.69796', 'damp': '0.10000', 'time': '1.331', 'fwd_time': '181.299'}, {'layer': 7, 'module': 'self_attn.q_proj', 'loss': '3.08233', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '181.299'}, {'layer': 7, 'module': 'self_attn.o_proj', 'loss': '0.63950', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.195'}, {'layer': 7, 'module': 'mlp.up_proj', 'loss': '49.91836', 'damp': '0.10000', 'time': '2.395', 'fwd_time': '180.666'}, {'layer': 7, 'module': 'mlp.gate_proj', 'loss': '89.78850', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.666'}, {'layer': 7, 'module': 'mlp.down_proj', 'loss': '2.12929', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.884'}, {'layer': 8, 'module': 'self_attn.k_proj', 'loss': '1.07405', 'damp': '0.10000', 'time': '1.363', 'fwd_time': '181.173'}, {'layer': 8, 'module': 'self_attn.v_proj', 'loss': '0.64949', 'damp': '0.10000', 'time': '1.328', 'fwd_time': '181.173'}, {'layer': 8, 'module': 'self_attn.q_proj', 'loss': '3.66730', 'damp': '0.10000', 'time': '1.483', 'fwd_time': '181.173'}, {'layer': 8, 'module': 'self_attn.o_proj', 'loss': '0.57933', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '180.237'}, {'layer': 8, 'module': 'mlp.up_proj', 'loss': '30.98035', 'damp': '0.10000', 'time': '2.376', 'fwd_time': '180.517'}, {'layer': 8, 'module': 'mlp.gate_proj', 'loss': '54.68026', 'damp': '0.10000', 'time': '2.375', 'fwd_time': '180.517'}, {'layer': 8, 'module': 'mlp.down_proj', 'loss': '2.39296', 'damp': '0.10000', 'time': '11.024', 'fwd_time': '194.860'}, {'layer': 9, 'module': 'self_attn.k_proj', 'loss': '0.85622', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.847'}, {'layer': 9, 'module': 'self_attn.v_proj', 'loss': '0.70850', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.847'}, {'layer': 9, 'module': 'self_attn.q_proj', 'loss': '3.05020', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.847'}, {'layer': 9, 'module': 'self_attn.o_proj', 'loss': '0.97835', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '179.724'}, {'layer': 9, 'module': 'mlp.up_proj', 'loss': '12.53627', 'damp': '0.10000', 'time': '2.276', 'fwd_time': '180.037'}, {'layer': 9, 'module': 'mlp.gate_proj', 'loss': '13.44056', 'damp': '0.10000', 'time': '2.272', 'fwd_time': '180.037'}, {'layer': 9, 'module': 'mlp.down_proj', 'loss': '2.59464', 'damp': '0.10000', 'time': '10.920', 'fwd_time': '194.478'}, {'layer': 10, 'module': 'self_attn.k_proj', 'loss': '1.16653', 'damp': '0.10000', 'time': '1.312', 'fwd_time': '180.710'}, {'layer': 10, 'module': 'self_attn.v_proj', 'loss': '0.90903', 'damp': '0.10000', 'time': '1.360', 'fwd_time': '180.710'}, {'layer': 10, 'module': 'self_attn.q_proj', 'loss': '4.31524', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.710'}, {'layer': 10, 'module': 'self_attn.o_proj', 'loss': '0.95127', 'damp': '0.10000', 'time': '1.505', 'fwd_time': '179.513'}, {'layer': 10, 'module': 'mlp.up_proj', 'loss': '14.21657', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '180.007'}, {'layer': 10, 'module': 'mlp.gate_proj', 'loss': '15.31685', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.007'}, {'layer': 10, 'module': 'mlp.down_proj', 'loss': '3.00897', 'damp': '0.10000', 'time': '10.969', 'fwd_time': '194.558'}, {'layer': 11, 'module': 'self_attn.k_proj', 'loss': '0.94783', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.753'}, {'layer': 11, 'module': 'self_attn.v_proj', 'loss': '0.68951', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.753'}, {'layer': 11, 'module': 'self_attn.q_proj', 'loss': '3.46378', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.753'}, {'layer': 11, 'module': 'self_attn.o_proj', 'loss': '1.90921', 'damp': '0.10000', 'time': '1.447', 'fwd_time': '179.657'}, {'layer': 11, 'module': 'mlp.up_proj', 'loss': '19.40327', 'damp': '0.10000', 'time': '2.280', 'fwd_time': '180.037'}, {'layer': 11, 'module': 'mlp.gate_proj', 'loss': '23.92704', 'damp': '0.10000', 'time': '2.285', 'fwd_time': '180.037'}, {'layer': 11, 'module': 'mlp.down_proj', 'loss': '2.97715', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.557'}, {'layer': 12, 'module': 'self_attn.k_proj', 'loss': '1.08602', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.704'}, {'layer': 12, 'module': 'self_attn.v_proj', 'loss': '0.74431', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.704'}, {'layer': 12, 'module': 'self_attn.q_proj', 'loss': '4.01792', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.704'}, {'layer': 12, 'module': 'self_attn.o_proj', 'loss': '1.80497', 'damp': '0.10000', 'time': '1.432', 'fwd_time': '179.639'}, {'layer': 12, 'module': 'mlp.up_proj', 'loss': '16.91254', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.145'}, {'layer': 12, 'module': 'mlp.gate_proj', 'loss': '18.04272', 'damp': '0.10000', 'time': '2.274', 'fwd_time': '180.145'}, {'layer': 12, 'module': 'mlp.down_proj', 'loss': '3.48199', 'damp': '0.10000', 'time': '11.011', 'fwd_time': '194.583'}, {'layer': 13, 'module': 'self_attn.k_proj', 'loss': '1.22753', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.711'}, {'layer': 13, 'module': 'self_attn.v_proj', 'loss': '0.89010', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.711'}, {'layer': 13, 'module': 'self_attn.q_proj', 'loss': '4.36018', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.711'}, {'layer': 13, 'module': 'self_attn.o_proj', 'loss': '1.75457', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '179.614'}, {'layer': 13, 'module': 'mlp.up_proj', 'loss': '19.40314', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '179.951'}, {'layer': 13, 'module': 'mlp.gate_proj', 'loss': '20.87128', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '179.951'}, {'layer': 13, 'module': 'mlp.down_proj', 'loss': '3.92058', 'damp': '0.10000', 'time': '11.225', 'fwd_time': '194.541'}, {'layer': 14, 'module': 'self_attn.k_proj', 'loss': '1.47310', 'damp': '0.10000', 'time': '1.327', 'fwd_time': '180.463'}, {'layer': 14, 'module': 'self_attn.v_proj', 'loss': '0.97991', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.463'}, {'layer': 14, 'module': 'self_attn.q_proj', 'loss': '5.31070', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.463'}, {'layer': 14, 'module': 'self_attn.o_proj', 'loss': '1.86601', 'damp': '0.10000', 'time': '1.513', 'fwd_time': '179.592'}, {'layer': 14, 'module': 'mlp.up_proj', 'loss': '20.50224', 'damp': '0.10000', 'time': '2.349', 'fwd_time': '180.003'}, {'layer': 14, 'module': 'mlp.gate_proj', 'loss': '22.18833', 'damp': '0.10000', 'time': '2.281', 'fwd_time': '180.003'}, {'layer': 14, 'module': 'mlp.down_proj', 'loss': '4.27567', 'damp': '0.10000', 'time': '11.369', 'fwd_time': '194.563'}, {'layer': 15, 'module': 'self_attn.k_proj', 'loss': '1.24926', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '180.693'}, {'layer': 15, 'module': 'self_attn.v_proj', 'loss': '0.96484', 'damp': '0.10000', 'time': '1.370', 'fwd_time': '180.693'}, {'layer': 15, 'module': 'self_attn.q_proj', 'loss': '4.50831', 'damp': '0.10000', 'time': '1.576', 'fwd_time': '180.693'}, {'layer': 15, 'module': 'self_attn.o_proj', 'loss': '2.08441', 'damp': '0.10000', 'time': '1.527', 'fwd_time': '179.613'}, {'layer': 15, 'module': 'mlp.up_proj', 'loss': '21.55517', 'damp': '0.10000', 'time': '2.360', 'fwd_time': '180.055'}, {'layer': 15, 'module': 'mlp.gate_proj', 'loss': '24.37054', 'damp': '0.10000', 'time': '2.485', 'fwd_time': '180.055'}, {'layer': 15, 'module': 'mlp.down_proj', 'loss': '4.66921', 'damp': '0.10000', 'time': '11.144', 'fwd_time': '194.668'}, {'layer': 16, 'module': 'self_attn.k_proj', 'loss': '1.20586', 'damp': '0.10000', 'time': '1.367', 'fwd_time': '180.786'}, {'layer': 16, 'module': 'self_attn.v_proj', 'loss': '0.74171', 'damp': '0.10000', 'time': '1.377', 'fwd_time': '180.786'}, {'layer': 16, 'module': 'self_attn.q_proj', 'loss': '4.09036', 'damp': '0.10000', 'time': '1.525', 'fwd_time': '180.786'}, {'layer': 16, 'module': 'self_attn.o_proj', 'loss': '1.66565', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.672'}, {'layer': 16, 'module': 'mlp.up_proj', 'loss': '20.58864', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '179.962'}, {'layer': 16, 'module': 'mlp.gate_proj', 'loss': '22.13742', 'damp': '0.10000', 'time': '2.317', 'fwd_time': '179.962'}, {'layer': 16, 'module': 'mlp.down_proj', 'loss': '4.32864', 'damp': '0.10000', 'time': '11.065', 'fwd_time': '194.604'}, {'layer': 17, 'module': 'self_attn.k_proj', 'loss': '1.55755', 'damp': '0.10000', 'time': '1.392', 'fwd_time': '180.714'}, {'layer': 17, 'module': 'self_attn.v_proj', 'loss': '0.92695', 'damp': '0.10000', 'time': '1.403', 'fwd_time': '180.714'}, {'layer': 17, 'module': 'self_attn.q_proj', 'loss': '5.36392', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.714'}, {'layer': 17, 'module': 'self_attn.o_proj', 'loss': '1.68428', 'damp': '0.10000', 'time': '1.561', 'fwd_time': '179.547'}, {'layer': 17, 'module': 'mlp.up_proj', 'loss': '20.66038', 'damp': '0.10000', 'time': '2.341', 'fwd_time': '180.057'}, {'layer': 17, 'module': 'mlp.gate_proj', 'loss': '21.92830', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.057'}, {'layer': 17, 'module': 'mlp.down_proj', 'loss': '4.24783', 'damp': '0.10000', 'time': '11.208', 'fwd_time': '194.595'}, {'layer': 18, 'module': 'self_attn.k_proj', 'loss': '1.60531', 'damp': '0.10000', 'time': '1.404', 'fwd_time': '181.426'}, {'layer': 18, 'module': 'self_attn.v_proj', 'loss': '0.96575', 'damp': '0.10000', 'time': '1.319', 'fwd_time': '181.426'}, {'layer': 18, 'module': 'self_attn.q_proj', 'loss': '5.49226', 'damp': '0.10000', 'time': '1.459', 'fwd_time': '181.426'}, {'layer': 18, 'module': 'self_attn.o_proj', 'loss': '1.48581', 'damp': '0.10000', 'time': '1.522', 'fwd_time': '179.533'}, {'layer': 18, 'module': 'mlp.up_proj', 'loss': '20.34096', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.133'}, {'layer': 18, 'module': 'mlp.gate_proj', 'loss': '21.43189', 'damp': '0.10000', 'time': '2.457', 'fwd_time': '180.133'}, {'layer': 18, 'module': 'mlp.down_proj', 'loss': '4.20860', 'damp': '0.10000', 'time': '10.987', 'fwd_time': '194.768'}, {'layer': 19, 'module': 'self_attn.k_proj', 'loss': '1.38301', 'damp': '0.10000', 'time': '1.424', 'fwd_time': '180.684'}, {'layer': 19, 'module': 'self_attn.v_proj', 'loss': '0.94416', 'damp': '0.10000', 'time': '1.473', 'fwd_time': '180.684'}, {'layer': 19, 'module': 'self_attn.q_proj', 'loss': '5.01696', 'damp': '0.10000', 'time': '1.593', 'fwd_time': '180.684'}, {'layer': 19, 'module': 'self_attn.o_proj', 'loss': '1.21167', 'damp': '0.10000', 'time': '1.650', 'fwd_time': '179.390'}, {'layer': 19, 'module': 'mlp.up_proj', 'loss': '20.60382', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '179.854'}, {'layer': 19, 'module': 'mlp.gate_proj', 'loss': '21.65518', 'damp': '0.10000', 'time': '2.306', 'fwd_time': '179.854'}, {'layer': 19, 'module': 'mlp.down_proj', 'loss': '4.24532', 'damp': '0.10000', 'time': '11.253', 'fwd_time': '194.715'}, {'layer': 20, 'module': 'self_attn.k_proj', 'loss': '1.67529', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.886'}, {'layer': 20, 'module': 'self_attn.v_proj', 'loss': '0.97326', 'damp': '0.10000', 'time': '1.394', 'fwd_time': '180.886'}, {'layer': 20, 'module': 'self_attn.q_proj', 'loss': '5.80866', 'damp': '0.10000', 'time': '1.638', 'fwd_time': '180.886'}, {'layer': 20, 'module': 'self_attn.o_proj', 'loss': '2.01039', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '179.451'}, {'layer': 20, 'module': 'mlp.up_proj', 'loss': '20.08991', 'damp': '0.10000', 'time': '2.333', 'fwd_time': '179.710'}, {'layer': 20, 'module': 'mlp.gate_proj', 'loss': '20.81839', 'damp': '0.10000', 'time': '2.396', 'fwd_time': '179.710'}, {'layer': 20, 'module': 'mlp.down_proj', 'loss': '4.39435', 'damp': '0.10000', 'time': '11.599', 'fwd_time': '194.532'}, {'layer': 21, 'module': 'self_attn.k_proj', 'loss': '1.37911', 'damp': '0.10000', 'time': '1.429', 'fwd_time': '180.597'}, {'layer': 21, 'module': 'self_attn.v_proj', 'loss': '0.84209', 'damp': '0.10000', 'time': '1.401', 'fwd_time': '180.597'}, {'layer': 21, 'module': 'self_attn.q_proj', 'loss': '4.83675', 'damp': '0.10000', 'time': '1.528', 'fwd_time': '180.597'}, {'layer': 21, 'module': 'self_attn.o_proj', 'loss': '1.99481', 'damp': '0.10000', 'time': '1.546', 'fwd_time': '179.461'}, {'layer': 21, 'module': 'mlp.up_proj', 'loss': '19.99206', 'damp': '0.10000', 'time': '2.361', 'fwd_time': '179.779'}, {'layer': 21, 'module': 'mlp.gate_proj', 'loss': '20.76938', 'damp': '0.10000', 'time': '2.369', 'fwd_time': '179.779'}, {'layer': 21, 'module': 'mlp.down_proj', 'loss': '4.42359', 'damp': '0.10000', 'time': '11.515', 'fwd_time': '194.516'}, {'layer': 22, 'module': 'self_attn.k_proj', 'loss': '1.50769', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.490'}, {'layer': 22, 'module': 'self_attn.v_proj', 'loss': '1.15672', 'damp': '0.10000', 'time': '1.275', 'fwd_time': '180.490'}, {'layer': 22, 'module': 'self_attn.q_proj', 'loss': '5.48060', 'damp': '0.10000', 'time': '1.425', 'fwd_time': '180.490'}, {'layer': 22, 'module': 'self_attn.o_proj', 'loss': '2.49873', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.557'}, {'layer': 22, 'module': 'mlp.up_proj', 'loss': '21.26843', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.081'}, {'layer': 22, 'module': 'mlp.gate_proj', 'loss': '22.03465', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.081'}, {'layer': 22, 'module': 'mlp.down_proj', 'loss': '4.79118', 'damp': '0.10000', 'time': '10.968', 'fwd_time': '194.443'}, {'layer': 23, 'module': 'self_attn.k_proj', 'loss': '1.44571', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.920'}, {'layer': 23, 'module': 'self_attn.v_proj', 'loss': '1.18315', 'damp': '0.10000', 'time': '1.384', 'fwd_time': '180.920'}, {'layer': 23, 'module': 'self_attn.q_proj', 'loss': '5.38706', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '180.920'}, {'layer': 23, 'module': 'self_attn.o_proj', 'loss': '2.65820', 'damp': '0.10000', 'time': '1.488', 'fwd_time': '179.860'}, {'layer': 23, 'module': 'mlp.up_proj', 'loss': '22.39951', 'damp': '0.10000', 'time': '2.343', 'fwd_time': '180.171'}, {'layer': 23, 'module': 'mlp.gate_proj', 'loss': '23.49767', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '180.171'}, {'layer': 23, 'module': 'mlp.down_proj', 'loss': '5.14678', 'damp': '0.10000', 'time': '11.171', 'fwd_time': '194.532'}, {'layer': 24, 'module': 'self_attn.k_proj', 'loss': '1.88726', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.631'}, {'layer': 24, 'module': 'self_attn.v_proj', 'loss': '1.25504', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.631'}, {'layer': 24, 'module': 'self_attn.q_proj', 'loss': '6.79697', 'damp': '0.10000', 'time': '1.547', 'fwd_time': '180.631'}, {'layer': 24, 'module': 'self_attn.o_proj', 'loss': '2.37069', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.619'}, {'layer': 24, 'module': 'mlp.up_proj', 'loss': '23.00431', 'damp': '0.10000', 'time': '2.300', 'fwd_time': '180.072'}, {'layer': 24, 'module': 'mlp.gate_proj', 'loss': '23.90416', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'}, {'layer': 24, 'module': 'mlp.down_proj', 'loss': '5.33596', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.506'}, {'layer': 25, 'module': 'self_attn.k_proj', 'loss': '2.08859', 'damp': '0.10000', 'time': '1.484', 'fwd_time': '180.593'}, {'layer': 25, 'module': 'self_attn.v_proj', 'loss': '1.52274', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.593'}, {'layer': 25, 'module': 'self_attn.q_proj', 'loss': '7.71944', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.593'}, {'layer': 25, 'module': 'self_attn.o_proj', 'loss': '2.59465', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.589'}, {'layer': 25, 'module': 'mlp.up_proj', 'loss': '23.82350', 'damp': '0.10000', 'time': '2.295', 'fwd_time': '180.004'}, {'layer': 25, 'module': 'mlp.gate_proj', 'loss': '24.36376', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.004'}, {'layer': 25, 'module': 'mlp.down_proj', 'loss': '6.14879', 'damp': '0.10000', 'time': '10.939', 'fwd_time': '194.410'}, {'layer': 26, 'module': 'self_attn.k_proj', 'loss': '1.85201', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.676'}, {'layer': 26, 'module': 'self_attn.v_proj', 'loss': '1.08654', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.676'}, {'layer': 26, 'module': 'self_attn.q_proj', 'loss': '6.72261', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.676'}, {'layer': 26, 'module': 'self_attn.o_proj', 'loss': '2.70091', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.585'}, {'layer': 26, 'module': 'mlp.up_proj', 'loss': '24.94679', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.067'}, {'layer': 26, 'module': 'mlp.gate_proj', 'loss': '25.21166', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.067'}, {'layer': 26, 'module': 'mlp.down_proj', 'loss': '6.65333', 'damp': '0.10000', 'time': '10.951', 'fwd_time': '194.490'}, {'layer': 27, 'module': 'self_attn.k_proj', 'loss': '1.80303', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.700'}, {'layer': 27, 'module': 'self_attn.v_proj', 'loss': '1.11704', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.700'}, {'layer': 27, 'module': 'self_attn.q_proj', 'loss': '6.16689', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.700'}, {'layer': 27, 'module': 'self_attn.o_proj', 'loss': '4.27886', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.605'}, {'layer': 27, 'module': 'mlp.up_proj', 'loss': '25.90349', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.071'}, {'layer': 27, 'module': 'mlp.gate_proj', 'loss': '26.13162', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.071'}, {'layer': 27, 'module': 'mlp.down_proj', 'loss': '7.54102', 'damp': '0.10000', 'time': '10.965', 'fwd_time': '194.569'}, {'layer': 28, 'module': 'self_attn.k_proj', 'loss': '1.69771', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.722'}, {'layer': 28, 'module': 'self_attn.v_proj', 'loss': '1.60528', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.722'}, {'layer': 28, 'module': 'self_attn.q_proj', 'loss': '6.53194', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.722'}, {'layer': 28, 'module': 'self_attn.o_proj', 'loss': '4.20230', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '179.598'}, {'layer': 28, 'module': 'mlp.up_proj', 'loss': '28.05067', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '179.985'}, {'layer': 28, 'module': 'mlp.gate_proj', 'loss': '28.02932', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '179.985'}, {'layer': 28, 'module': 'mlp.down_proj', 'loss': '8.23658', 'damp': '0.10000', 'time': '10.941', 'fwd_time': '194.268'}, {'layer': 29, 'module': 'self_attn.k_proj', 'loss': '2.46457', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.571'}, {'layer': 29, 'module': 'self_attn.v_proj', 'loss': '1.97819', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.571'}, {'layer': 29, 'module': 'self_attn.q_proj', 'loss': '8.90249', 'damp': '0.10000', 'time': '1.499', 'fwd_time': '180.571'}, {'layer': 29, 'module': 'self_attn.o_proj', 'loss': '5.20760', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.634'}, {'layer': 29, 'module': 'mlp.up_proj', 'loss': '30.33147', 'damp': '0.10000', 'time': '2.388', 'fwd_time': '180.025'}, {'layer': 29, 'module': 'mlp.gate_proj', 'loss': '30.10080', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.025'}, {'layer': 29, 'module': 'mlp.down_proj', 'loss': '9.00467', 'damp': '0.10000', 'time': '11.021', 'fwd_time': '194.483'}, {'layer': 30, 'module': 'self_attn.k_proj', 'loss': '2.05785', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.603'}, {'layer': 30, 'module': 'self_attn.v_proj', 'loss': '1.95388', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.603'}, {'layer': 30, 'module': 'self_attn.q_proj', 'loss': '7.90785', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.603'}, {'layer': 30, 'module': 'self_attn.o_proj', 'loss': '6.99206', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.691'}, {'layer': 30, 'module': 'mlp.up_proj', 'loss': '32.67397', 'damp': '0.10000', 'time': '2.312', 'fwd_time': '179.985'}, {'layer': 30, 'module': 'mlp.gate_proj', 'loss': '32.30062', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '179.985'}, {'layer': 30, 'module': 'mlp.down_proj', 'loss': '10.09964', 'damp': '0.10000', 'time': '10.901', 'fwd_time': '194.551'}, {'layer': 31, 'module': 'self_attn.k_proj', 'loss': '2.18536', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.667'}, {'layer': 31, 'module': 'self_attn.v_proj', 'loss': '1.97777', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.667'}, {'layer': 31, 'module': 'self_attn.q_proj', 'loss': '8.18490', 'damp': '0.10000', 'time': '1.453', 'fwd_time': '180.667'}, {'layer': 31, 'module': 'self_attn.o_proj', 'loss': '4.57464', 'damp': '0.10000', 'time': '1.462', 'fwd_time': '179.678'}, {'layer': 31, 'module': 'mlp.up_proj', 'loss': '35.59037', 'damp': '0.10000', 'time': '2.315', 'fwd_time': '180.072'}, {'layer': 31, 'module': 'mlp.gate_proj', 'loss': '35.25336', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'}, {'layer': 31, 'module': 'mlp.down_proj', 'loss': '10.93689', 'damp': '0.10000', 'time': '11.025', 'fwd_time': '194.621'}, {'layer': 32, 'module': 'self_attn.k_proj', 'loss': '2.10946', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.689'}, {'layer': 32, 'module': 'self_attn.v_proj', 'loss': '1.52154', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.689'}, {'layer': 32, 'module': 'self_attn.q_proj', 'loss': '7.29806', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.689'}, {'layer': 32, 'module': 'self_attn.o_proj', 'loss': '4.84362', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.669'}, {'layer': 32, 'module': 'mlp.up_proj', 'loss': '39.63444', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '180.155'}, {'layer': 32, 'module': 'mlp.gate_proj', 'loss': '41.30604', 'damp': '0.10000', 'time': '2.348', 'fwd_time': '180.155'}, {'layer': 32, 'module': 'mlp.down_proj', 'loss': '10.75069', 'damp': '0.10000', 'time': '10.995', 'fwd_time': '194.617'}, {'layer': 33, 'module': 'self_attn.k_proj', 'loss': '2.25656', 'damp': '0.10000', 'time': '1.310', 'fwd_time': '180.567'}, {'layer': 33, 'module': 'self_attn.v_proj', 'loss': '1.63852', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.567'}, {'layer': 33, 'module': 'self_attn.q_proj', 'loss': '8.25086', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.567'}, {'layer': 33, 'module': 'self_attn.o_proj', 'loss': '4.94513', 'damp': '0.10000', 'time': '1.472', 'fwd_time': '179.621'}, {'layer': 33, 'module': 'mlp.up_proj', 'loss': '37.36087', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.088'}, {'layer': 33, 'module': 'mlp.gate_proj', 'loss': '38.17615', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.088'}, {'layer': 33, 'module': 'mlp.down_proj', 'loss': '10.10525', 'damp': '0.10000', 'time': '11.033', 'fwd_time': '194.652'}, {'layer': 34, 'module': 'self_attn.k_proj', 'loss': '2.18897', 'damp': '0.10000', 'time': '1.315', 'fwd_time': '180.776'}, {'layer': 34, 'module': 'self_attn.v_proj', 'loss': '1.79533', 'damp': '0.10000', 'time': '1.352', 'fwd_time': '180.776'}, {'layer': 34, 'module': 'self_attn.q_proj', 'loss': '8.13230', 'damp': '0.10000', 'time': '1.478', 'fwd_time': '180.776'}, {'layer': 34, 'module': 'self_attn.o_proj', 'loss': '6.20360', 'damp': '0.10000', 'time': '1.480', 'fwd_time': '179.655'}, {'layer': 34, 'module': 'mlp.up_proj', 'loss': '36.49163', 'damp': '0.10000', 'time': '2.371', 'fwd_time': '180.149'}, {'layer': 34, 'module': 'mlp.gate_proj', 'loss': '36.59039', 'damp': '0.10000', 'time': '2.332', 'fwd_time': '180.149'}, {'layer': 34, 'module': 'mlp.down_proj', 'loss': '10.11572', 'damp': '0.10000', 'time': '11.043', 'fwd_time': '194.593'}, {'layer': 35, 'module': 'self_attn.k_proj', 'loss': '2.29760', 'damp': '0.10000', 'time': '1.313', 'fwd_time': '180.746'}, {'layer': 35, 'module': 'self_attn.v_proj', 'loss': '1.81589', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '180.746'}, {'layer': 35, 'module': 'self_attn.q_proj', 'loss': '9.18513', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.746'}, {'layer': 35, 'module': 'self_attn.o_proj', 'loss': '4.96898', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.650'}, {'layer': 35, 'module': 'mlp.up_proj', 'loss': '37.04196', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '180.059'}, {'layer': 35, 'module': 'mlp.gate_proj', 'loss': '36.97671', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '180.059'}, {'layer': 35, 'module': 'mlp.down_proj', 'loss': '10.21576', 'damp': '0.10000', 'time': '10.956', 'fwd_time': '194.511'}, {'layer': 36, 'module': 'self_attn.k_proj', 'loss': '2.35134', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.704'}, {'layer': 36, 'module': 'self_attn.v_proj', 'loss': '1.76898', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.704'}, {'layer': 36, 'module': 'self_attn.q_proj', 'loss': '8.95750', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.704'}, {'layer': 36, 'module': 'self_attn.o_proj', 'loss': '6.40625', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.611'}, {'layer': 36, 'module': 'mlp.up_proj', 'loss': '35.14434', 'damp': '0.10000', 'time': '2.283', 'fwd_time': '180.017'}, {'layer': 36, 'module': 'mlp.gate_proj', 'loss': '33.75306', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.017'}, {'layer': 36, 'module': 'mlp.down_proj', 'loss': '10.16060', 'damp': '0.10000', 'time': '10.978', 'fwd_time': '194.454'}, {'layer': 37, 'module': 'self_attn.k_proj', 'loss': '2.09853', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.895'}, {'layer': 37, 'module': 'self_attn.v_proj', 'loss': '1.62890', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.895'}, {'layer': 37, 'module': 'self_attn.q_proj', 'loss': '7.87804', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.895'}, {'layer': 37, 'module': 'self_attn.o_proj', 'loss': '5.14967', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.642'}, {'layer': 37, 'module': 'mlp.up_proj', 'loss': '34.78158', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.039'}, {'layer': 37, 'module': 'mlp.gate_proj', 'loss': '33.21568', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.039'}, {'layer': 37, 'module': 'mlp.down_proj', 'loss': '9.65291', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.502'}, {'layer': 38, 'module': 'self_attn.k_proj', 'loss': '2.25152', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.605'}, {'layer': 38, 'module': 'self_attn.v_proj', 'loss': '2.25329', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.605'}, {'layer': 38, 'module': 'self_attn.q_proj', 'loss': '8.57306', 'damp': '0.10000', 'time': '1.440', 'fwd_time': '180.605'}, {'layer': 38, 'module': 'self_attn.o_proj', 'loss': '5.87199', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.558'}, {'layer': 38, 'module': 'mlp.up_proj', 'loss': '35.01609', 'damp': '0.10000', 'time': '2.377', 'fwd_time': '180.077'}, {'layer': 38, 'module': 'mlp.gate_proj', 'loss': '33.53525', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.077'}, {'layer': 38, 'module': 'mlp.down_proj', 'loss': '10.37327', 'damp': '0.10000', 'time': '10.891', 'fwd_time': '194.470'}, {'layer': 39, 'module': 'self_attn.k_proj', 'loss': '2.06724', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'}, {'layer': 39, 'module': 'self_attn.v_proj', 'loss': '2.29155', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'}, {'layer': 39, 'module': 'self_attn.q_proj', 'loss': '8.40444', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '180.626'}, {'layer': 39, 'module': 'self_attn.o_proj', 'loss': '6.23639', 'damp': '0.10000', 'time': '1.498', 'fwd_time': '179.668'}, {'layer': 39, 'module': 'mlp.up_proj', 'loss': '35.45480', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.061'}, {'layer': 39, 'module': 'mlp.gate_proj', 'loss': '35.16239', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.061'}, {'layer': 39, 'module': 'mlp.down_proj', 'loss': '10.17532', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.559'}, {'layer': 40, 'module': 'self_attn.k_proj', 'loss': '2.55298', 'damp': '0.10000', 'time': '1.353', 'fwd_time': '180.736'}, {'layer': 40, 'module': 'self_attn.v_proj', 'loss': '2.03756', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.736'}, {'layer': 40, 'module': 'self_attn.q_proj', 'loss': '9.32236', 'damp': '0.10000', 'time': '1.463', 'fwd_time': '180.736'}, {'layer': 40, 'module': 'self_attn.o_proj', 'loss': '7.15637', 'damp': '0.10000', 'time': '1.471', 'fwd_time': '179.673'}, {'layer': 40, 'module': 'mlp.up_proj', 'loss': '34.27767', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '179.916'}, {'layer': 40, 'module': 'mlp.gate_proj', 'loss': '33.71945', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '179.916'}, {'layer': 40, 'module': 'mlp.down_proj', 'loss': '9.93580', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.355'}, {'layer': 41, 'module': 'self_attn.k_proj', 'loss': '2.58491', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '182.811'}, {'layer': 41, 'module': 'self_attn.v_proj', 'loss': '2.53599', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '182.811'}, {'layer': 41, 'module': 'self_attn.q_proj', 'loss': '10.17238', 'damp': '0.10000', 'time': '1.443', 'fwd_time': '182.811'}, {'layer': 41, 'module': 'self_attn.o_proj', 'loss': '7.04449', 'damp': '0.10000', 'time': '1.450', 'fwd_time': '179.564'}, {'layer': 41, 'module': 'mlp.up_proj', 'loss': '35.32753', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.086'}, {'layer': 41, 'module': 'mlp.gate_proj', 'loss': '33.75855', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.086'}, {'layer': 41, 'module': 'mlp.down_proj', 'loss': '11.40161', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.378'}, {'layer': 42, 'module': 'self_attn.k_proj', 'loss': '2.35824', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.626'}, {'layer': 42, 'module': 'self_attn.v_proj', 'loss': '1.72195', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.626'}, {'layer': 42, 'module': 'self_attn.q_proj', 'loss': '9.03940', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.626'}, {'layer': 42, 'module': 'self_attn.o_proj', 'loss': '6.03776', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.586'}, {'layer': 42, 'module': 'mlp.up_proj', 'loss': '37.64269', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.052'}, {'layer': 42, 'module': 'mlp.gate_proj', 'loss': '35.07131', 'damp': '0.10000', 'time': '2.304', 'fwd_time': '180.052'}, {'layer': 42, 'module': 'mlp.down_proj', 'loss': '13.06790', 'damp': '0.10000', 'time': '10.952', 'fwd_time': '194.323'}, {'layer': 43, 'module': 'self_attn.k_proj', 'loss': '2.28732', 'damp': '0.10000', 'time': '1.300', 'fwd_time': '180.716'}, {'layer': 43, 'module': 'self_attn.v_proj', 'loss': '1.95555', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.716'}, {'layer': 43, 'module': 'self_attn.q_proj', 'loss': '8.47664', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.716'}, {'layer': 43, 'module': 'self_attn.o_proj', 'loss': '8.52545', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.701'}, {'layer': 43, 'module': 'mlp.up_proj', 'loss': '39.51856', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.046'}, {'layer': 43, 'module': 'mlp.gate_proj', 'loss': '36.65776', 'damp': '0.10000', 'time': '2.308', 'fwd_time': '180.046'}, {'layer': 43, 'module': 'mlp.down_proj', 'loss': '16.02491', 'damp': '0.10000', 'time': '11.016', 'fwd_time': '194.344'}, {'layer': 44, 'module': 'self_attn.k_proj', 'loss': '1.93263', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.616'}, {'layer': 44, 'module': 'self_attn.v_proj', 'loss': '2.67497', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.616'}, {'layer': 44, 'module': 'self_attn.q_proj', 'loss': '8.30756', 'damp': '0.10000', 'time': '1.441', 'fwd_time': '180.616'}, {'layer': 44, 'module': 'self_attn.o_proj', 'loss': '9.71007', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '179.635'}, {'layer': 44, 'module': 'mlp.up_proj', 'loss': '39.93449', 'damp': '0.10000', 'time': '2.340', 'fwd_time': '180.023'}, {'layer': 44, 'module': 'mlp.gate_proj', 'loss': '36.77854', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.023'}, {'layer': 44, 'module': 'mlp.down_proj', 'loss': '16.62127', 'damp': '0.10000', 'time': '11.042', 'fwd_time': '194.590'}, {'layer': 45, 'module': 'self_attn.k_proj', 'loss': '2.33465', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.694'}, {'layer': 45, 'module': 'self_attn.v_proj', 'loss': '2.81778', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.694'}, {'layer': 45, 'module': 'self_attn.q_proj', 'loss': '9.41949', 'damp': '0.10000', 'time': '1.457', 'fwd_time': '180.694'}, {'layer': 45, 'module': 'self_attn.o_proj', 'loss': '12.23259', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.583'}, {'layer': 45, 'module': 'mlp.up_proj', 'loss': '41.66721', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.015'}, {'layer': 45, 'module': 'mlp.gate_proj', 'loss': '38.44549', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.015'}, {'layer': 45, 'module': 'mlp.down_proj', 'loss': '18.68768', 'damp': '0.10000', 'time': '10.922', 'fwd_time': '194.533'}, {'layer': 46, 'module': 'self_attn.k_proj', 'loss': '2.13504', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'}, {'layer': 46, 'module': 'self_attn.v_proj', 'loss': '3.00420', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'}, {'layer': 46, 'module': 'self_attn.q_proj', 'loss': '8.96905', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.723'}, {'layer': 46, 'module': 'self_attn.o_proj', 'loss': '14.64149', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.635'}, {'layer': 46, 'module': 'mlp.up_proj', 'loss': '44.77886', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.021'}, {'layer': 46, 'module': 'mlp.gate_proj', 'loss': '41.66031', 'damp': '0.10000', 'time': '2.286', 'fwd_time': '180.021'}, {'layer': 46, 'module': 'mlp.down_proj', 'loss': '22.01645', 'damp': '0.10000', 'time': '10.905', 'fwd_time': '194.516'}, {'layer': 47, 'module': 'self_attn.k_proj', 'loss': '2.24537', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.710'}, {'layer': 47, 'module': 'self_attn.v_proj', 'loss': '2.84377', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.710'}, {'layer': 47, 'module': 'self_attn.q_proj', 'loss': '9.31574', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.710'}, {'layer': 47, 'module': 'self_attn.o_proj', 'loss': '10.03240', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.660'}, {'layer': 47, 'module': 'mlp.up_proj', 'loss': '50.59407', 'damp': '0.10000', 'time': '2.298', 'fwd_time': '180.042'}, {'layer': 47, 'module': 'mlp.gate_proj', 'loss': '47.86652', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.042'}, {'layer': 47, 'module': 'mlp.down_proj', 'loss': '26.41652', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.429'}, {'layer': 48, 'module': 'self_attn.k_proj', 'loss': '2.44420', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.642'}, {'layer': 48, 'module': 'self_attn.v_proj', 'loss': '3.79191', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.642'}, {'layer': 48, 'module': 'self_attn.q_proj', 'loss': '10.23924', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.642'}, {'layer': 48, 'module': 'self_attn.o_proj', 'loss': '12.53692', 'damp': '0.10000', 'time': '1.577', 'fwd_time': '179.616'}, {'layer': 48, 'module': 'mlp.up_proj', 'loss': '55.46630', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'}, {'layer': 48, 'module': 'mlp.gate_proj', 'loss': '53.09388', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'}, {'layer': 48, 'module': 'mlp.down_proj', 'loss': '30.89529', 'damp': '0.10000', 'time': '10.949', 'fwd_time': '194.562'}, {'layer': 49, 'module': 'self_attn.k_proj', 'loss': '2.52239', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.647'}, {'layer': 49, 'module': 'self_attn.v_proj', 'loss': '3.65270', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.647'}, {'layer': 49, 'module': 'self_attn.q_proj', 'loss': '10.91024', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.647'}, {'layer': 49, 'module': 'self_attn.o_proj', 'loss': '14.26922', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.595'}, {'layer': 49, 'module': 'mlp.up_proj', 'loss': '66.36527', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '179.994'}, {'layer': 49, 'module': 'mlp.gate_proj', 'loss': '64.04491', 'damp': '0.10000', 'time': '2.290', 'fwd_time': '179.994'}, {'layer': 49, 'module': 'mlp.down_proj', 'loss': '43.17512', 'damp': '0.10000', 'time': '10.985', 'fwd_time': '194.529'}, {'layer': 50, 'module': 'self_attn.k_proj', 'loss': '2.66782', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.563'}, {'layer': 50, 'module': 'self_attn.v_proj', 'loss': '4.38692', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.563'}, {'layer': 50, 'module': 'self_attn.q_proj', 'loss': '11.92033', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.563'}, {'layer': 50, 'module': 'self_attn.o_proj', 'loss': '11.55887', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.510'}, {'layer': 50, 'module': 'mlp.up_proj', 'loss': '76.91088', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '179.967'}, {'layer': 50, 'module': 'mlp.gate_proj', 'loss': '76.20550', 'damp': '0.10000', 'time': '2.302', 'fwd_time': '179.967'}, {'layer': 50, 'module': 'mlp.down_proj', 'loss': '49.31875', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.503'}, {'layer': 51, 'module': 'self_attn.k_proj', 'loss': '2.71374', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '181.482'}, {'layer': 51, 'module': 'self_attn.v_proj', 'loss': '3.84296', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '181.482'}, {'layer': 51, 'module': 'self_attn.q_proj', 'loss': '11.35158', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '181.482'}, {'layer': 51, 'module': 'self_attn.o_proj', 'loss': '21.91198', 'damp': '0.10000', 'time': '1.449', 'fwd_time': '179.641'}, {'layer': 51, 'module': 'mlp.up_proj', 'loss': '85.67807', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '180.082'}, {'layer': 51, 'module': 'mlp.gate_proj', 'loss': '86.28110', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.082'}, {'layer': 51, 'module': 'mlp.down_proj', 'loss': '57.13311', 'damp': '0.10000', 'time': '10.955', 'fwd_time': '194.350'}, {'layer': 52, 'module': 'self_attn.k_proj', 'loss': '2.95962', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.684'}, {'layer': 52, 'module': 'self_attn.v_proj', 'loss': '6.29919', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.684'}, {'layer': 52, 'module': 'self_attn.q_proj', 'loss': '13.32253', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.684'}, {'layer': 52, 'module': 'self_attn.o_proj', 'loss': '17.50098', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.625'}, {'layer': 52, 'module': 'mlp.up_proj', 'loss': '93.98927', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.075'}, {'layer': 52, 'module': 'mlp.gate_proj', 'loss': '94.03600', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.075'}, {'layer': 52, 'module': 'mlp.down_proj', 'loss': '66.89360', 'damp': '0.10000', 'time': '10.940', 'fwd_time': '194.547'}, {'layer': 53, 'module': 'self_attn.k_proj', 'loss': '3.41568', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.720'}, {'layer': 53, 'module': 'self_attn.v_proj', 'loss': '6.68261', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.720'}, {'layer': 53, 'module': 'self_attn.q_proj', 'loss': '14.38581', 'damp': '0.10000', 'time': '1.444', 'fwd_time': '180.720'}, {'layer': 53, 'module': 'self_attn.o_proj', 'loss': '20.21694', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.585'}, {'layer': 53, 'module': 'mlp.up_proj', 'loss': '104.72342', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.071'}, {'layer': 53, 'module': 'mlp.gate_proj', 'loss': '105.06948', 'damp': '0.10000', 'time': '2.329', 'fwd_time': '180.071'}, {'layer': 53, 'module': 'mlp.down_proj', 'loss': '75.09118', 'damp': '0.10000', 'time': '10.924', 'fwd_time': '194.528'}, {'layer': 54, 'module': 'self_attn.k_proj', 'loss': '3.36520', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.724'}, {'layer': 54, 'module': 'self_attn.v_proj', 'loss': '6.15906', 'damp': '0.10000', 'time': '1.284', 'fwd_time': '180.724'}, {'layer': 54, 'module': 'self_attn.q_proj', 'loss': '14.19391', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.724'}, {'layer': 54, 'module': 'self_attn.o_proj', 'loss': '17.05255', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '179.625'}, {'layer': 54, 'module': 'mlp.up_proj', 'loss': '116.01665', 'damp': '0.10000', 'time': '2.269', 'fwd_time': '179.932'}, {'layer': 54, 'module': 'mlp.gate_proj', 'loss': '115.23258', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '179.932'}, {'layer': 54, 'module': 'mlp.down_proj', 'loss': '81.21964', 'damp': '0.10000', 'time': '10.906', 'fwd_time': '194.418'}, {'layer': 55, 'module': 'self_attn.k_proj', 'loss': '3.17986', 'damp': '0.10000', 'time': '1.309', 'fwd_time': '180.614'}, {'layer': 55, 'module': 'self_attn.v_proj', 'loss': '6.37354', 'damp': '0.10000', 'time': '1.322', 'fwd_time': '180.614'}, {'layer': 55, 'module': 'self_attn.q_proj', 'loss': '14.36818', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.614'}, {'layer': 55, 'module': 'self_attn.o_proj', 'loss': '23.59741', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.590'}, {'layer': 55, 'module': 'mlp.up_proj', 'loss': '127.39666', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.035'}, {'layer': 55, 'module': 'mlp.gate_proj', 'loss': '124.96896', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.035'}, {'layer': 55, 'module': 'mlp.down_proj', 'loss': '95.18001', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.525'}, {'layer': 56, 'module': 'self_attn.k_proj', 'loss': '3.51710', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.578'}, {'layer': 56, 'module': 'self_attn.v_proj', 'loss': '8.92079', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.578'}, {'layer': 56, 'module': 'self_attn.q_proj', 'loss': '15.57063', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.578'}, {'layer': 56, 'module': 'self_attn.o_proj', 'loss': '18.93305', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '179.618'}, {'layer': 56, 'module': 'mlp.up_proj', 'loss': '137.50682', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '180.052'}, {'layer': 56, 'module': 'mlp.gate_proj', 'loss': '133.82163', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.052'}, {'layer': 56, 'module': 'mlp.down_proj', 'loss': '104.22985', 'damp': '0.10000', 'time': '10.929', 'fwd_time': '194.535'}, {'layer': 57, 'module': 'self_attn.k_proj', 'loss': '3.39507', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.633'}, {'layer': 57, 'module': 'self_attn.v_proj', 'loss': '9.25974', 'damp': '0.10000', 'time': '1.283', 'fwd_time': '180.633'}, {'layer': 57, 'module': 'self_attn.q_proj', 'loss': '16.10579', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.633'}, {'layer': 57, 'module': 'self_attn.o_proj', 'loss': '14.65038', 'damp': '0.10000', 'time': '1.442', 'fwd_time': '179.609'}, {'layer': 57, 'module': 'mlp.up_proj', 'loss': '146.27147', 'damp': '0.10000', 'time': '2.271', 'fwd_time': '180.001'}, {'layer': 57, 'module': 'mlp.gate_proj', 'loss': '140.22373', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.001'}, {'layer': 57, 'module': 'mlp.down_proj', 'loss': '114.18199', 'damp': '0.10000', 'time': '11.026', 'fwd_time': '194.483'}, {'layer': 58, 'module': 'self_attn.k_proj', 'loss': '3.59921', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.761'}, {'layer': 58, 'module': 'self_attn.v_proj', 'loss': '10.66743', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.761'}, {'layer': 58, 'module': 'self_attn.q_proj', 'loss': '15.81635', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.761'}, {'layer': 58, 'module': 'self_attn.o_proj', 'loss': '15.86379', 'damp': '0.10000', 'time': '1.510', 'fwd_time': '179.620'}, {'layer': 58, 'module': 'mlp.up_proj', 'loss': '158.08565', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.014'}, {'layer': 58, 'module': 'mlp.gate_proj', 'loss': '149.25287', 'damp': '0.10000', 'time': '2.345', 'fwd_time': '180.014'}, {'layer': 58, 'module': 'mlp.down_proj', 'loss': '137.70841', 'damp': '0.10000', 'time': '10.935', 'fwd_time': '194.487'}, {'layer': 59, 'module': 'self_attn.k_proj', 'loss': '3.67538', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.754'}, {'layer': 59, 'module': 'self_attn.v_proj', 'loss': '14.46169', 'damp': '0.10000', 'time': '1.289', 'fwd_time': '180.754'}, {'layer': 59, 'module': 'self_attn.q_proj', 'loss': '18.15292', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.754'}, {'layer': 59, 'module': 'self_attn.o_proj', 'loss': '37.87932', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.615'}, {'layer': 59, 'module': 'mlp.up_proj', 'loss': '175.38797', 'damp': '0.10000', 'time': '2.328', 'fwd_time': '180.052'}, {'layer': 59, 'module': 'mlp.gate_proj', 'loss': '162.44526', 'damp': '0.10000', 'time': '2.331', 'fwd_time': '180.052'}, {'layer': 59, 'module': 'mlp.down_proj', 'loss': '179.52118', 'damp': '0.10000', 'time': '10.903', 'fwd_time': '194.595'}, {'layer': 60, 'module': 'self_attn.k_proj', 'loss': '3.14580', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.662'}, {'layer': 60, 'module': 'self_attn.v_proj', 'loss': '15.64041', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.662'}, {'layer': 60, 'module': 'self_attn.q_proj', 'loss': '17.17400', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.662'}, {'layer': 60, 'module': 'self_attn.o_proj', 'loss': '47.29679', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.653'}, {'layer': 60, 'module': 'mlp.up_proj', 'loss': '191.12323', 'damp': '0.10000', 'time': '2.287', 'fwd_time': '180.117'}, {'layer': 60, 'module': 'mlp.gate_proj', 'loss': '173.92417', 'damp': '0.10000', 'time': '2.289', 'fwd_time': '180.117'}, {'layer': 60, 'module': 'mlp.down_proj', 'loss': '381.57719', 'damp': '0.10000', 'time': '10.930', 'fwd_time': '194.374'}, {'layer': 61, 'module': 'self_attn.k_proj', 'loss': '3.22560', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.663'}, {'layer': 61, 'module': 'self_attn.v_proj', 'loss': '19.75692', 'damp': '0.10000', 'time': '1.285', 'fwd_time': '180.663'}, {'layer': 61, 'module': 'self_attn.q_proj', 'loss': '17.35482', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.663'}, {'layer': 61, 'module': 'self_attn.o_proj', 'loss': '57.58032', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '179.432'}, {'layer': 61, 'module': 'mlp.up_proj', 'loss': '205.42150', 'damp': '0.10000', 'time': '2.284', 'fwd_time': '179.905'}, {'layer': 61, 'module': 'mlp.gate_proj', 'loss': '187.30222', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '179.905'}, {'layer': 61, 'module': 'mlp.down_proj', 'loss': '321.43789', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.398'}, {'layer': 62, 'module': 'self_attn.k_proj', 'loss': '3.10699', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.628'}, {'layer': 62, 'module': 'self_attn.v_proj', 'loss': '22.59203', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.628'}, {'layer': 62, 'module': 'self_attn.q_proj', 'loss': '17.16475', 'damp': '0.10000', 'time': '1.436', 'fwd_time': '180.628'}, {'layer': 62, 'module': 'self_attn.o_proj', 'loss': '82.21398', 'damp': '0.10000', 'time': '1.428', 'fwd_time': '179.517'}, {'layer': 62, 'module': 'mlp.up_proj', 'loss': '205.27777', 'damp': '0.10000', 'time': '2.263', 'fwd_time': '179.917'}, {'layer': 62, 'module': 'mlp.gate_proj', 'loss': '191.64138', 'damp': '0.10000', 'time': '2.267', 'fwd_time': '179.917'}, {'layer': 62, 'module': 'mlp.down_proj', 'loss': '544.66563', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.511'}, {'layer': 63, 'module': 'self_attn.k_proj', 'loss': '2.77712', 'damp': '0.10000', 'time': '1.279', 'fwd_time': '180.354'}, {'layer': 63, 'module': 'self_attn.v_proj', 'loss': '14.33761', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.354'}, {'layer': 63, 'module': 'self_attn.q_proj', 'loss': '12.67621', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.354'}, {'layer': 63, 'module': 'self_attn.o_proj', 'loss': '35.30698', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '179.569'}, {'layer': 63, 'module': 'mlp.up_proj', 'loss': '221.10228', 'damp': '0.10000', 'time': '2.296', 'fwd_time': '179.977'}, {'layer': 63, 'module': 'mlp.gate_proj', 'loss': '213.36907', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '179.977'}, {'layer': 63, 'module': 'mlp.down_proj', 'loss': '877.11320', 'damp': '0.10000', 'time': '10.990', 'fwd_time': '194.567'}] INFO - {'layer': 0, 'module': 'self_attn.k_proj', 'loss': '0.21932', 'damp': '0.10000', 'time': '1.539', 'fwd_time': '181.555'} INFO - {'layer': 0, 'module': 'self_attn.v_proj', 'loss': '0.06990', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.555'} INFO - {'layer': 0, 'module': 'self_attn.q_proj', 'loss': '0.63353', 'damp': '0.10000', 'time': '1.497', 'fwd_time': '181.555'} INFO - {'layer': 0, 'module': 'self_attn.o_proj', 'loss': '1.53644', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '180.229'} INFO - {'layer': 0, 'module': 'mlp.up_proj', 'loss': '0.48136', 'damp': '0.10000', 'time': '2.423', 'fwd_time': '180.524'} INFO - {'layer': 0, 'module': 'mlp.gate_proj', 'loss': '0.52939', 'damp': '0.10000', 'time': '2.411', 'fwd_time': '180.524'} INFO - {'layer': 0, 'module': 'mlp.down_proj', 'loss': '0.60040', 'damp': '0.10000', 'time': '11.206', 'fwd_time': '194.950'} INFO - {'layer': 1, 'module': 'self_attn.k_proj', 'loss': '0.00747', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.374'} INFO - {'layer': 1, 'module': 'self_attn.v_proj', 'loss': '0.00383', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '181.374'} INFO - {'layer': 1, 'module': 'self_attn.q_proj', 'loss': '0.02565', 'damp': '0.10000', 'time': '1.502', 'fwd_time': '181.374'} INFO - {'layer': 1, 'module': 'self_attn.o_proj', 'loss': '0.01501', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '180.135'} INFO - {'layer': 1, 'module': 'mlp.up_proj', 'loss': '2.40089', 'damp': '0.10000', 'time': '2.445', 'fwd_time': '180.711'} INFO - {'layer': 1, 'module': 'mlp.gate_proj', 'loss': '6.17636', 'damp': '0.10000', 'time': '2.421', 'fwd_time': '180.711'} INFO - {'layer': 1, 'module': 'mlp.down_proj', 'loss': '0.07097', 'damp': '0.10000', 'time': '11.123', 'fwd_time': '194.713'} INFO - {'layer': 2, 'module': 'self_attn.k_proj', 'loss': '0.03215', 'damp': '0.10000', 'time': '1.347', 'fwd_time': '181.320'} INFO - {'layer': 2, 'module': 'self_attn.v_proj', 'loss': '0.01367', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.320'} INFO - {'layer': 2, 'module': 'self_attn.q_proj', 'loss': '0.09015', 'damp': '0.10000', 'time': '1.512', 'fwd_time': '181.320'} INFO - {'layer': 2, 'module': 'self_attn.o_proj', 'loss': '0.09266', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.239'} INFO - {'layer': 2, 'module': 'mlp.up_proj', 'loss': '5.20606', 'damp': '0.10000', 'time': '2.403', 'fwd_time': '180.694'} INFO - {'layer': 2, 'module': 'mlp.gate_proj', 'loss': '10.58370', 'damp': '0.10000', 'time': '2.400', 'fwd_time': '180.694'} INFO - {'layer': 2, 'module': 'mlp.down_proj', 'loss': '0.36352', 'damp': '0.10000', 'time': '11.242', 'fwd_time': '195.008'} INFO - {'layer': 3, 'module': 'self_attn.k_proj', 'loss': '0.20204', 'damp': '0.10000', 'time': '1.358', 'fwd_time': '181.430'} INFO - {'layer': 3, 'module': 'self_attn.v_proj', 'loss': '0.07010', 'damp': '0.10000', 'time': '1.345', 'fwd_time': '181.430'} INFO - {'layer': 3, 'module': 'self_attn.q_proj', 'loss': '0.58422', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '181.430'} INFO - {'layer': 3, 'module': 'self_attn.o_proj', 'loss': '0.32670', 'damp': '0.10000', 'time': '1.508', 'fwd_time': '180.149'} INFO - {'layer': 3, 'module': 'mlp.up_proj', 'loss': '6.34731', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'} INFO - {'layer': 3, 'module': 'mlp.gate_proj', 'loss': '13.98404', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'} INFO - {'layer': 3, 'module': 'mlp.down_proj', 'loss': '0.86336', 'damp': '0.10000', 'time': '11.249', 'fwd_time': '195.066'} INFO - {'layer': 4, 'module': 'self_attn.k_proj', 'loss': '0.19773', 'damp': '0.10000', 'time': '1.336', 'fwd_time': '181.222'} INFO - {'layer': 4, 'module': 'self_attn.v_proj', 'loss': '0.10230', 'damp': '0.10000', 'time': '1.326', 'fwd_time': '181.222'} INFO - {'layer': 4, 'module': 'self_attn.q_proj', 'loss': '0.60618', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.222'} INFO - {'layer': 4, 'module': 'self_attn.o_proj', 'loss': '0.63086', 'damp': '0.10000', 'time': '1.490', 'fwd_time': '180.260'} INFO - {'layer': 4, 'module': 'mlp.up_proj', 'loss': '16.42926', 'damp': '0.10000', 'time': '2.387', 'fwd_time': '180.716'} INFO - {'layer': 4, 'module': 'mlp.gate_proj', 'loss': '32.29819', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.716'} INFO - {'layer': 4, 'module': 'mlp.down_proj', 'loss': '587.46689', 'damp': '0.10000', 'time': '11.247', 'fwd_time': '195.045'} INFO - {'layer': 5, 'module': 'self_attn.k_proj', 'loss': '0.72354', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '181.371'} INFO - {'layer': 5, 'module': 'self_attn.v_proj', 'loss': '0.42462', 'damp': '0.10000', 'time': '1.334', 'fwd_time': '181.371'} INFO - {'layer': 5, 'module': 'self_attn.q_proj', 'loss': '2.40297', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.371'} INFO - {'layer': 5, 'module': 'self_attn.o_proj', 'loss': '0.73659', 'damp': '0.10000', 'time': '1.501', 'fwd_time': '180.189'} INFO - {'layer': 5, 'module': 'mlp.up_proj', 'loss': '26.50791', 'damp': '0.10000', 'time': '2.416', 'fwd_time': '180.533'} INFO - {'layer': 5, 'module': 'mlp.gate_proj', 'loss': '49.79549', 'damp': '0.10000', 'time': '2.393', 'fwd_time': '180.533'} INFO - {'layer': 5, 'module': 'mlp.down_proj', 'loss': '522.29541', 'damp': '0.10000', 'time': '11.290', 'fwd_time': '194.825'} INFO - {'layer': 6, 'module': 'self_attn.k_proj', 'loss': '0.66616', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.275'} INFO - {'layer': 6, 'module': 'self_attn.v_proj', 'loss': '0.49659', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.275'} INFO - {'layer': 6, 'module': 'self_attn.q_proj', 'loss': '2.35563', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '181.275'} INFO - {'layer': 6, 'module': 'self_attn.o_proj', 'loss': '0.58956', 'damp': '0.10000', 'time': '1.506', 'fwd_time': '180.152'} INFO - {'layer': 6, 'module': 'mlp.up_proj', 'loss': '42.32227', 'damp': '0.10000', 'time': '2.401', 'fwd_time': '180.759'} INFO - {'layer': 6, 'module': 'mlp.gate_proj', 'loss': '75.13210', 'damp': '0.10000', 'time': '2.409', 'fwd_time': '180.759'} INFO - {'layer': 6, 'module': 'mlp.down_proj', 'loss': '31.55573', 'damp': '0.10000', 'time': '11.224', 'fwd_time': '194.953'} INFO - {'layer': 7, 'module': 'self_attn.k_proj', 'loss': '0.85074', 'damp': '0.10000', 'time': '1.335', 'fwd_time': '181.299'} INFO - {'layer': 7, 'module': 'self_attn.v_proj', 'loss': '0.69796', 'damp': '0.10000', 'time': '1.331', 'fwd_time': '181.299'} INFO - {'layer': 7, 'module': 'self_attn.q_proj', 'loss': '3.08233', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '181.299'} INFO - {'layer': 7, 'module': 'self_attn.o_proj', 'loss': '0.63950', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.195'} INFO - {'layer': 7, 'module': 'mlp.up_proj', 'loss': '49.91836', 'damp': '0.10000', 'time': '2.395', 'fwd_time': '180.666'} INFO - {'layer': 7, 'module': 'mlp.gate_proj', 'loss': '89.78850', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.666'} INFO - {'layer': 7, 'module': 'mlp.down_proj', 'loss': '2.12929', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.884'} INFO - {'layer': 8, 'module': 'self_attn.k_proj', 'loss': '1.07405', 'damp': '0.10000', 'time': '1.363', 'fwd_time': '181.173'} INFO - {'layer': 8, 'module': 'self_attn.v_proj', 'loss': '0.64949', 'damp': '0.10000', 'time': '1.328', 'fwd_time': '181.173'} INFO - {'layer': 8, 'module': 'self_attn.q_proj', 'loss': '3.66730', 'damp': '0.10000', 'time': '1.483', 'fwd_time': '181.173'} INFO - {'layer': 8, 'module': 'self_attn.o_proj', 'loss': '0.57933', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '180.237'} INFO - {'layer': 8, 'module': 'mlp.up_proj', 'loss': '30.98035', 'damp': '0.10000', 'time': '2.376', 'fwd_time': '180.517'} INFO - {'layer': 8, 'module': 'mlp.gate_proj', 'loss': '54.68026', 'damp': '0.10000', 'time': '2.375', 'fwd_time': '180.517'} INFO - {'layer': 8, 'module': 'mlp.down_proj', 'loss': '2.39296', 'damp': '0.10000', 'time': '11.024', 'fwd_time': '194.860'} INFO - {'layer': 9, 'module': 'self_attn.k_proj', 'loss': '0.85622', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.847'} INFO - {'layer': 9, 'module': 'self_attn.v_proj', 'loss': '0.70850', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.847'} INFO - {'layer': 9, 'module': 'self_attn.q_proj', 'loss': '3.05020', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.847'} INFO - {'layer': 9, 'module': 'self_attn.o_proj', 'loss': '0.97835', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '179.724'} INFO - {'layer': 9, 'module': 'mlp.up_proj', 'loss': '12.53627', 'damp': '0.10000', 'time': '2.276', 'fwd_time': '180.037'} INFO - {'layer': 9, 'module': 'mlp.gate_proj', 'loss': '13.44056', 'damp': '0.10000', 'time': '2.272', 'fwd_time': '180.037'} INFO - {'layer': 9, 'module': 'mlp.down_proj', 'loss': '2.59464', 'damp': '0.10000', 'time': '10.920', 'fwd_time': '194.478'} INFO - {'layer': 10, 'module': 'self_attn.k_proj', 'loss': '1.16653', 'damp': '0.10000', 'time': '1.312', 'fwd_time': '180.710'} INFO - {'layer': 10, 'module': 'self_attn.v_proj', 'loss': '0.90903', 'damp': '0.10000', 'time': '1.360', 'fwd_time': '180.710'} INFO - {'layer': 10, 'module': 'self_attn.q_proj', 'loss': '4.31524', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.710'} INFO - {'layer': 10, 'module': 'self_attn.o_proj', 'loss': '0.95127', 'damp': '0.10000', 'time': '1.505', 'fwd_time': '179.513'} INFO - {'layer': 10, 'module': 'mlp.up_proj', 'loss': '14.21657', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '180.007'} INFO - {'layer': 10, 'module': 'mlp.gate_proj', 'loss': '15.31685', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.007'} INFO - {'layer': 10, 'module': 'mlp.down_proj', 'loss': '3.00897', 'damp': '0.10000', 'time': '10.969', 'fwd_time': '194.558'} INFO - {'layer': 11, 'module': 'self_attn.k_proj', 'loss': '0.94783', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.753'} INFO - {'layer': 11, 'module': 'self_attn.v_proj', 'loss': '0.68951', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.753'} INFO - {'layer': 11, 'module': 'self_attn.q_proj', 'loss': '3.46378', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.753'} INFO - {'layer': 11, 'module': 'self_attn.o_proj', 'loss': '1.90921', 'damp': '0.10000', 'time': '1.447', 'fwd_time': '179.657'} INFO - {'layer': 11, 'module': 'mlp.up_proj', 'loss': '19.40327', 'damp': '0.10000', 'time': '2.280', 'fwd_time': '180.037'} INFO - {'layer': 11, 'module': 'mlp.gate_proj', 'loss': '23.92704', 'damp': '0.10000', 'time': '2.285', 'fwd_time': '180.037'} INFO - {'layer': 11, 'module': 'mlp.down_proj', 'loss': '2.97715', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.557'} INFO - {'layer': 12, 'module': 'self_attn.k_proj', 'loss': '1.08602', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.704'} INFO - {'layer': 12, 'module': 'self_attn.v_proj', 'loss': '0.74431', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.704'} INFO - {'layer': 12, 'module': 'self_attn.q_proj', 'loss': '4.01792', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.704'} INFO - {'layer': 12, 'module': 'self_attn.o_proj', 'loss': '1.80497', 'damp': '0.10000', 'time': '1.432', 'fwd_time': '179.639'} INFO - {'layer': 12, 'module': 'mlp.up_proj', 'loss': '16.91254', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.145'} INFO - {'layer': 12, 'module': 'mlp.gate_proj', 'loss': '18.04272', 'damp': '0.10000', 'time': '2.274', 'fwd_time': '180.145'} INFO - {'layer': 12, 'module': 'mlp.down_proj', 'loss': '3.48199', 'damp': '0.10000', 'time': '11.011', 'fwd_time': '194.583'} INFO - {'layer': 13, 'module': 'self_attn.k_proj', 'loss': '1.22753', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.711'} INFO - {'layer': 13, 'module': 'self_attn.v_proj', 'loss': '0.89010', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.711'} INFO - {'layer': 13, 'module': 'self_attn.q_proj', 'loss': '4.36018', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.711'} INFO - {'layer': 13, 'module': 'self_attn.o_proj', 'loss': '1.75457', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '179.614'} INFO - {'layer': 13, 'module': 'mlp.up_proj', 'loss': '19.40314', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '179.951'} INFO - {'layer': 13, 'module': 'mlp.gate_proj', 'loss': '20.87128', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '179.951'} INFO - {'layer': 13, 'module': 'mlp.down_proj', 'loss': '3.92058', 'damp': '0.10000', 'time': '11.225', 'fwd_time': '194.541'} INFO - {'layer': 14, 'module': 'self_attn.k_proj', 'loss': '1.47310', 'damp': '0.10000', 'time': '1.327', 'fwd_time': '180.463'} INFO - {'layer': 14, 'module': 'self_attn.v_proj', 'loss': '0.97991', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.463'} INFO - {'layer': 14, 'module': 'self_attn.q_proj', 'loss': '5.31070', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.463'} INFO - {'layer': 14, 'module': 'self_attn.o_proj', 'loss': '1.86601', 'damp': '0.10000', 'time': '1.513', 'fwd_time': '179.592'} INFO - {'layer': 14, 'module': 'mlp.up_proj', 'loss': '20.50224', 'damp': '0.10000', 'time': '2.349', 'fwd_time': '180.003'} INFO - {'layer': 14, 'module': 'mlp.gate_proj', 'loss': '22.18833', 'damp': '0.10000', 'time': '2.281', 'fwd_time': '180.003'} INFO - {'layer': 14, 'module': 'mlp.down_proj', 'loss': '4.27567', 'damp': '0.10000', 'time': '11.369', 'fwd_time': '194.563'} INFO - {'layer': 15, 'module': 'self_attn.k_proj', 'loss': '1.24926', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '180.693'} INFO - {'layer': 15, 'module': 'self_attn.v_proj', 'loss': '0.96484', 'damp': '0.10000', 'time': '1.370', 'fwd_time': '180.693'} INFO - {'layer': 15, 'module': 'self_attn.q_proj', 'loss': '4.50831', 'damp': '0.10000', 'time': '1.576', 'fwd_time': '180.693'} INFO - {'layer': 15, 'module': 'self_attn.o_proj', 'loss': '2.08441', 'damp': '0.10000', 'time': '1.527', 'fwd_time': '179.613'} INFO - {'layer': 15, 'module': 'mlp.up_proj', 'loss': '21.55517', 'damp': '0.10000', 'time': '2.360', 'fwd_time': '180.055'} INFO - {'layer': 15, 'module': 'mlp.gate_proj', 'loss': '24.37054', 'damp': '0.10000', 'time': '2.485', 'fwd_time': '180.055'} INFO - {'layer': 15, 'module': 'mlp.down_proj', 'loss': '4.66921', 'damp': '0.10000', 'time': '11.144', 'fwd_time': '194.668'} INFO - {'layer': 16, 'module': 'self_attn.k_proj', 'loss': '1.20586', 'damp': '0.10000', 'time': '1.367', 'fwd_time': '180.786'} INFO - {'layer': 16, 'module': 'self_attn.v_proj', 'loss': '0.74171', 'damp': '0.10000', 'time': '1.377', 'fwd_time': '180.786'} INFO - {'layer': 16, 'module': 'self_attn.q_proj', 'loss': '4.09036', 'damp': '0.10000', 'time': '1.525', 'fwd_time': '180.786'} INFO - {'layer': 16, 'module': 'self_attn.o_proj', 'loss': '1.66565', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.672'} INFO - {'layer': 16, 'module': 'mlp.up_proj', 'loss': '20.58864', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '179.962'} INFO - {'layer': 16, 'module': 'mlp.gate_proj', 'loss': '22.13742', 'damp': '0.10000', 'time': '2.317', 'fwd_time': '179.962'} INFO - {'layer': 16, 'module': 'mlp.down_proj', 'loss': '4.32864', 'damp': '0.10000', 'time': '11.065', 'fwd_time': '194.604'} INFO - {'layer': 17, 'module': 'self_attn.k_proj', 'loss': '1.55755', 'damp': '0.10000', 'time': '1.392', 'fwd_time': '180.714'} INFO - {'layer': 17, 'module': 'self_attn.v_proj', 'loss': '0.92695', 'damp': '0.10000', 'time': '1.403', 'fwd_time': '180.714'} INFO - {'layer': 17, 'module': 'self_attn.q_proj', 'loss': '5.36392', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.714'} INFO - {'layer': 17, 'module': 'self_attn.o_proj', 'loss': '1.68428', 'damp': '0.10000', 'time': '1.561', 'fwd_time': '179.547'} INFO - {'layer': 17, 'module': 'mlp.up_proj', 'loss': '20.66038', 'damp': '0.10000', 'time': '2.341', 'fwd_time': '180.057'} INFO - {'layer': 17, 'module': 'mlp.gate_proj', 'loss': '21.92830', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.057'} INFO - {'layer': 17, 'module': 'mlp.down_proj', 'loss': '4.24783', 'damp': '0.10000', 'time': '11.208', 'fwd_time': '194.595'} INFO - {'layer': 18, 'module': 'self_attn.k_proj', 'loss': '1.60531', 'damp': '0.10000', 'time': '1.404', 'fwd_time': '181.426'} INFO - {'layer': 18, 'module': 'self_attn.v_proj', 'loss': '0.96575', 'damp': '0.10000', 'time': '1.319', 'fwd_time': '181.426'} INFO - {'layer': 18, 'module': 'self_attn.q_proj', 'loss': '5.49226', 'damp': '0.10000', 'time': '1.459', 'fwd_time': '181.426'} INFO - {'layer': 18, 'module': 'self_attn.o_proj', 'loss': '1.48581', 'damp': '0.10000', 'time': '1.522', 'fwd_time': '179.533'} INFO - {'layer': 18, 'module': 'mlp.up_proj', 'loss': '20.34096', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.133'} INFO - {'layer': 18, 'module': 'mlp.gate_proj', 'loss': '21.43189', 'damp': '0.10000', 'time': '2.457', 'fwd_time': '180.133'} INFO - {'layer': 18, 'module': 'mlp.down_proj', 'loss': '4.20860', 'damp': '0.10000', 'time': '10.987', 'fwd_time': '194.768'} INFO - {'layer': 19, 'module': 'self_attn.k_proj', 'loss': '1.38301', 'damp': '0.10000', 'time': '1.424', 'fwd_time': '180.684'} INFO - {'layer': 19, 'module': 'self_attn.v_proj', 'loss': '0.94416', 'damp': '0.10000', 'time': '1.473', 'fwd_time': '180.684'} INFO - {'layer': 19, 'module': 'self_attn.q_proj', 'loss': '5.01696', 'damp': '0.10000', 'time': '1.593', 'fwd_time': '180.684'} INFO - {'layer': 19, 'module': 'self_attn.o_proj', 'loss': '1.21167', 'damp': '0.10000', 'time': '1.650', 'fwd_time': '179.390'} INFO - {'layer': 19, 'module': 'mlp.up_proj', 'loss': '20.60382', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '179.854'} INFO - {'layer': 19, 'module': 'mlp.gate_proj', 'loss': '21.65518', 'damp': '0.10000', 'time': '2.306', 'fwd_time': '179.854'} INFO - {'layer': 19, 'module': 'mlp.down_proj', 'loss': '4.24532', 'damp': '0.10000', 'time': '11.253', 'fwd_time': '194.715'} INFO - {'layer': 20, 'module': 'self_attn.k_proj', 'loss': '1.67529', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.886'} INFO - {'layer': 20, 'module': 'self_attn.v_proj', 'loss': '0.97326', 'damp': '0.10000', 'time': '1.394', 'fwd_time': '180.886'} INFO - {'layer': 20, 'module': 'self_attn.q_proj', 'loss': '5.80866', 'damp': '0.10000', 'time': '1.638', 'fwd_time': '180.886'} INFO - {'layer': 20, 'module': 'self_attn.o_proj', 'loss': '2.01039', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '179.451'} INFO - {'layer': 20, 'module': 'mlp.up_proj', 'loss': '20.08991', 'damp': '0.10000', 'time': '2.333', 'fwd_time': '179.710'} INFO - {'layer': 20, 'module': 'mlp.gate_proj', 'loss': '20.81839', 'damp': '0.10000', 'time': '2.396', 'fwd_time': '179.710'} INFO - {'layer': 20, 'module': 'mlp.down_proj', 'loss': '4.39435', 'damp': '0.10000', 'time': '11.599', 'fwd_time': '194.532'} INFO - {'layer': 21, 'module': 'self_attn.k_proj', 'loss': '1.37911', 'damp': '0.10000', 'time': '1.429', 'fwd_time': '180.597'} INFO - {'layer': 21, 'module': 'self_attn.v_proj', 'loss': '0.84209', 'damp': '0.10000', 'time': '1.401', 'fwd_time': '180.597'} INFO - {'layer': 21, 'module': 'self_attn.q_proj', 'loss': '4.83675', 'damp': '0.10000', 'time': '1.528', 'fwd_time': '180.597'} INFO - {'layer': 21, 'module': 'self_attn.o_proj', 'loss': '1.99481', 'damp': '0.10000', 'time': '1.546', 'fwd_time': '179.461'} INFO - {'layer': 21, 'module': 'mlp.up_proj', 'loss': '19.99206', 'damp': '0.10000', 'time': '2.361', 'fwd_time': '179.779'} INFO - {'layer': 21, 'module': 'mlp.gate_proj', 'loss': '20.76938', 'damp': '0.10000', 'time': '2.369', 'fwd_time': '179.779'} INFO - {'layer': 21, 'module': 'mlp.down_proj', 'loss': '4.42359', 'damp': '0.10000', 'time': '11.515', 'fwd_time': '194.516'} INFO - {'layer': 22, 'module': 'self_attn.k_proj', 'loss': '1.50769', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.490'} INFO - {'layer': 22, 'module': 'self_attn.v_proj', 'loss': '1.15672', 'damp': '0.10000', 'time': '1.275', 'fwd_time': '180.490'} INFO - {'layer': 22, 'module': 'self_attn.q_proj', 'loss': '5.48060', 'damp': '0.10000', 'time': '1.425', 'fwd_time': '180.490'} INFO - {'layer': 22, 'module': 'self_attn.o_proj', 'loss': '2.49873', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.557'} INFO - {'layer': 22, 'module': 'mlp.up_proj', 'loss': '21.26843', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.081'} INFO - {'layer': 22, 'module': 'mlp.gate_proj', 'loss': '22.03465', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.081'} INFO - {'layer': 22, 'module': 'mlp.down_proj', 'loss': '4.79118', 'damp': '0.10000', 'time': '10.968', 'fwd_time': '194.443'} INFO - {'layer': 23, 'module': 'self_attn.k_proj', 'loss': '1.44571', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.920'} INFO - {'layer': 23, 'module': 'self_attn.v_proj', 'loss': '1.18315', 'damp': '0.10000', 'time': '1.384', 'fwd_time': '180.920'} INFO - {'layer': 23, 'module': 'self_attn.q_proj', 'loss': '5.38706', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '180.920'} INFO - {'layer': 23, 'module': 'self_attn.o_proj', 'loss': '2.65820', 'damp': '0.10000', 'time': '1.488', 'fwd_time': '179.860'} INFO - {'layer': 23, 'module': 'mlp.up_proj', 'loss': '22.39951', 'damp': '0.10000', 'time': '2.343', 'fwd_time': '180.171'} INFO - {'layer': 23, 'module': 'mlp.gate_proj', 'loss': '23.49767', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '180.171'} INFO - {'layer': 23, 'module': 'mlp.down_proj', 'loss': '5.14678', 'damp': '0.10000', 'time': '11.171', 'fwd_time': '194.532'} INFO - {'layer': 24, 'module': 'self_attn.k_proj', 'loss': '1.88726', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.631'} INFO - {'layer': 24, 'module': 'self_attn.v_proj', 'loss': '1.25504', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.631'} INFO - {'layer': 24, 'module': 'self_attn.q_proj', 'loss': '6.79697', 'damp': '0.10000', 'time': '1.547', 'fwd_time': '180.631'} INFO - {'layer': 24, 'module': 'self_attn.o_proj', 'loss': '2.37069', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.619'} INFO - {'layer': 24, 'module': 'mlp.up_proj', 'loss': '23.00431', 'damp': '0.10000', 'time': '2.300', 'fwd_time': '180.072'} INFO - {'layer': 24, 'module': 'mlp.gate_proj', 'loss': '23.90416', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'} INFO - {'layer': 24, 'module': 'mlp.down_proj', 'loss': '5.33596', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.506'} INFO - {'layer': 25, 'module': 'self_attn.k_proj', 'loss': '2.08859', 'damp': '0.10000', 'time': '1.484', 'fwd_time': '180.593'} INFO - {'layer': 25, 'module': 'self_attn.v_proj', 'loss': '1.52274', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.593'} INFO - {'layer': 25, 'module': 'self_attn.q_proj', 'loss': '7.71944', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.593'} INFO - {'layer': 25, 'module': 'self_attn.o_proj', 'loss': '2.59465', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.589'} INFO - {'layer': 25, 'module': 'mlp.up_proj', 'loss': '23.82350', 'damp': '0.10000', 'time': '2.295', 'fwd_time': '180.004'} INFO - {'layer': 25, 'module': 'mlp.gate_proj', 'loss': '24.36376', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.004'} INFO - {'layer': 25, 'module': 'mlp.down_proj', 'loss': '6.14879', 'damp': '0.10000', 'time': '10.939', 'fwd_time': '194.410'} INFO - {'layer': 26, 'module': 'self_attn.k_proj', 'loss': '1.85201', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.676'} INFO - {'layer': 26, 'module': 'self_attn.v_proj', 'loss': '1.08654', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.676'} INFO - {'layer': 26, 'module': 'self_attn.q_proj', 'loss': '6.72261', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.676'} INFO - {'layer': 26, 'module': 'self_attn.o_proj', 'loss': '2.70091', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.585'} INFO - {'layer': 26, 'module': 'mlp.up_proj', 'loss': '24.94679', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.067'} INFO - {'layer': 26, 'module': 'mlp.gate_proj', 'loss': '25.21166', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.067'} INFO - {'layer': 26, 'module': 'mlp.down_proj', 'loss': '6.65333', 'damp': '0.10000', 'time': '10.951', 'fwd_time': '194.490'} INFO - {'layer': 27, 'module': 'self_attn.k_proj', 'loss': '1.80303', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.700'} INFO - {'layer': 27, 'module': 'self_attn.v_proj', 'loss': '1.11704', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.700'} INFO - {'layer': 27, 'module': 'self_attn.q_proj', 'loss': '6.16689', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.700'} INFO - {'layer': 27, 'module': 'self_attn.o_proj', 'loss': '4.27886', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.605'} INFO - {'layer': 27, 'module': 'mlp.up_proj', 'loss': '25.90349', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.071'} INFO - {'layer': 27, 'module': 'mlp.gate_proj', 'loss': '26.13162', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.071'} INFO - {'layer': 27, 'module': 'mlp.down_proj', 'loss': '7.54102', 'damp': '0.10000', 'time': '10.965', 'fwd_time': '194.569'} INFO - {'layer': 28, 'module': 'self_attn.k_proj', 'loss': '1.69771', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.722'} INFO - {'layer': 28, 'module': 'self_attn.v_proj', 'loss': '1.60528', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.722'} INFO - {'layer': 28, 'module': 'self_attn.q_proj', 'loss': '6.53194', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.722'} INFO - {'layer': 28, 'module': 'self_attn.o_proj', 'loss': '4.20230', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '179.598'} INFO - {'layer': 28, 'module': 'mlp.up_proj', 'loss': '28.05067', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '179.985'} INFO - {'layer': 28, 'module': 'mlp.gate_proj', 'loss': '28.02932', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '179.985'} INFO - {'layer': 28, 'module': 'mlp.down_proj', 'loss': '8.23658', 'damp': '0.10000', 'time': '10.941', 'fwd_time': '194.268'} INFO - {'layer': 29, 'module': 'self_attn.k_proj', 'loss': '2.46457', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.571'} INFO - {'layer': 29, 'module': 'self_attn.v_proj', 'loss': '1.97819', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.571'} INFO - {'layer': 29, 'module': 'self_attn.q_proj', 'loss': '8.90249', 'damp': '0.10000', 'time': '1.499', 'fwd_time': '180.571'} INFO - {'layer': 29, 'module': 'self_attn.o_proj', 'loss': '5.20760', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.634'} INFO - {'layer': 29, 'module': 'mlp.up_proj', 'loss': '30.33147', 'damp': '0.10000', 'time': '2.388', 'fwd_time': '180.025'} INFO - {'layer': 29, 'module': 'mlp.gate_proj', 'loss': '30.10080', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.025'} INFO - {'layer': 29, 'module': 'mlp.down_proj', 'loss': '9.00467', 'damp': '0.10000', 'time': '11.021', 'fwd_time': '194.483'} INFO - {'layer': 30, 'module': 'self_attn.k_proj', 'loss': '2.05785', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.603'} INFO - {'layer': 30, 'module': 'self_attn.v_proj', 'loss': '1.95388', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.603'} INFO - {'layer': 30, 'module': 'self_attn.q_proj', 'loss': '7.90785', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.603'} INFO - {'layer': 30, 'module': 'self_attn.o_proj', 'loss': '6.99206', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.691'} INFO - {'layer': 30, 'module': 'mlp.up_proj', 'loss': '32.67397', 'damp': '0.10000', 'time': '2.312', 'fwd_time': '179.985'} INFO - {'layer': 30, 'module': 'mlp.gate_proj', 'loss': '32.30062', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '179.985'} INFO - {'layer': 30, 'module': 'mlp.down_proj', 'loss': '10.09964', 'damp': '0.10000', 'time': '10.901', 'fwd_time': '194.551'} INFO - {'layer': 31, 'module': 'self_attn.k_proj', 'loss': '2.18536', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.667'} INFO - {'layer': 31, 'module': 'self_attn.v_proj', 'loss': '1.97777', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.667'} INFO - {'layer': 31, 'module': 'self_attn.q_proj', 'loss': '8.18490', 'damp': '0.10000', 'time': '1.453', 'fwd_time': '180.667'} INFO - {'layer': 31, 'module': 'self_attn.o_proj', 'loss': '4.57464', 'damp': '0.10000', 'time': '1.462', 'fwd_time': '179.678'} INFO - {'layer': 31, 'module': 'mlp.up_proj', 'loss': '35.59037', 'damp': '0.10000', 'time': '2.315', 'fwd_time': '180.072'} INFO - {'layer': 31, 'module': 'mlp.gate_proj', 'loss': '35.25336', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'} INFO - {'layer': 31, 'module': 'mlp.down_proj', 'loss': '10.93689', 'damp': '0.10000', 'time': '11.025', 'fwd_time': '194.621'} INFO - {'layer': 32, 'module': 'self_attn.k_proj', 'loss': '2.10946', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.689'} INFO - {'layer': 32, 'module': 'self_attn.v_proj', 'loss': '1.52154', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.689'} INFO - {'layer': 32, 'module': 'self_attn.q_proj', 'loss': '7.29806', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.689'} INFO - {'layer': 32, 'module': 'self_attn.o_proj', 'loss': '4.84362', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.669'} INFO - {'layer': 32, 'module': 'mlp.up_proj', 'loss': '39.63444', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '180.155'} INFO - {'layer': 32, 'module': 'mlp.gate_proj', 'loss': '41.30604', 'damp': '0.10000', 'time': '2.348', 'fwd_time': '180.155'} INFO - {'layer': 32, 'module': 'mlp.down_proj', 'loss': '10.75069', 'damp': '0.10000', 'time': '10.995', 'fwd_time': '194.617'} INFO - {'layer': 33, 'module': 'self_attn.k_proj', 'loss': '2.25656', 'damp': '0.10000', 'time': '1.310', 'fwd_time': '180.567'} INFO - {'layer': 33, 'module': 'self_attn.v_proj', 'loss': '1.63852', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.567'} INFO - {'layer': 33, 'module': 'self_attn.q_proj', 'loss': '8.25086', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.567'} INFO - {'layer': 33, 'module': 'self_attn.o_proj', 'loss': '4.94513', 'damp': '0.10000', 'time': '1.472', 'fwd_time': '179.621'} INFO - {'layer': 33, 'module': 'mlp.up_proj', 'loss': '37.36087', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.088'} INFO - {'layer': 33, 'module': 'mlp.gate_proj', 'loss': '38.17615', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.088'} INFO - {'layer': 33, 'module': 'mlp.down_proj', 'loss': '10.10525', 'damp': '0.10000', 'time': '11.033', 'fwd_time': '194.652'} INFO - {'layer': 34, 'module': 'self_attn.k_proj', 'loss': '2.18897', 'damp': '0.10000', 'time': '1.315', 'fwd_time': '180.776'} INFO - {'layer': 34, 'module': 'self_attn.v_proj', 'loss': '1.79533', 'damp': '0.10000', 'time': '1.352', 'fwd_time': '180.776'} INFO - {'layer': 34, 'module': 'self_attn.q_proj', 'loss': '8.13230', 'damp': '0.10000', 'time': '1.478', 'fwd_time': '180.776'} INFO - {'layer': 34, 'module': 'self_attn.o_proj', 'loss': '6.20360', 'damp': '0.10000', 'time': '1.480', 'fwd_time': '179.655'} INFO - {'layer': 34, 'module': 'mlp.up_proj', 'loss': '36.49163', 'damp': '0.10000', 'time': '2.371', 'fwd_time': '180.149'} INFO - {'layer': 34, 'module': 'mlp.gate_proj', 'loss': '36.59039', 'damp': '0.10000', 'time': '2.332', 'fwd_time': '180.149'} INFO - {'layer': 34, 'module': 'mlp.down_proj', 'loss': '10.11572', 'damp': '0.10000', 'time': '11.043', 'fwd_time': '194.593'} INFO - {'layer': 35, 'module': 'self_attn.k_proj', 'loss': '2.29760', 'damp': '0.10000', 'time': '1.313', 'fwd_time': '180.746'} INFO - {'layer': 35, 'module': 'self_attn.v_proj', 'loss': '1.81589', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '180.746'} INFO - {'layer': 35, 'module': 'self_attn.q_proj', 'loss': '9.18513', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.746'} INFO - {'layer': 35, 'module': 'self_attn.o_proj', 'loss': '4.96898', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.650'} INFO - {'layer': 35, 'module': 'mlp.up_proj', 'loss': '37.04196', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '180.059'} INFO - {'layer': 35, 'module': 'mlp.gate_proj', 'loss': '36.97671', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '180.059'} INFO - {'layer': 35, 'module': 'mlp.down_proj', 'loss': '10.21576', 'damp': '0.10000', 'time': '10.956', 'fwd_time': '194.511'} INFO - {'layer': 36, 'module': 'self_attn.k_proj', 'loss': '2.35134', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.704'} INFO - {'layer': 36, 'module': 'self_attn.v_proj', 'loss': '1.76898', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.704'} INFO - {'layer': 36, 'module': 'self_attn.q_proj', 'loss': '8.95750', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.704'} INFO - {'layer': 36, 'module': 'self_attn.o_proj', 'loss': '6.40625', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.611'} INFO - {'layer': 36, 'module': 'mlp.up_proj', 'loss': '35.14434', 'damp': '0.10000', 'time': '2.283', 'fwd_time': '180.017'} INFO - {'layer': 36, 'module': 'mlp.gate_proj', 'loss': '33.75306', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.017'} INFO - {'layer': 36, 'module': 'mlp.down_proj', 'loss': '10.16060', 'damp': '0.10000', 'time': '10.978', 'fwd_time': '194.454'} INFO - {'layer': 37, 'module': 'self_attn.k_proj', 'loss': '2.09853', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.895'} INFO - {'layer': 37, 'module': 'self_attn.v_proj', 'loss': '1.62890', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.895'} INFO - {'layer': 37, 'module': 'self_attn.q_proj', 'loss': '7.87804', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.895'} INFO - {'layer': 37, 'module': 'self_attn.o_proj', 'loss': '5.14967', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.642'} INFO - {'layer': 37, 'module': 'mlp.up_proj', 'loss': '34.78158', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.039'} INFO - {'layer': 37, 'module': 'mlp.gate_proj', 'loss': '33.21568', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.039'} INFO - {'layer': 37, 'module': 'mlp.down_proj', 'loss': '9.65291', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.502'} INFO - {'layer': 38, 'module': 'self_attn.k_proj', 'loss': '2.25152', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.605'} INFO - {'layer': 38, 'module': 'self_attn.v_proj', 'loss': '2.25329', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.605'} INFO - {'layer': 38, 'module': 'self_attn.q_proj', 'loss': '8.57306', 'damp': '0.10000', 'time': '1.440', 'fwd_time': '180.605'} INFO - {'layer': 38, 'module': 'self_attn.o_proj', 'loss': '5.87199', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.558'} INFO - {'layer': 38, 'module': 'mlp.up_proj', 'loss': '35.01609', 'damp': '0.10000', 'time': '2.377', 'fwd_time': '180.077'} INFO - {'layer': 38, 'module': 'mlp.gate_proj', 'loss': '33.53525', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.077'} INFO - {'layer': 38, 'module': 'mlp.down_proj', 'loss': '10.37327', 'damp': '0.10000', 'time': '10.891', 'fwd_time': '194.470'} INFO - {'layer': 39, 'module': 'self_attn.k_proj', 'loss': '2.06724', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'} INFO - {'layer': 39, 'module': 'self_attn.v_proj', 'loss': '2.29155', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'} INFO - {'layer': 39, 'module': 'self_attn.q_proj', 'loss': '8.40444', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '180.626'} INFO - {'layer': 39, 'module': 'self_attn.o_proj', 'loss': '6.23639', 'damp': '0.10000', 'time': '1.498', 'fwd_time': '179.668'} INFO - {'layer': 39, 'module': 'mlp.up_proj', 'loss': '35.45480', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.061'} INFO - {'layer': 39, 'module': 'mlp.gate_proj', 'loss': '35.16239', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.061'} INFO - {'layer': 39, 'module': 'mlp.down_proj', 'loss': '10.17532', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.559'} INFO - {'layer': 40, 'module': 'self_attn.k_proj', 'loss': '2.55298', 'damp': '0.10000', 'time': '1.353', 'fwd_time': '180.736'} INFO - {'layer': 40, 'module': 'self_attn.v_proj', 'loss': '2.03756', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.736'} INFO - {'layer': 40, 'module': 'self_attn.q_proj', 'loss': '9.32236', 'damp': '0.10000', 'time': '1.463', 'fwd_time': '180.736'} INFO - {'layer': 40, 'module': 'self_attn.o_proj', 'loss': '7.15637', 'damp': '0.10000', 'time': '1.471', 'fwd_time': '179.673'} INFO - {'layer': 40, 'module': 'mlp.up_proj', 'loss': '34.27767', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '179.916'} INFO - {'layer': 40, 'module': 'mlp.gate_proj', 'loss': '33.71945', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '179.916'} INFO - {'layer': 40, 'module': 'mlp.down_proj', 'loss': '9.93580', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.355'} INFO - {'layer': 41, 'module': 'self_attn.k_proj', 'loss': '2.58491', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '182.811'} INFO - {'layer': 41, 'module': 'self_attn.v_proj', 'loss': '2.53599', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '182.811'} INFO - {'layer': 41, 'module': 'self_attn.q_proj', 'loss': '10.17238', 'damp': '0.10000', 'time': '1.443', 'fwd_time': '182.811'} INFO - {'layer': 41, 'module': 'self_attn.o_proj', 'loss': '7.04449', 'damp': '0.10000', 'time': '1.450', 'fwd_time': '179.564'} INFO - {'layer': 41, 'module': 'mlp.up_proj', 'loss': '35.32753', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.086'} INFO - {'layer': 41, 'module': 'mlp.gate_proj', 'loss': '33.75855', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.086'} INFO - {'layer': 41, 'module': 'mlp.down_proj', 'loss': '11.40161', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.378'} INFO - {'layer': 42, 'module': 'self_attn.k_proj', 'loss': '2.35824', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.626'} INFO - {'layer': 42, 'module': 'self_attn.v_proj', 'loss': '1.72195', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.626'} INFO - {'layer': 42, 'module': 'self_attn.q_proj', 'loss': '9.03940', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.626'} INFO - {'layer': 42, 'module': 'self_attn.o_proj', 'loss': '6.03776', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.586'} INFO - {'layer': 42, 'module': 'mlp.up_proj', 'loss': '37.64269', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.052'} INFO - {'layer': 42, 'module': 'mlp.gate_proj', 'loss': '35.07131', 'damp': '0.10000', 'time': '2.304', 'fwd_time': '180.052'} INFO - {'layer': 42, 'module': 'mlp.down_proj', 'loss': '13.06790', 'damp': '0.10000', 'time': '10.952', 'fwd_time': '194.323'} INFO - {'layer': 43, 'module': 'self_attn.k_proj', 'loss': '2.28732', 'damp': '0.10000', 'time': '1.300', 'fwd_time': '180.716'} INFO - {'layer': 43, 'module': 'self_attn.v_proj', 'loss': '1.95555', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.716'} INFO - {'layer': 43, 'module': 'self_attn.q_proj', 'loss': '8.47664', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.716'} INFO - {'layer': 43, 'module': 'self_attn.o_proj', 'loss': '8.52545', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.701'} INFO - {'layer': 43, 'module': 'mlp.up_proj', 'loss': '39.51856', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.046'} INFO - {'layer': 43, 'module': 'mlp.gate_proj', 'loss': '36.65776', 'damp': '0.10000', 'time': '2.308', 'fwd_time': '180.046'} INFO - {'layer': 43, 'module': 'mlp.down_proj', 'loss': '16.02491', 'damp': '0.10000', 'time': '11.016', 'fwd_time': '194.344'} INFO - {'layer': 44, 'module': 'self_attn.k_proj', 'loss': '1.93263', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.616'} INFO - {'layer': 44, 'module': 'self_attn.v_proj', 'loss': '2.67497', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.616'} INFO - {'layer': 44, 'module': 'self_attn.q_proj', 'loss': '8.30756', 'damp': '0.10000', 'time': '1.441', 'fwd_time': '180.616'} INFO - {'layer': 44, 'module': 'self_attn.o_proj', 'loss': '9.71007', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '179.635'} INFO - {'layer': 44, 'module': 'mlp.up_proj', 'loss': '39.93449', 'damp': '0.10000', 'time': '2.340', 'fwd_time': '180.023'} INFO - {'layer': 44, 'module': 'mlp.gate_proj', 'loss': '36.77854', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.023'} INFO - {'layer': 44, 'module': 'mlp.down_proj', 'loss': '16.62127', 'damp': '0.10000', 'time': '11.042', 'fwd_time': '194.590'} INFO - {'layer': 45, 'module': 'self_attn.k_proj', 'loss': '2.33465', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.694'} INFO - {'layer': 45, 'module': 'self_attn.v_proj', 'loss': '2.81778', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.694'} INFO - {'layer': 45, 'module': 'self_attn.q_proj', 'loss': '9.41949', 'damp': '0.10000', 'time': '1.457', 'fwd_time': '180.694'} INFO - {'layer': 45, 'module': 'self_attn.o_proj', 'loss': '12.23259', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.583'} INFO - {'layer': 45, 'module': 'mlp.up_proj', 'loss': '41.66721', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.015'} INFO - {'layer': 45, 'module': 'mlp.gate_proj', 'loss': '38.44549', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.015'} INFO - {'layer': 45, 'module': 'mlp.down_proj', 'loss': '18.68768', 'damp': '0.10000', 'time': '10.922', 'fwd_time': '194.533'} INFO - {'layer': 46, 'module': 'self_attn.k_proj', 'loss': '2.13504', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'} INFO - {'layer': 46, 'module': 'self_attn.v_proj', 'loss': '3.00420', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'} INFO - {'layer': 46, 'module': 'self_attn.q_proj', 'loss': '8.96905', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.723'} INFO - {'layer': 46, 'module': 'self_attn.o_proj', 'loss': '14.64149', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.635'} INFO - {'layer': 46, 'module': 'mlp.up_proj', 'loss': '44.77886', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.021'} INFO - {'layer': 46, 'module': 'mlp.gate_proj', 'loss': '41.66031', 'damp': '0.10000', 'time': '2.286', 'fwd_time': '180.021'} INFO - {'layer': 46, 'module': 'mlp.down_proj', 'loss': '22.01645', 'damp': '0.10000', 'time': '10.905', 'fwd_time': '194.516'} INFO - {'layer': 47, 'module': 'self_attn.k_proj', 'loss': '2.24537', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.710'} INFO - {'layer': 47, 'module': 'self_attn.v_proj', 'loss': '2.84377', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.710'} INFO - {'layer': 47, 'module': 'self_attn.q_proj', 'loss': '9.31574', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.710'} INFO - {'layer': 47, 'module': 'self_attn.o_proj', 'loss': '10.03240', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.660'} INFO - {'layer': 47, 'module': 'mlp.up_proj', 'loss': '50.59407', 'damp': '0.10000', 'time': '2.298', 'fwd_time': '180.042'} INFO - {'layer': 47, 'module': 'mlp.gate_proj', 'loss': '47.86652', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.042'} INFO - {'layer': 47, 'module': 'mlp.down_proj', 'loss': '26.41652', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.429'} INFO - {'layer': 48, 'module': 'self_attn.k_proj', 'loss': '2.44420', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.642'} INFO - {'layer': 48, 'module': 'self_attn.v_proj', 'loss': '3.79191', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.642'} INFO - {'layer': 48, 'module': 'self_attn.q_proj', 'loss': '10.23924', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.642'} INFO - {'layer': 48, 'module': 'self_attn.o_proj', 'loss': '12.53692', 'damp': '0.10000', 'time': '1.577', 'fwd_time': '179.616'} INFO - {'layer': 48, 'module': 'mlp.up_proj', 'loss': '55.46630', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'} INFO - {'layer': 48, 'module': 'mlp.gate_proj', 'loss': '53.09388', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'} INFO - {'layer': 48, 'module': 'mlp.down_proj', 'loss': '30.89529', 'damp': '0.10000', 'time': '10.949', 'fwd_time': '194.562'} INFO - {'layer': 49, 'module': 'self_attn.k_proj', 'loss': '2.52239', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.647'} INFO - {'layer': 49, 'module': 'self_attn.v_proj', 'loss': '3.65270', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.647'} INFO - {'layer': 49, 'module': 'self_attn.q_proj', 'loss': '10.91024', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.647'} INFO - {'layer': 49, 'module': 'self_attn.o_proj', 'loss': '14.26922', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.595'} INFO - {'layer': 49, 'module': 'mlp.up_proj', 'loss': '66.36527', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '179.994'} INFO - {'layer': 49, 'module': 'mlp.gate_proj', 'loss': '64.04491', 'damp': '0.10000', 'time': '2.290', 'fwd_time': '179.994'} INFO - {'layer': 49, 'module': 'mlp.down_proj', 'loss': '43.17512', 'damp': '0.10000', 'time': '10.985', 'fwd_time': '194.529'} INFO - {'layer': 50, 'module': 'self_attn.k_proj', 'loss': '2.66782', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.563'} INFO - {'layer': 50, 'module': 'self_attn.v_proj', 'loss': '4.38692', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.563'} INFO - {'layer': 50, 'module': 'self_attn.q_proj', 'loss': '11.92033', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.563'} INFO - {'layer': 50, 'module': 'self_attn.o_proj', 'loss': '11.55887', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.510'} INFO - {'layer': 50, 'module': 'mlp.up_proj', 'loss': '76.91088', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '179.967'} INFO - {'layer': 50, 'module': 'mlp.gate_proj', 'loss': '76.20550', 'damp': '0.10000', 'time': '2.302', 'fwd_time': '179.967'} INFO - {'layer': 50, 'module': 'mlp.down_proj', 'loss': '49.31875', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.503'} INFO - {'layer': 51, 'module': 'self_attn.k_proj', 'loss': '2.71374', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '181.482'} INFO - {'layer': 51, 'module': 'self_attn.v_proj', 'loss': '3.84296', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '181.482'} INFO - {'layer': 51, 'module': 'self_attn.q_proj', 'loss': '11.35158', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '181.482'} INFO - {'layer': 51, 'module': 'self_attn.o_proj', 'loss': '21.91198', 'damp': '0.10000', 'time': '1.449', 'fwd_time': '179.641'} INFO - {'layer': 51, 'module': 'mlp.up_proj', 'loss': '85.67807', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '180.082'} INFO - {'layer': 51, 'module': 'mlp.gate_proj', 'loss': '86.28110', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.082'} INFO - {'layer': 51, 'module': 'mlp.down_proj', 'loss': '57.13311', 'damp': '0.10000', 'time': '10.955', 'fwd_time': '194.350'} INFO - {'layer': 52, 'module': 'self_attn.k_proj', 'loss': '2.95962', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.684'} INFO - {'layer': 52, 'module': 'self_attn.v_proj', 'loss': '6.29919', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.684'} INFO - {'layer': 52, 'module': 'self_attn.q_proj', 'loss': '13.32253', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.684'} INFO - {'layer': 52, 'module': 'self_attn.o_proj', 'loss': '17.50098', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.625'} INFO - {'layer': 52, 'module': 'mlp.up_proj', 'loss': '93.98927', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.075'} INFO - {'layer': 52, 'module': 'mlp.gate_proj', 'loss': '94.03600', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.075'} INFO - {'layer': 52, 'module': 'mlp.down_proj', 'loss': '66.89360', 'damp': '0.10000', 'time': '10.940', 'fwd_time': '194.547'} INFO - {'layer': 53, 'module': 'self_attn.k_proj', 'loss': '3.41568', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.720'} INFO - {'layer': 53, 'module': 'self_attn.v_proj', 'loss': '6.68261', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.720'} INFO - {'layer': 53, 'module': 'self_attn.q_proj', 'loss': '14.38581', 'damp': '0.10000', 'time': '1.444', 'fwd_time': '180.720'} INFO - {'layer': 53, 'module': 'self_attn.o_proj', 'loss': '20.21694', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.585'} INFO - {'layer': 53, 'module': 'mlp.up_proj', 'loss': '104.72342', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.071'} INFO - {'layer': 53, 'module': 'mlp.gate_proj', 'loss': '105.06948', 'damp': '0.10000', 'time': '2.329', 'fwd_time': '180.071'} INFO - {'layer': 53, 'module': 'mlp.down_proj', 'loss': '75.09118', 'damp': '0.10000', 'time': '10.924', 'fwd_time': '194.528'} INFO - {'layer': 54, 'module': 'self_attn.k_proj', 'loss': '3.36520', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.724'} INFO - {'layer': 54, 'module': 'self_attn.v_proj', 'loss': '6.15906', 'damp': '0.10000', 'time': '1.284', 'fwd_time': '180.724'} INFO - {'layer': 54, 'module': 'self_attn.q_proj', 'loss': '14.19391', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.724'} INFO - {'layer': 54, 'module': 'self_attn.o_proj', 'loss': '17.05255', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '179.625'} INFO - {'layer': 54, 'module': 'mlp.up_proj', 'loss': '116.01665', 'damp': '0.10000', 'time': '2.269', 'fwd_time': '179.932'} INFO - {'layer': 54, 'module': 'mlp.gate_proj', 'loss': '115.23258', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '179.932'} INFO - {'layer': 54, 'module': 'mlp.down_proj', 'loss': '81.21964', 'damp': '0.10000', 'time': '10.906', 'fwd_time': '194.418'} INFO - {'layer': 55, 'module': 'self_attn.k_proj', 'loss': '3.17986', 'damp': '0.10000', 'time': '1.309', 'fwd_time': '180.614'} INFO - {'layer': 55, 'module': 'self_attn.v_proj', 'loss': '6.37354', 'damp': '0.10000', 'time': '1.322', 'fwd_time': '180.614'} INFO - {'layer': 55, 'module': 'self_attn.q_proj', 'loss': '14.36818', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.614'} INFO - {'layer': 55, 'module': 'self_attn.o_proj', 'loss': '23.59741', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.590'} INFO - {'layer': 55, 'module': 'mlp.up_proj', 'loss': '127.39666', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.035'} INFO - {'layer': 55, 'module': 'mlp.gate_proj', 'loss': '124.96896', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.035'} INFO - {'layer': 55, 'module': 'mlp.down_proj', 'loss': '95.18001', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.525'} INFO - {'layer': 56, 'module': 'self_attn.k_proj', 'loss': '3.51710', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.578'} INFO - {'layer': 56, 'module': 'self_attn.v_proj', 'loss': '8.92079', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.578'} INFO - {'layer': 56, 'module': 'self_attn.q_proj', 'loss': '15.57063', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.578'} INFO - {'layer': 56, 'module': 'self_attn.o_proj', 'loss': '18.93305', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '179.618'} INFO - {'layer': 56, 'module': 'mlp.up_proj', 'loss': '137.50682', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '180.052'} INFO - {'layer': 56, 'module': 'mlp.gate_proj', 'loss': '133.82163', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.052'} INFO - {'layer': 56, 'module': 'mlp.down_proj', 'loss': '104.22985', 'damp': '0.10000', 'time': '10.929', 'fwd_time': '194.535'} INFO - {'layer': 57, 'module': 'self_attn.k_proj', 'loss': '3.39507', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.633'} INFO - {'layer': 57, 'module': 'self_attn.v_proj', 'loss': '9.25974', 'damp': '0.10000', 'time': '1.283', 'fwd_time': '180.633'} INFO - {'layer': 57, 'module': 'self_attn.q_proj', 'loss': '16.10579', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.633'} INFO - {'layer': 57, 'module': 'self_attn.o_proj', 'loss': '14.65038', 'damp': '0.10000', 'time': '1.442', 'fwd_time': '179.609'} INFO - {'layer': 57, 'module': 'mlp.up_proj', 'loss': '146.27147', 'damp': '0.10000', 'time': '2.271', 'fwd_time': '180.001'} INFO - {'layer': 57, 'module': 'mlp.gate_proj', 'loss': '140.22373', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.001'} INFO - {'layer': 57, 'module': 'mlp.down_proj', 'loss': '114.18199', 'damp': '0.10000', 'time': '11.026', 'fwd_time': '194.483'} INFO - {'layer': 58, 'module': 'self_attn.k_proj', 'loss': '3.59921', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.761'} INFO - {'layer': 58, 'module': 'self_attn.v_proj', 'loss': '10.66743', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.761'} INFO - {'layer': 58, 'module': 'self_attn.q_proj', 'loss': '15.81635', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.761'} INFO - {'layer': 58, 'module': 'self_attn.o_proj', 'loss': '15.86379', 'damp': '0.10000', 'time': '1.510', 'fwd_time': '179.620'} INFO - {'layer': 58, 'module': 'mlp.up_proj', 'loss': '158.08565', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.014'} INFO - {'layer': 58, 'module': 'mlp.gate_proj', 'loss': '149.25287', 'damp': '0.10000', 'time': '2.345', 'fwd_time': '180.014'} INFO - {'layer': 58, 'module': 'mlp.down_proj', 'loss': '137.70841', 'damp': '0.10000', 'time': '10.935', 'fwd_time': '194.487'} INFO - {'layer': 59, 'module': 'self_attn.k_proj', 'loss': '3.67538', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.754'} INFO - {'layer': 59, 'module': 'self_attn.v_proj', 'loss': '14.46169', 'damp': '0.10000', 'time': '1.289', 'fwd_time': '180.754'} INFO - {'layer': 59, 'module': 'self_attn.q_proj', 'loss': '18.15292', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.754'} INFO - {'layer': 59, 'module': 'self_attn.o_proj', 'loss': '37.87932', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.615'} INFO - {'layer': 59, 'module': 'mlp.up_proj', 'loss': '175.38797', 'damp': '0.10000', 'time': '2.328', 'fwd_time': '180.052'} INFO - {'layer': 59, 'module': 'mlp.gate_proj', 'loss': '162.44526', 'damp': '0.10000', 'time': '2.331', 'fwd_time': '180.052'} INFO - {'layer': 59, 'module': 'mlp.down_proj', 'loss': '179.52118', 'damp': '0.10000', 'time': '10.903', 'fwd_time': '194.595'} INFO - {'layer': 60, 'module': 'self_attn.k_proj', 'loss': '3.14580', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.662'} INFO - {'layer': 60, 'module': 'self_attn.v_proj', 'loss': '15.64041', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.662'} INFO - {'layer': 60, 'module': 'self_attn.q_proj', 'loss': '17.17400', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.662'} INFO - {'layer': 60, 'module': 'self_attn.o_proj', 'loss': '47.29679', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.653'} INFO - {'layer': 60, 'module': 'mlp.up_proj', 'loss': '191.12323', 'damp': '0.10000', 'time': '2.287', 'fwd_time': '180.117'} INFO - {'layer': 60, 'module': 'mlp.gate_proj', 'loss': '173.92417', 'damp': '0.10000', 'time': '2.289', 'fwd_time': '180.117'} INFO - {'layer': 60, 'module': 'mlp.down_proj', 'loss': '381.57719', 'damp': '0.10000', 'time': '10.930', 'fwd_time': '194.374'} INFO - {'layer': 61, 'module': 'self_attn.k_proj', 'loss': '3.22560', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.663'} INFO - {'layer': 61, 'module': 'self_attn.v_proj', 'loss': '19.75692', 'damp': '0.10000', 'time': '1.285', 'fwd_time': '180.663'} INFO - {'layer': 61, 'module': 'self_attn.q_proj', 'loss': '17.35482', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.663'} INFO - {'layer': 61, 'module': 'self_attn.o_proj', 'loss': '57.58032', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '179.432'} INFO - {'layer': 61, 'module': 'mlp.up_proj', 'loss': '205.42150', 'damp': '0.10000', 'time': '2.284', 'fwd_time': '179.905'} INFO - {'layer': 61, 'module': 'mlp.gate_proj', 'loss': '187.30222', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '179.905'} INFO - {'layer': 61, 'module': 'mlp.down_proj', 'loss': '321.43789', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.398'} INFO - {'layer': 62, 'module': 'self_attn.k_proj', 'loss': '3.10699', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.628'} INFO - {'layer': 62, 'module': 'self_attn.v_proj', 'loss': '22.59203', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.628'} INFO - {'layer': 62, 'module': 'self_attn.q_proj', 'loss': '17.16475', 'damp': '0.10000', 'time': '1.436', 'fwd_time': '180.628'} INFO - {'layer': 62, 'module': 'self_attn.o_proj', 'loss': '82.21398', 'damp': '0.10000', 'time': '1.428', 'fwd_time': '179.517'} INFO - {'layer': 62, 'module': 'mlp.up_proj', 'loss': '205.27777', 'damp': '0.10000', 'time': '2.263', 'fwd_time': '179.917'} INFO - {'layer': 62, 'module': 'mlp.gate_proj', 'loss': '191.64138', 'damp': '0.10000', 'time': '2.267', 'fwd_time': '179.917'} INFO - {'layer': 62, 'module': 'mlp.down_proj', 'loss': '544.66563', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.511'} INFO - {'layer': 63, 'module': 'self_attn.k_proj', 'loss': '2.77712', 'damp': '0.10000', 'time': '1.279', 'fwd_time': '180.354'} INFO - {'layer': 63, 'module': 'self_attn.v_proj', 'loss': '14.33761', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.354'} INFO - {'layer': 63, 'module': 'self_attn.q_proj', 'loss': '12.67621', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.354'} INFO - {'layer': 63, 'module': 'self_attn.o_proj', 'loss': '35.30698', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '179.569'} INFO - {'layer': 63, 'module': 'mlp.up_proj', 'loss': '221.10228', 'damp': '0.10000', 'time': '2.296', 'fwd_time': '179.977'} INFO - {'layer': 63, 'module': 'mlp.gate_proj', 'loss': '213.36907', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '179.977'} INFO - {'layer': 63, 'module': 'mlp.down_proj', 'loss': '877.11320', 'damp': '0.10000', 'time': '10.990', 'fwd_time': '194.567'} INFO - Packing model...
Packing model.layers.63.mlp.down_proj |----------------------------------------| 100.0%1 / 2 days, 15:35:28 [0/448] 0.0%.0%
INFO - Model packed.
Quantizing mlp.down_proj in layer 63 of 63 |----------------------------------------| 100.0%
Out[19]:
[{'layer': 0, 'module': 'self_attn.k_proj', 'loss': '0.21932', 'damp': '0.10000', 'time': '1.539', 'fwd_time': '181.555'}, {'layer': 0, 'module': 'self_attn.v_proj', 'loss': '0.06990', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.555'}, {'layer': 0, 'module': 'self_attn.q_proj', 'loss': '0.63353', 'damp': '0.10000', 'time': '1.497', 'fwd_time': '181.555'}, {'layer': 0, 'module': 'self_attn.o_proj', 'loss': '1.53644', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '180.229'}, {'layer': 0, 'module': 'mlp.up_proj', 'loss': '0.48136', 'damp': '0.10000', 'time': '2.423', 'fwd_time': '180.524'}, {'layer': 0, 'module': 'mlp.gate_proj', 'loss': '0.52939', 'damp': '0.10000', 'time': '2.411', 'fwd_time': '180.524'}, {'layer': 0, 'module': 'mlp.down_proj', 'loss': '0.60040', 'damp': '0.10000', 'time': '11.206', 'fwd_time': '194.950'}, {'layer': 1, 'module': 'self_attn.k_proj', 'loss': '0.00747', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.374'}, {'layer': 1, 'module': 'self_attn.v_proj', 'loss': '0.00383', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '181.374'}, {'layer': 1, 'module': 'self_attn.q_proj', 'loss': '0.02565', 'damp': '0.10000', 'time': '1.502', 'fwd_time': '181.374'}, {'layer': 1, 'module': 'self_attn.o_proj', 'loss': '0.01501', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '180.135'}, {'layer': 1, 'module': 'mlp.up_proj', 'loss': '2.40089', 'damp': '0.10000', 'time': '2.445', 'fwd_time': '180.711'}, {'layer': 1, 'module': 'mlp.gate_proj', 'loss': '6.17636', 'damp': '0.10000', 'time': '2.421', 'fwd_time': '180.711'}, {'layer': 1, 'module': 'mlp.down_proj', 'loss': '0.07097', 'damp': '0.10000', 'time': '11.123', 'fwd_time': '194.713'}, {'layer': 2, 'module': 'self_attn.k_proj', 'loss': '0.03215', 'damp': '0.10000', 'time': '1.347', 'fwd_time': '181.320'}, {'layer': 2, 'module': 'self_attn.v_proj', 'loss': '0.01367', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.320'}, {'layer': 2, 'module': 'self_attn.q_proj', 'loss': '0.09015', 'damp': '0.10000', 'time': '1.512', 'fwd_time': '181.320'}, {'layer': 2, 'module': 'self_attn.o_proj', 'loss': '0.09266', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.239'}, {'layer': 2, 'module': 'mlp.up_proj', 'loss': '5.20606', 'damp': '0.10000', 'time': '2.403', 'fwd_time': '180.694'}, {'layer': 2, 'module': 'mlp.gate_proj', 'loss': '10.58370', 'damp': '0.10000', 'time': '2.400', 'fwd_time': '180.694'}, {'layer': 2, 'module': 'mlp.down_proj', 'loss': '0.36352', 'damp': '0.10000', 'time': '11.242', 'fwd_time': '195.008'}, {'layer': 3, 'module': 'self_attn.k_proj', 'loss': '0.20204', 'damp': '0.10000', 'time': '1.358', 'fwd_time': '181.430'}, {'layer': 3, 'module': 'self_attn.v_proj', 'loss': '0.07010', 'damp': '0.10000', 'time': '1.345', 'fwd_time': '181.430'}, {'layer': 3, 'module': 'self_attn.q_proj', 'loss': '0.58422', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '181.430'}, {'layer': 3, 'module': 'self_attn.o_proj', 'loss': '0.32670', 'damp': '0.10000', 'time': '1.508', 'fwd_time': '180.149'}, {'layer': 3, 'module': 'mlp.up_proj', 'loss': '6.34731', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'}, {'layer': 3, 'module': 'mlp.gate_proj', 'loss': '13.98404', 'damp': '0.10000', 'time': '2.424', 'fwd_time': '180.658'}, {'layer': 3, 'module': 'mlp.down_proj', 'loss': '0.86336', 'damp': '0.10000', 'time': '11.249', 'fwd_time': '195.066'}, {'layer': 4, 'module': 'self_attn.k_proj', 'loss': '0.19773', 'damp': '0.10000', 'time': '1.336', 'fwd_time': '181.222'}, {'layer': 4, 'module': 'self_attn.v_proj', 'loss': '0.10230', 'damp': '0.10000', 'time': '1.326', 'fwd_time': '181.222'}, {'layer': 4, 'module': 'self_attn.q_proj', 'loss': '0.60618', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.222'}, {'layer': 4, 'module': 'self_attn.o_proj', 'loss': '0.63086', 'damp': '0.10000', 'time': '1.490', 'fwd_time': '180.260'}, {'layer': 4, 'module': 'mlp.up_proj', 'loss': '16.42926', 'damp': '0.10000', 'time': '2.387', 'fwd_time': '180.716'}, {'layer': 4, 'module': 'mlp.gate_proj', 'loss': '32.29819', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.716'}, {'layer': 4, 'module': 'mlp.down_proj', 'loss': '587.46689', 'damp': '0.10000', 'time': '11.247', 'fwd_time': '195.045'}, {'layer': 5, 'module': 'self_attn.k_proj', 'loss': '0.72354', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '181.371'}, {'layer': 5, 'module': 'self_attn.v_proj', 'loss': '0.42462', 'damp': '0.10000', 'time': '1.334', 'fwd_time': '181.371'}, {'layer': 5, 'module': 'self_attn.q_proj', 'loss': '2.40297', 'damp': '0.10000', 'time': '1.496', 'fwd_time': '181.371'}, {'layer': 5, 'module': 'self_attn.o_proj', 'loss': '0.73659', 'damp': '0.10000', 'time': '1.501', 'fwd_time': '180.189'}, {'layer': 5, 'module': 'mlp.up_proj', 'loss': '26.50791', 'damp': '0.10000', 'time': '2.416', 'fwd_time': '180.533'}, {'layer': 5, 'module': 'mlp.gate_proj', 'loss': '49.79549', 'damp': '0.10000', 'time': '2.393', 'fwd_time': '180.533'}, {'layer': 5, 'module': 'mlp.down_proj', 'loss': '522.29541', 'damp': '0.10000', 'time': '11.290', 'fwd_time': '194.825'}, {'layer': 6, 'module': 'self_attn.k_proj', 'loss': '0.66616', 'damp': '0.10000', 'time': '1.346', 'fwd_time': '181.275'}, {'layer': 6, 'module': 'self_attn.v_proj', 'loss': '0.49659', 'damp': '0.10000', 'time': '1.339', 'fwd_time': '181.275'}, {'layer': 6, 'module': 'self_attn.q_proj', 'loss': '2.35563', 'damp': '0.10000', 'time': '1.503', 'fwd_time': '181.275'}, {'layer': 6, 'module': 'self_attn.o_proj', 'loss': '0.58956', 'damp': '0.10000', 'time': '1.506', 'fwd_time': '180.152'}, {'layer': 6, 'module': 'mlp.up_proj', 'loss': '42.32227', 'damp': '0.10000', 'time': '2.401', 'fwd_time': '180.759'}, {'layer': 6, 'module': 'mlp.gate_proj', 'loss': '75.13210', 'damp': '0.10000', 'time': '2.409', 'fwd_time': '180.759'}, {'layer': 6, 'module': 'mlp.down_proj', 'loss': '31.55573', 'damp': '0.10000', 'time': '11.224', 'fwd_time': '194.953'}, {'layer': 7, 'module': 'self_attn.k_proj', 'loss': '0.85074', 'damp': '0.10000', 'time': '1.335', 'fwd_time': '181.299'}, {'layer': 7, 'module': 'self_attn.v_proj', 'loss': '0.69796', 'damp': '0.10000', 'time': '1.331', 'fwd_time': '181.299'}, {'layer': 7, 'module': 'self_attn.q_proj', 'loss': '3.08233', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '181.299'}, {'layer': 7, 'module': 'self_attn.o_proj', 'loss': '0.63950', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.195'}, {'layer': 7, 'module': 'mlp.up_proj', 'loss': '49.91836', 'damp': '0.10000', 'time': '2.395', 'fwd_time': '180.666'}, {'layer': 7, 'module': 'mlp.gate_proj', 'loss': '89.78850', 'damp': '0.10000', 'time': '2.408', 'fwd_time': '180.666'}, {'layer': 7, 'module': 'mlp.down_proj', 'loss': '2.12929', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.884'}, {'layer': 8, 'module': 'self_attn.k_proj', 'loss': '1.07405', 'damp': '0.10000', 'time': '1.363', 'fwd_time': '181.173'}, {'layer': 8, 'module': 'self_attn.v_proj', 'loss': '0.64949', 'damp': '0.10000', 'time': '1.328', 'fwd_time': '181.173'}, {'layer': 8, 'module': 'self_attn.q_proj', 'loss': '3.66730', 'damp': '0.10000', 'time': '1.483', 'fwd_time': '181.173'}, {'layer': 8, 'module': 'self_attn.o_proj', 'loss': '0.57933', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '180.237'}, {'layer': 8, 'module': 'mlp.up_proj', 'loss': '30.98035', 'damp': '0.10000', 'time': '2.376', 'fwd_time': '180.517'}, {'layer': 8, 'module': 'mlp.gate_proj', 'loss': '54.68026', 'damp': '0.10000', 'time': '2.375', 'fwd_time': '180.517'}, {'layer': 8, 'module': 'mlp.down_proj', 'loss': '2.39296', 'damp': '0.10000', 'time': '11.024', 'fwd_time': '194.860'}, {'layer': 9, 'module': 'self_attn.k_proj', 'loss': '0.85622', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.847'}, {'layer': 9, 'module': 'self_attn.v_proj', 'loss': '0.70850', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.847'}, {'layer': 9, 'module': 'self_attn.q_proj', 'loss': '3.05020', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.847'}, {'layer': 9, 'module': 'self_attn.o_proj', 'loss': '0.97835', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '179.724'}, {'layer': 9, 'module': 'mlp.up_proj', 'loss': '12.53627', 'damp': '0.10000', 'time': '2.276', 'fwd_time': '180.037'}, {'layer': 9, 'module': 'mlp.gate_proj', 'loss': '13.44056', 'damp': '0.10000', 'time': '2.272', 'fwd_time': '180.037'}, {'layer': 9, 'module': 'mlp.down_proj', 'loss': '2.59464', 'damp': '0.10000', 'time': '10.920', 'fwd_time': '194.478'}, {'layer': 10, 'module': 'self_attn.k_proj', 'loss': '1.16653', 'damp': '0.10000', 'time': '1.312', 'fwd_time': '180.710'}, {'layer': 10, 'module': 'self_attn.v_proj', 'loss': '0.90903', 'damp': '0.10000', 'time': '1.360', 'fwd_time': '180.710'}, {'layer': 10, 'module': 'self_attn.q_proj', 'loss': '4.31524', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.710'}, {'layer': 10, 'module': 'self_attn.o_proj', 'loss': '0.95127', 'damp': '0.10000', 'time': '1.505', 'fwd_time': '179.513'}, {'layer': 10, 'module': 'mlp.up_proj', 'loss': '14.21657', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '180.007'}, {'layer': 10, 'module': 'mlp.gate_proj', 'loss': '15.31685', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.007'}, {'layer': 10, 'module': 'mlp.down_proj', 'loss': '3.00897', 'damp': '0.10000', 'time': '10.969', 'fwd_time': '194.558'}, {'layer': 11, 'module': 'self_attn.k_proj', 'loss': '0.94783', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.753'}, {'layer': 11, 'module': 'self_attn.v_proj', 'loss': '0.68951', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.753'}, {'layer': 11, 'module': 'self_attn.q_proj', 'loss': '3.46378', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.753'}, {'layer': 11, 'module': 'self_attn.o_proj', 'loss': '1.90921', 'damp': '0.10000', 'time': '1.447', 'fwd_time': '179.657'}, {'layer': 11, 'module': 'mlp.up_proj', 'loss': '19.40327', 'damp': '0.10000', 'time': '2.280', 'fwd_time': '180.037'}, {'layer': 11, 'module': 'mlp.gate_proj', 'loss': '23.92704', 'damp': '0.10000', 'time': '2.285', 'fwd_time': '180.037'}, {'layer': 11, 'module': 'mlp.down_proj', 'loss': '2.97715', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.557'}, {'layer': 12, 'module': 'self_attn.k_proj', 'loss': '1.08602', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.704'}, {'layer': 12, 'module': 'self_attn.v_proj', 'loss': '0.74431', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.704'}, {'layer': 12, 'module': 'self_attn.q_proj', 'loss': '4.01792', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.704'}, {'layer': 12, 'module': 'self_attn.o_proj', 'loss': '1.80497', 'damp': '0.10000', 'time': '1.432', 'fwd_time': '179.639'}, {'layer': 12, 'module': 'mlp.up_proj', 'loss': '16.91254', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.145'}, {'layer': 12, 'module': 'mlp.gate_proj', 'loss': '18.04272', 'damp': '0.10000', 'time': '2.274', 'fwd_time': '180.145'}, {'layer': 12, 'module': 'mlp.down_proj', 'loss': '3.48199', 'damp': '0.10000', 'time': '11.011', 'fwd_time': '194.583'}, {'layer': 13, 'module': 'self_attn.k_proj', 'loss': '1.22753', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.711'}, {'layer': 13, 'module': 'self_attn.v_proj', 'loss': '0.89010', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.711'}, {'layer': 13, 'module': 'self_attn.q_proj', 'loss': '4.36018', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.711'}, {'layer': 13, 'module': 'self_attn.o_proj', 'loss': '1.75457', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '179.614'}, {'layer': 13, 'module': 'mlp.up_proj', 'loss': '19.40314', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '179.951'}, {'layer': 13, 'module': 'mlp.gate_proj', 'loss': '20.87128', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '179.951'}, {'layer': 13, 'module': 'mlp.down_proj', 'loss': '3.92058', 'damp': '0.10000', 'time': '11.225', 'fwd_time': '194.541'}, {'layer': 14, 'module': 'self_attn.k_proj', 'loss': '1.47310', 'damp': '0.10000', 'time': '1.327', 'fwd_time': '180.463'}, {'layer': 14, 'module': 'self_attn.v_proj', 'loss': '0.97991', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.463'}, {'layer': 14, 'module': 'self_attn.q_proj', 'loss': '5.31070', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.463'}, {'layer': 14, 'module': 'self_attn.o_proj', 'loss': '1.86601', 'damp': '0.10000', 'time': '1.513', 'fwd_time': '179.592'}, {'layer': 14, 'module': 'mlp.up_proj', 'loss': '20.50224', 'damp': '0.10000', 'time': '2.349', 'fwd_time': '180.003'}, {'layer': 14, 'module': 'mlp.gate_proj', 'loss': '22.18833', 'damp': '0.10000', 'time': '2.281', 'fwd_time': '180.003'}, {'layer': 14, 'module': 'mlp.down_proj', 'loss': '4.27567', 'damp': '0.10000', 'time': '11.369', 'fwd_time': '194.563'}, {'layer': 15, 'module': 'self_attn.k_proj', 'loss': '1.24926', 'damp': '0.10000', 'time': '1.348', 'fwd_time': '180.693'}, {'layer': 15, 'module': 'self_attn.v_proj', 'loss': '0.96484', 'damp': '0.10000', 'time': '1.370', 'fwd_time': '180.693'}, {'layer': 15, 'module': 'self_attn.q_proj', 'loss': '4.50831', 'damp': '0.10000', 'time': '1.576', 'fwd_time': '180.693'}, {'layer': 15, 'module': 'self_attn.o_proj', 'loss': '2.08441', 'damp': '0.10000', 'time': '1.527', 'fwd_time': '179.613'}, {'layer': 15, 'module': 'mlp.up_proj', 'loss': '21.55517', 'damp': '0.10000', 'time': '2.360', 'fwd_time': '180.055'}, {'layer': 15, 'module': 'mlp.gate_proj', 'loss': '24.37054', 'damp': '0.10000', 'time': '2.485', 'fwd_time': '180.055'}, {'layer': 15, 'module': 'mlp.down_proj', 'loss': '4.66921', 'damp': '0.10000', 'time': '11.144', 'fwd_time': '194.668'}, {'layer': 16, 'module': 'self_attn.k_proj', 'loss': '1.20586', 'damp': '0.10000', 'time': '1.367', 'fwd_time': '180.786'}, {'layer': 16, 'module': 'self_attn.v_proj', 'loss': '0.74171', 'damp': '0.10000', 'time': '1.377', 'fwd_time': '180.786'}, {'layer': 16, 'module': 'self_attn.q_proj', 'loss': '4.09036', 'damp': '0.10000', 'time': '1.525', 'fwd_time': '180.786'}, {'layer': 16, 'module': 'self_attn.o_proj', 'loss': '1.66565', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.672'}, {'layer': 16, 'module': 'mlp.up_proj', 'loss': '20.58864', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '179.962'}, {'layer': 16, 'module': 'mlp.gate_proj', 'loss': '22.13742', 'damp': '0.10000', 'time': '2.317', 'fwd_time': '179.962'}, {'layer': 16, 'module': 'mlp.down_proj', 'loss': '4.32864', 'damp': '0.10000', 'time': '11.065', 'fwd_time': '194.604'}, {'layer': 17, 'module': 'self_attn.k_proj', 'loss': '1.55755', 'damp': '0.10000', 'time': '1.392', 'fwd_time': '180.714'}, {'layer': 17, 'module': 'self_attn.v_proj', 'loss': '0.92695', 'damp': '0.10000', 'time': '1.403', 'fwd_time': '180.714'}, {'layer': 17, 'module': 'self_attn.q_proj', 'loss': '5.36392', 'damp': '0.10000', 'time': '1.487', 'fwd_time': '180.714'}, {'layer': 17, 'module': 'self_attn.o_proj', 'loss': '1.68428', 'damp': '0.10000', 'time': '1.561', 'fwd_time': '179.547'}, {'layer': 17, 'module': 'mlp.up_proj', 'loss': '20.66038', 'damp': '0.10000', 'time': '2.341', 'fwd_time': '180.057'}, {'layer': 17, 'module': 'mlp.gate_proj', 'loss': '21.92830', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.057'}, {'layer': 17, 'module': 'mlp.down_proj', 'loss': '4.24783', 'damp': '0.10000', 'time': '11.208', 'fwd_time': '194.595'}, {'layer': 18, 'module': 'self_attn.k_proj', 'loss': '1.60531', 'damp': '0.10000', 'time': '1.404', 'fwd_time': '181.426'}, {'layer': 18, 'module': 'self_attn.v_proj', 'loss': '0.96575', 'damp': '0.10000', 'time': '1.319', 'fwd_time': '181.426'}, {'layer': 18, 'module': 'self_attn.q_proj', 'loss': '5.49226', 'damp': '0.10000', 'time': '1.459', 'fwd_time': '181.426'}, {'layer': 18, 'module': 'self_attn.o_proj', 'loss': '1.48581', 'damp': '0.10000', 'time': '1.522', 'fwd_time': '179.533'}, {'layer': 18, 'module': 'mlp.up_proj', 'loss': '20.34096', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.133'}, {'layer': 18, 'module': 'mlp.gate_proj', 'loss': '21.43189', 'damp': '0.10000', 'time': '2.457', 'fwd_time': '180.133'}, {'layer': 18, 'module': 'mlp.down_proj', 'loss': '4.20860', 'damp': '0.10000', 'time': '10.987', 'fwd_time': '194.768'}, {'layer': 19, 'module': 'self_attn.k_proj', 'loss': '1.38301', 'damp': '0.10000', 'time': '1.424', 'fwd_time': '180.684'}, {'layer': 19, 'module': 'self_attn.v_proj', 'loss': '0.94416', 'damp': '0.10000', 'time': '1.473', 'fwd_time': '180.684'}, {'layer': 19, 'module': 'self_attn.q_proj', 'loss': '5.01696', 'damp': '0.10000', 'time': '1.593', 'fwd_time': '180.684'}, {'layer': 19, 'module': 'self_attn.o_proj', 'loss': '1.21167', 'damp': '0.10000', 'time': '1.650', 'fwd_time': '179.390'}, {'layer': 19, 'module': 'mlp.up_proj', 'loss': '20.60382', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '179.854'}, {'layer': 19, 'module': 'mlp.gate_proj', 'loss': '21.65518', 'damp': '0.10000', 'time': '2.306', 'fwd_time': '179.854'}, {'layer': 19, 'module': 'mlp.down_proj', 'loss': '4.24532', 'damp': '0.10000', 'time': '11.253', 'fwd_time': '194.715'}, {'layer': 20, 'module': 'self_attn.k_proj', 'loss': '1.67529', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.886'}, {'layer': 20, 'module': 'self_attn.v_proj', 'loss': '0.97326', 'damp': '0.10000', 'time': '1.394', 'fwd_time': '180.886'}, {'layer': 20, 'module': 'self_attn.q_proj', 'loss': '5.80866', 'damp': '0.10000', 'time': '1.638', 'fwd_time': '180.886'}, {'layer': 20, 'module': 'self_attn.o_proj', 'loss': '2.01039', 'damp': '0.10000', 'time': '1.520', 'fwd_time': '179.451'}, {'layer': 20, 'module': 'mlp.up_proj', 'loss': '20.08991', 'damp': '0.10000', 'time': '2.333', 'fwd_time': '179.710'}, {'layer': 20, 'module': 'mlp.gate_proj', 'loss': '20.81839', 'damp': '0.10000', 'time': '2.396', 'fwd_time': '179.710'}, {'layer': 20, 'module': 'mlp.down_proj', 'loss': '4.39435', 'damp': '0.10000', 'time': '11.599', 'fwd_time': '194.532'}, {'layer': 21, 'module': 'self_attn.k_proj', 'loss': '1.37911', 'damp': '0.10000', 'time': '1.429', 'fwd_time': '180.597'}, {'layer': 21, 'module': 'self_attn.v_proj', 'loss': '0.84209', 'damp': '0.10000', 'time': '1.401', 'fwd_time': '180.597'}, {'layer': 21, 'module': 'self_attn.q_proj', 'loss': '4.83675', 'damp': '0.10000', 'time': '1.528', 'fwd_time': '180.597'}, {'layer': 21, 'module': 'self_attn.o_proj', 'loss': '1.99481', 'damp': '0.10000', 'time': '1.546', 'fwd_time': '179.461'}, {'layer': 21, 'module': 'mlp.up_proj', 'loss': '19.99206', 'damp': '0.10000', 'time': '2.361', 'fwd_time': '179.779'}, {'layer': 21, 'module': 'mlp.gate_proj', 'loss': '20.76938', 'damp': '0.10000', 'time': '2.369', 'fwd_time': '179.779'}, {'layer': 21, 'module': 'mlp.down_proj', 'loss': '4.42359', 'damp': '0.10000', 'time': '11.515', 'fwd_time': '194.516'}, {'layer': 22, 'module': 'self_attn.k_proj', 'loss': '1.50769', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.490'}, {'layer': 22, 'module': 'self_attn.v_proj', 'loss': '1.15672', 'damp': '0.10000', 'time': '1.275', 'fwd_time': '180.490'}, {'layer': 22, 'module': 'self_attn.q_proj', 'loss': '5.48060', 'damp': '0.10000', 'time': '1.425', 'fwd_time': '180.490'}, {'layer': 22, 'module': 'self_attn.o_proj', 'loss': '2.49873', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.557'}, {'layer': 22, 'module': 'mlp.up_proj', 'loss': '21.26843', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.081'}, {'layer': 22, 'module': 'mlp.gate_proj', 'loss': '22.03465', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.081'}, {'layer': 22, 'module': 'mlp.down_proj', 'loss': '4.79118', 'damp': '0.10000', 'time': '10.968', 'fwd_time': '194.443'}, {'layer': 23, 'module': 'self_attn.k_proj', 'loss': '1.44571', 'damp': '0.10000', 'time': '1.375', 'fwd_time': '180.920'}, {'layer': 23, 'module': 'self_attn.v_proj', 'loss': '1.18315', 'damp': '0.10000', 'time': '1.384', 'fwd_time': '180.920'}, {'layer': 23, 'module': 'self_attn.q_proj', 'loss': '5.38706', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '180.920'}, {'layer': 23, 'module': 'self_attn.o_proj', 'loss': '2.65820', 'damp': '0.10000', 'time': '1.488', 'fwd_time': '179.860'}, {'layer': 23, 'module': 'mlp.up_proj', 'loss': '22.39951', 'damp': '0.10000', 'time': '2.343', 'fwd_time': '180.171'}, {'layer': 23, 'module': 'mlp.gate_proj', 'loss': '23.49767', 'damp': '0.10000', 'time': '2.310', 'fwd_time': '180.171'}, {'layer': 23, 'module': 'mlp.down_proj', 'loss': '5.14678', 'damp': '0.10000', 'time': '11.171', 'fwd_time': '194.532'}, {'layer': 24, 'module': 'self_attn.k_proj', 'loss': '1.88726', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.631'}, {'layer': 24, 'module': 'self_attn.v_proj', 'loss': '1.25504', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.631'}, {'layer': 24, 'module': 'self_attn.q_proj', 'loss': '6.79697', 'damp': '0.10000', 'time': '1.547', 'fwd_time': '180.631'}, {'layer': 24, 'module': 'self_attn.o_proj', 'loss': '2.37069', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.619'}, {'layer': 24, 'module': 'mlp.up_proj', 'loss': '23.00431', 'damp': '0.10000', 'time': '2.300', 'fwd_time': '180.072'}, {'layer': 24, 'module': 'mlp.gate_proj', 'loss': '23.90416', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'}, {'layer': 24, 'module': 'mlp.down_proj', 'loss': '5.33596', 'damp': '0.10000', 'time': '11.077', 'fwd_time': '194.506'}, {'layer': 25, 'module': 'self_attn.k_proj', 'loss': '2.08859', 'damp': '0.10000', 'time': '1.484', 'fwd_time': '180.593'}, {'layer': 25, 'module': 'self_attn.v_proj', 'loss': '1.52274', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.593'}, {'layer': 25, 'module': 'self_attn.q_proj', 'loss': '7.71944', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.593'}, {'layer': 25, 'module': 'self_attn.o_proj', 'loss': '2.59465', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.589'}, {'layer': 25, 'module': 'mlp.up_proj', 'loss': '23.82350', 'damp': '0.10000', 'time': '2.295', 'fwd_time': '180.004'}, {'layer': 25, 'module': 'mlp.gate_proj', 'loss': '24.36376', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.004'}, {'layer': 25, 'module': 'mlp.down_proj', 'loss': '6.14879', 'damp': '0.10000', 'time': '10.939', 'fwd_time': '194.410'}, {'layer': 26, 'module': 'self_attn.k_proj', 'loss': '1.85201', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.676'}, {'layer': 26, 'module': 'self_attn.v_proj', 'loss': '1.08654', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.676'}, {'layer': 26, 'module': 'self_attn.q_proj', 'loss': '6.72261', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.676'}, {'layer': 26, 'module': 'self_attn.o_proj', 'loss': '2.70091', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.585'}, {'layer': 26, 'module': 'mlp.up_proj', 'loss': '24.94679', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.067'}, {'layer': 26, 'module': 'mlp.gate_proj', 'loss': '25.21166', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.067'}, {'layer': 26, 'module': 'mlp.down_proj', 'loss': '6.65333', 'damp': '0.10000', 'time': '10.951', 'fwd_time': '194.490'}, {'layer': 27, 'module': 'self_attn.k_proj', 'loss': '1.80303', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.700'}, {'layer': 27, 'module': 'self_attn.v_proj', 'loss': '1.11704', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.700'}, {'layer': 27, 'module': 'self_attn.q_proj', 'loss': '6.16689', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.700'}, {'layer': 27, 'module': 'self_attn.o_proj', 'loss': '4.27886', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.605'}, {'layer': 27, 'module': 'mlp.up_proj', 'loss': '25.90349', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.071'}, {'layer': 27, 'module': 'mlp.gate_proj', 'loss': '26.13162', 'damp': '0.10000', 'time': '2.334', 'fwd_time': '180.071'}, {'layer': 27, 'module': 'mlp.down_proj', 'loss': '7.54102', 'damp': '0.10000', 'time': '10.965', 'fwd_time': '194.569'}, {'layer': 28, 'module': 'self_attn.k_proj', 'loss': '1.69771', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.722'}, {'layer': 28, 'module': 'self_attn.v_proj', 'loss': '1.60528', 'damp': '0.10000', 'time': '1.290', 'fwd_time': '180.722'}, {'layer': 28, 'module': 'self_attn.q_proj', 'loss': '6.53194', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.722'}, {'layer': 28, 'module': 'self_attn.o_proj', 'loss': '4.20230', 'damp': '0.10000', 'time': '1.486', 'fwd_time': '179.598'}, {'layer': 28, 'module': 'mlp.up_proj', 'loss': '28.05067', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '179.985'}, {'layer': 28, 'module': 'mlp.gate_proj', 'loss': '28.02932', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '179.985'}, {'layer': 28, 'module': 'mlp.down_proj', 'loss': '8.23658', 'damp': '0.10000', 'time': '10.941', 'fwd_time': '194.268'}, {'layer': 29, 'module': 'self_attn.k_proj', 'loss': '2.46457', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.571'}, {'layer': 29, 'module': 'self_attn.v_proj', 'loss': '1.97819', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.571'}, {'layer': 29, 'module': 'self_attn.q_proj', 'loss': '8.90249', 'damp': '0.10000', 'time': '1.499', 'fwd_time': '180.571'}, {'layer': 29, 'module': 'self_attn.o_proj', 'loss': '5.20760', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.634'}, {'layer': 29, 'module': 'mlp.up_proj', 'loss': '30.33147', 'damp': '0.10000', 'time': '2.388', 'fwd_time': '180.025'}, {'layer': 29, 'module': 'mlp.gate_proj', 'loss': '30.10080', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.025'}, {'layer': 29, 'module': 'mlp.down_proj', 'loss': '9.00467', 'damp': '0.10000', 'time': '11.021', 'fwd_time': '194.483'}, {'layer': 30, 'module': 'self_attn.k_proj', 'loss': '2.05785', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.603'}, {'layer': 30, 'module': 'self_attn.v_proj', 'loss': '1.95388', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.603'}, {'layer': 30, 'module': 'self_attn.q_proj', 'loss': '7.90785', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.603'}, {'layer': 30, 'module': 'self_attn.o_proj', 'loss': '6.99206', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.691'}, {'layer': 30, 'module': 'mlp.up_proj', 'loss': '32.67397', 'damp': '0.10000', 'time': '2.312', 'fwd_time': '179.985'}, {'layer': 30, 'module': 'mlp.gate_proj', 'loss': '32.30062', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '179.985'}, {'layer': 30, 'module': 'mlp.down_proj', 'loss': '10.09964', 'damp': '0.10000', 'time': '10.901', 'fwd_time': '194.551'}, {'layer': 31, 'module': 'self_attn.k_proj', 'loss': '2.18536', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.667'}, {'layer': 31, 'module': 'self_attn.v_proj', 'loss': '1.97777', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.667'}, {'layer': 31, 'module': 'self_attn.q_proj', 'loss': '8.18490', 'damp': '0.10000', 'time': '1.453', 'fwd_time': '180.667'}, {'layer': 31, 'module': 'self_attn.o_proj', 'loss': '4.57464', 'damp': '0.10000', 'time': '1.462', 'fwd_time': '179.678'}, {'layer': 31, 'module': 'mlp.up_proj', 'loss': '35.59037', 'damp': '0.10000', 'time': '2.315', 'fwd_time': '180.072'}, {'layer': 31, 'module': 'mlp.gate_proj', 'loss': '35.25336', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.072'}, {'layer': 31, 'module': 'mlp.down_proj', 'loss': '10.93689', 'damp': '0.10000', 'time': '11.025', 'fwd_time': '194.621'}, {'layer': 32, 'module': 'self_attn.k_proj', 'loss': '2.10946', 'damp': '0.10000', 'time': '1.316', 'fwd_time': '180.689'}, {'layer': 32, 'module': 'self_attn.v_proj', 'loss': '1.52154', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.689'}, {'layer': 32, 'module': 'self_attn.q_proj', 'loss': '7.29806', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.689'}, {'layer': 32, 'module': 'self_attn.o_proj', 'loss': '4.84362', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.669'}, {'layer': 32, 'module': 'mlp.up_proj', 'loss': '39.63444', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '180.155'}, {'layer': 32, 'module': 'mlp.gate_proj', 'loss': '41.30604', 'damp': '0.10000', 'time': '2.348', 'fwd_time': '180.155'}, {'layer': 32, 'module': 'mlp.down_proj', 'loss': '10.75069', 'damp': '0.10000', 'time': '10.995', 'fwd_time': '194.617'}, {'layer': 33, 'module': 'self_attn.k_proj', 'loss': '2.25656', 'damp': '0.10000', 'time': '1.310', 'fwd_time': '180.567'}, {'layer': 33, 'module': 'self_attn.v_proj', 'loss': '1.63852', 'damp': '0.10000', 'time': '1.295', 'fwd_time': '180.567'}, {'layer': 33, 'module': 'self_attn.q_proj', 'loss': '8.25086', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.567'}, {'layer': 33, 'module': 'self_attn.o_proj', 'loss': '4.94513', 'damp': '0.10000', 'time': '1.472', 'fwd_time': '179.621'}, {'layer': 33, 'module': 'mlp.up_proj', 'loss': '37.36087', 'damp': '0.10000', 'time': '2.379', 'fwd_time': '180.088'}, {'layer': 33, 'module': 'mlp.gate_proj', 'loss': '38.17615', 'damp': '0.10000', 'time': '2.323', 'fwd_time': '180.088'}, {'layer': 33, 'module': 'mlp.down_proj', 'loss': '10.10525', 'damp': '0.10000', 'time': '11.033', 'fwd_time': '194.652'}, {'layer': 34, 'module': 'self_attn.k_proj', 'loss': '2.18897', 'damp': '0.10000', 'time': '1.315', 'fwd_time': '180.776'}, {'layer': 34, 'module': 'self_attn.v_proj', 'loss': '1.79533', 'damp': '0.10000', 'time': '1.352', 'fwd_time': '180.776'}, {'layer': 34, 'module': 'self_attn.q_proj', 'loss': '8.13230', 'damp': '0.10000', 'time': '1.478', 'fwd_time': '180.776'}, {'layer': 34, 'module': 'self_attn.o_proj', 'loss': '6.20360', 'damp': '0.10000', 'time': '1.480', 'fwd_time': '179.655'}, {'layer': 34, 'module': 'mlp.up_proj', 'loss': '36.49163', 'damp': '0.10000', 'time': '2.371', 'fwd_time': '180.149'}, {'layer': 34, 'module': 'mlp.gate_proj', 'loss': '36.59039', 'damp': '0.10000', 'time': '2.332', 'fwd_time': '180.149'}, {'layer': 34, 'module': 'mlp.down_proj', 'loss': '10.11572', 'damp': '0.10000', 'time': '11.043', 'fwd_time': '194.593'}, {'layer': 35, 'module': 'self_attn.k_proj', 'loss': '2.29760', 'damp': '0.10000', 'time': '1.313', 'fwd_time': '180.746'}, {'layer': 35, 'module': 'self_attn.v_proj', 'loss': '1.81589', 'damp': '0.10000', 'time': '1.341', 'fwd_time': '180.746'}, {'layer': 35, 'module': 'self_attn.q_proj', 'loss': '9.18513', 'damp': '0.10000', 'time': '1.500', 'fwd_time': '180.746'}, {'layer': 35, 'module': 'self_attn.o_proj', 'loss': '4.96898', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '179.650'}, {'layer': 35, 'module': 'mlp.up_proj', 'loss': '37.04196', 'damp': '0.10000', 'time': '2.301', 'fwd_time': '180.059'}, {'layer': 35, 'module': 'mlp.gate_proj', 'loss': '36.97671', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '180.059'}, {'layer': 35, 'module': 'mlp.down_proj', 'loss': '10.21576', 'damp': '0.10000', 'time': '10.956', 'fwd_time': '194.511'}, {'layer': 36, 'module': 'self_attn.k_proj', 'loss': '2.35134', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '180.704'}, {'layer': 36, 'module': 'self_attn.v_proj', 'loss': '1.76898', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.704'}, {'layer': 36, 'module': 'self_attn.q_proj', 'loss': '8.95750', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.704'}, {'layer': 36, 'module': 'self_attn.o_proj', 'loss': '6.40625', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.611'}, {'layer': 36, 'module': 'mlp.up_proj', 'loss': '35.14434', 'damp': '0.10000', 'time': '2.283', 'fwd_time': '180.017'}, {'layer': 36, 'module': 'mlp.gate_proj', 'loss': '33.75306', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.017'}, {'layer': 36, 'module': 'mlp.down_proj', 'loss': '10.16060', 'damp': '0.10000', 'time': '10.978', 'fwd_time': '194.454'}, {'layer': 37, 'module': 'self_attn.k_proj', 'loss': '2.09853', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.895'}, {'layer': 37, 'module': 'self_attn.v_proj', 'loss': '1.62890', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.895'}, {'layer': 37, 'module': 'self_attn.q_proj', 'loss': '7.87804', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.895'}, {'layer': 37, 'module': 'self_attn.o_proj', 'loss': '5.14967', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.642'}, {'layer': 37, 'module': 'mlp.up_proj', 'loss': '34.78158', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.039'}, {'layer': 37, 'module': 'mlp.gate_proj', 'loss': '33.21568', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.039'}, {'layer': 37, 'module': 'mlp.down_proj', 'loss': '9.65291', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.502'}, {'layer': 38, 'module': 'self_attn.k_proj', 'loss': '2.25152', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.605'}, {'layer': 38, 'module': 'self_attn.v_proj', 'loss': '2.25329', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.605'}, {'layer': 38, 'module': 'self_attn.q_proj', 'loss': '8.57306', 'damp': '0.10000', 'time': '1.440', 'fwd_time': '180.605'}, {'layer': 38, 'module': 'self_attn.o_proj', 'loss': '5.87199', 'damp': '0.10000', 'time': '1.461', 'fwd_time': '179.558'}, {'layer': 38, 'module': 'mlp.up_proj', 'loss': '35.01609', 'damp': '0.10000', 'time': '2.377', 'fwd_time': '180.077'}, {'layer': 38, 'module': 'mlp.gate_proj', 'loss': '33.53525', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.077'}, {'layer': 38, 'module': 'mlp.down_proj', 'loss': '10.37327', 'damp': '0.10000', 'time': '10.891', 'fwd_time': '194.470'}, {'layer': 39, 'module': 'self_attn.k_proj', 'loss': '2.06724', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'}, {'layer': 39, 'module': 'self_attn.v_proj', 'loss': '2.29155', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.626'}, {'layer': 39, 'module': 'self_attn.q_proj', 'loss': '8.40444', 'damp': '0.10000', 'time': '1.458', 'fwd_time': '180.626'}, {'layer': 39, 'module': 'self_attn.o_proj', 'loss': '6.23639', 'damp': '0.10000', 'time': '1.498', 'fwd_time': '179.668'}, {'layer': 39, 'module': 'mlp.up_proj', 'loss': '35.45480', 'damp': '0.10000', 'time': '2.320', 'fwd_time': '180.061'}, {'layer': 39, 'module': 'mlp.gate_proj', 'loss': '35.16239', 'damp': '0.10000', 'time': '2.309', 'fwd_time': '180.061'}, {'layer': 39, 'module': 'mlp.down_proj', 'loss': '10.17532', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.559'}, {'layer': 40, 'module': 'self_attn.k_proj', 'loss': '2.55298', 'damp': '0.10000', 'time': '1.353', 'fwd_time': '180.736'}, {'layer': 40, 'module': 'self_attn.v_proj', 'loss': '2.03756', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.736'}, {'layer': 40, 'module': 'self_attn.q_proj', 'loss': '9.32236', 'damp': '0.10000', 'time': '1.463', 'fwd_time': '180.736'}, {'layer': 40, 'module': 'self_attn.o_proj', 'loss': '7.15637', 'damp': '0.10000', 'time': '1.471', 'fwd_time': '179.673'}, {'layer': 40, 'module': 'mlp.up_proj', 'loss': '34.27767', 'damp': '0.10000', 'time': '2.325', 'fwd_time': '179.916'}, {'layer': 40, 'module': 'mlp.gate_proj', 'loss': '33.71945', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '179.916'}, {'layer': 40, 'module': 'mlp.down_proj', 'loss': '9.93580', 'damp': '0.10000', 'time': '11.038', 'fwd_time': '194.355'}, {'layer': 41, 'module': 'self_attn.k_proj', 'loss': '2.58491', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '182.811'}, {'layer': 41, 'module': 'self_attn.v_proj', 'loss': '2.53599', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '182.811'}, {'layer': 41, 'module': 'self_attn.q_proj', 'loss': '10.17238', 'damp': '0.10000', 'time': '1.443', 'fwd_time': '182.811'}, {'layer': 41, 'module': 'self_attn.o_proj', 'loss': '7.04449', 'damp': '0.10000', 'time': '1.450', 'fwd_time': '179.564'}, {'layer': 41, 'module': 'mlp.up_proj', 'loss': '35.32753', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.086'}, {'layer': 41, 'module': 'mlp.gate_proj', 'loss': '33.75855', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.086'}, {'layer': 41, 'module': 'mlp.down_proj', 'loss': '11.40161', 'damp': '0.10000', 'time': '10.972', 'fwd_time': '194.378'}, {'layer': 42, 'module': 'self_attn.k_proj', 'loss': '2.35824', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.626'}, {'layer': 42, 'module': 'self_attn.v_proj', 'loss': '1.72195', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.626'}, {'layer': 42, 'module': 'self_attn.q_proj', 'loss': '9.03940', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.626'}, {'layer': 42, 'module': 'self_attn.o_proj', 'loss': '6.03776', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.586'}, {'layer': 42, 'module': 'mlp.up_proj', 'loss': '37.64269', 'damp': '0.10000', 'time': '2.303', 'fwd_time': '180.052'}, {'layer': 42, 'module': 'mlp.gate_proj', 'loss': '35.07131', 'damp': '0.10000', 'time': '2.304', 'fwd_time': '180.052'}, {'layer': 42, 'module': 'mlp.down_proj', 'loss': '13.06790', 'damp': '0.10000', 'time': '10.952', 'fwd_time': '194.323'}, {'layer': 43, 'module': 'self_attn.k_proj', 'loss': '2.28732', 'damp': '0.10000', 'time': '1.300', 'fwd_time': '180.716'}, {'layer': 43, 'module': 'self_attn.v_proj', 'loss': '1.95555', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.716'}, {'layer': 43, 'module': 'self_attn.q_proj', 'loss': '8.47664', 'damp': '0.10000', 'time': '1.451', 'fwd_time': '180.716'}, {'layer': 43, 'module': 'self_attn.o_proj', 'loss': '8.52545', 'damp': '0.10000', 'time': '1.460', 'fwd_time': '179.701'}, {'layer': 43, 'module': 'mlp.up_proj', 'loss': '39.51856', 'damp': '0.10000', 'time': '2.327', 'fwd_time': '180.046'}, {'layer': 43, 'module': 'mlp.gate_proj', 'loss': '36.65776', 'damp': '0.10000', 'time': '2.308', 'fwd_time': '180.046'}, {'layer': 43, 'module': 'mlp.down_proj', 'loss': '16.02491', 'damp': '0.10000', 'time': '11.016', 'fwd_time': '194.344'}, {'layer': 44, 'module': 'self_attn.k_proj', 'loss': '1.93263', 'damp': '0.10000', 'time': '1.304', 'fwd_time': '180.616'}, {'layer': 44, 'module': 'self_attn.v_proj', 'loss': '2.67497', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.616'}, {'layer': 44, 'module': 'self_attn.q_proj', 'loss': '8.30756', 'damp': '0.10000', 'time': '1.441', 'fwd_time': '180.616'}, {'layer': 44, 'module': 'self_attn.o_proj', 'loss': '9.71007', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '179.635'}, {'layer': 44, 'module': 'mlp.up_proj', 'loss': '39.93449', 'damp': '0.10000', 'time': '2.340', 'fwd_time': '180.023'}, {'layer': 44, 'module': 'mlp.gate_proj', 'loss': '36.77854', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.023'}, {'layer': 44, 'module': 'mlp.down_proj', 'loss': '16.62127', 'damp': '0.10000', 'time': '11.042', 'fwd_time': '194.590'}, {'layer': 45, 'module': 'self_attn.k_proj', 'loss': '2.33465', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.694'}, {'layer': 45, 'module': 'self_attn.v_proj', 'loss': '2.81778', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.694'}, {'layer': 45, 'module': 'self_attn.q_proj', 'loss': '9.41949', 'damp': '0.10000', 'time': '1.457', 'fwd_time': '180.694'}, {'layer': 45, 'module': 'self_attn.o_proj', 'loss': '12.23259', 'damp': '0.10000', 'time': '1.454', 'fwd_time': '179.583'}, {'layer': 45, 'module': 'mlp.up_proj', 'loss': '41.66721', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '180.015'}, {'layer': 45, 'module': 'mlp.gate_proj', 'loss': '38.44549', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.015'}, {'layer': 45, 'module': 'mlp.down_proj', 'loss': '18.68768', 'damp': '0.10000', 'time': '10.922', 'fwd_time': '194.533'}, {'layer': 46, 'module': 'self_attn.k_proj', 'loss': '2.13504', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'}, {'layer': 46, 'module': 'self_attn.v_proj', 'loss': '3.00420', 'damp': '0.10000', 'time': '1.302', 'fwd_time': '180.723'}, {'layer': 46, 'module': 'self_attn.q_proj', 'loss': '8.96905', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.723'}, {'layer': 46, 'module': 'self_attn.o_proj', 'loss': '14.64149', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '179.635'}, {'layer': 46, 'module': 'mlp.up_proj', 'loss': '44.77886', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.021'}, {'layer': 46, 'module': 'mlp.gate_proj', 'loss': '41.66031', 'damp': '0.10000', 'time': '2.286', 'fwd_time': '180.021'}, {'layer': 46, 'module': 'mlp.down_proj', 'loss': '22.01645', 'damp': '0.10000', 'time': '10.905', 'fwd_time': '194.516'}, {'layer': 47, 'module': 'self_attn.k_proj', 'loss': '2.24537', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.710'}, {'layer': 47, 'module': 'self_attn.v_proj', 'loss': '2.84377', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.710'}, {'layer': 47, 'module': 'self_attn.q_proj', 'loss': '9.31574', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.710'}, {'layer': 47, 'module': 'self_attn.o_proj', 'loss': '10.03240', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.660'}, {'layer': 47, 'module': 'mlp.up_proj', 'loss': '50.59407', 'damp': '0.10000', 'time': '2.298', 'fwd_time': '180.042'}, {'layer': 47, 'module': 'mlp.gate_proj', 'loss': '47.86652', 'damp': '0.10000', 'time': '2.293', 'fwd_time': '180.042'}, {'layer': 47, 'module': 'mlp.down_proj', 'loss': '26.41652', 'damp': '0.10000', 'time': '10.946', 'fwd_time': '194.429'}, {'layer': 48, 'module': 'self_attn.k_proj', 'loss': '2.44420', 'damp': '0.10000', 'time': '1.303', 'fwd_time': '180.642'}, {'layer': 48, 'module': 'self_attn.v_proj', 'loss': '3.79191', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.642'}, {'layer': 48, 'module': 'self_attn.q_proj', 'loss': '10.23924', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '180.642'}, {'layer': 48, 'module': 'self_attn.o_proj', 'loss': '12.53692', 'damp': '0.10000', 'time': '1.577', 'fwd_time': '179.616'}, {'layer': 48, 'module': 'mlp.up_proj', 'loss': '55.46630', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'}, {'layer': 48, 'module': 'mlp.gate_proj', 'loss': '53.09388', 'damp': '0.10000', 'time': '2.330', 'fwd_time': '180.062'}, {'layer': 48, 'module': 'mlp.down_proj', 'loss': '30.89529', 'damp': '0.10000', 'time': '10.949', 'fwd_time': '194.562'}, {'layer': 49, 'module': 'self_attn.k_proj', 'loss': '2.52239', 'damp': '0.10000', 'time': '1.298', 'fwd_time': '180.647'}, {'layer': 49, 'module': 'self_attn.v_proj', 'loss': '3.65270', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.647'}, {'layer': 49, 'module': 'self_attn.q_proj', 'loss': '10.91024', 'damp': '0.10000', 'time': '1.455', 'fwd_time': '180.647'}, {'layer': 49, 'module': 'self_attn.o_proj', 'loss': '14.26922', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.595'}, {'layer': 49, 'module': 'mlp.up_proj', 'loss': '66.36527', 'damp': '0.10000', 'time': '2.305', 'fwd_time': '179.994'}, {'layer': 49, 'module': 'mlp.gate_proj', 'loss': '64.04491', 'damp': '0.10000', 'time': '2.290', 'fwd_time': '179.994'}, {'layer': 49, 'module': 'mlp.down_proj', 'loss': '43.17512', 'damp': '0.10000', 'time': '10.985', 'fwd_time': '194.529'}, {'layer': 50, 'module': 'self_attn.k_proj', 'loss': '2.66782', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.563'}, {'layer': 50, 'module': 'self_attn.v_proj', 'loss': '4.38692', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.563'}, {'layer': 50, 'module': 'self_attn.q_proj', 'loss': '11.92033', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.563'}, {'layer': 50, 'module': 'self_attn.o_proj', 'loss': '11.55887', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.510'}, {'layer': 50, 'module': 'mlp.up_proj', 'loss': '76.91088', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '179.967'}, {'layer': 50, 'module': 'mlp.gate_proj', 'loss': '76.20550', 'damp': '0.10000', 'time': '2.302', 'fwd_time': '179.967'}, {'layer': 50, 'module': 'mlp.down_proj', 'loss': '49.31875', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.503'}, {'layer': 51, 'module': 'self_attn.k_proj', 'loss': '2.71374', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '181.482'}, {'layer': 51, 'module': 'self_attn.v_proj', 'loss': '3.84296', 'damp': '0.10000', 'time': '1.306', 'fwd_time': '181.482'}, {'layer': 51, 'module': 'self_attn.q_proj', 'loss': '11.35158', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '181.482'}, {'layer': 51, 'module': 'self_attn.o_proj', 'loss': '21.91198', 'damp': '0.10000', 'time': '1.449', 'fwd_time': '179.641'}, {'layer': 51, 'module': 'mlp.up_proj', 'loss': '85.67807', 'damp': '0.10000', 'time': '2.291', 'fwd_time': '180.082'}, {'layer': 51, 'module': 'mlp.gate_proj', 'loss': '86.28110', 'damp': '0.10000', 'time': '2.314', 'fwd_time': '180.082'}, {'layer': 51, 'module': 'mlp.down_proj', 'loss': '57.13311', 'damp': '0.10000', 'time': '10.955', 'fwd_time': '194.350'}, {'layer': 52, 'module': 'self_attn.k_proj', 'loss': '2.95962', 'damp': '0.10000', 'time': '1.308', 'fwd_time': '180.684'}, {'layer': 52, 'module': 'self_attn.v_proj', 'loss': '6.29919', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.684'}, {'layer': 52, 'module': 'self_attn.q_proj', 'loss': '13.32253', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '180.684'}, {'layer': 52, 'module': 'self_attn.o_proj', 'loss': '17.50098', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.625'}, {'layer': 52, 'module': 'mlp.up_proj', 'loss': '93.98927', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.075'}, {'layer': 52, 'module': 'mlp.gate_proj', 'loss': '94.03600', 'damp': '0.10000', 'time': '2.299', 'fwd_time': '180.075'}, {'layer': 52, 'module': 'mlp.down_proj', 'loss': '66.89360', 'damp': '0.10000', 'time': '10.940', 'fwd_time': '194.547'}, {'layer': 53, 'module': 'self_attn.k_proj', 'loss': '3.41568', 'damp': '0.10000', 'time': '1.307', 'fwd_time': '180.720'}, {'layer': 53, 'module': 'self_attn.v_proj', 'loss': '6.68261', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.720'}, {'layer': 53, 'module': 'self_attn.q_proj', 'loss': '14.38581', 'damp': '0.10000', 'time': '1.444', 'fwd_time': '180.720'}, {'layer': 53, 'module': 'self_attn.o_proj', 'loss': '20.21694', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.585'}, {'layer': 53, 'module': 'mlp.up_proj', 'loss': '104.72342', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '180.071'}, {'layer': 53, 'module': 'mlp.gate_proj', 'loss': '105.06948', 'damp': '0.10000', 'time': '2.329', 'fwd_time': '180.071'}, {'layer': 53, 'module': 'mlp.down_proj', 'loss': '75.09118', 'damp': '0.10000', 'time': '10.924', 'fwd_time': '194.528'}, {'layer': 54, 'module': 'self_attn.k_proj', 'loss': '3.36520', 'damp': '0.10000', 'time': '1.305', 'fwd_time': '180.724'}, {'layer': 54, 'module': 'self_attn.v_proj', 'loss': '6.15906', 'damp': '0.10000', 'time': '1.284', 'fwd_time': '180.724'}, {'layer': 54, 'module': 'self_attn.q_proj', 'loss': '14.19391', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '180.724'}, {'layer': 54, 'module': 'self_attn.o_proj', 'loss': '17.05255', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '179.625'}, {'layer': 54, 'module': 'mlp.up_proj', 'loss': '116.01665', 'damp': '0.10000', 'time': '2.269', 'fwd_time': '179.932'}, {'layer': 54, 'module': 'mlp.gate_proj', 'loss': '115.23258', 'damp': '0.10000', 'time': '2.277', 'fwd_time': '179.932'}, {'layer': 54, 'module': 'mlp.down_proj', 'loss': '81.21964', 'damp': '0.10000', 'time': '10.906', 'fwd_time': '194.418'}, {'layer': 55, 'module': 'self_attn.k_proj', 'loss': '3.17986', 'damp': '0.10000', 'time': '1.309', 'fwd_time': '180.614'}, {'layer': 55, 'module': 'self_attn.v_proj', 'loss': '6.37354', 'damp': '0.10000', 'time': '1.322', 'fwd_time': '180.614'}, {'layer': 55, 'module': 'self_attn.q_proj', 'loss': '14.36818', 'damp': '0.10000', 'time': '1.448', 'fwd_time': '180.614'}, {'layer': 55, 'module': 'self_attn.o_proj', 'loss': '23.59741', 'damp': '0.10000', 'time': '1.465', 'fwd_time': '179.590'}, {'layer': 55, 'module': 'mlp.up_proj', 'loss': '127.39666', 'damp': '0.10000', 'time': '2.319', 'fwd_time': '180.035'}, {'layer': 55, 'module': 'mlp.gate_proj', 'loss': '124.96896', 'damp': '0.10000', 'time': '2.297', 'fwd_time': '180.035'}, {'layer': 55, 'module': 'mlp.down_proj', 'loss': '95.18001', 'damp': '0.10000', 'time': '10.959', 'fwd_time': '194.525'}, {'layer': 56, 'module': 'self_attn.k_proj', 'loss': '3.51710', 'damp': '0.10000', 'time': '1.301', 'fwd_time': '180.578'}, {'layer': 56, 'module': 'self_attn.v_proj', 'loss': '8.92079', 'damp': '0.10000', 'time': '1.299', 'fwd_time': '180.578'}, {'layer': 56, 'module': 'self_attn.q_proj', 'loss': '15.57063', 'damp': '0.10000', 'time': '1.439', 'fwd_time': '180.578'}, {'layer': 56, 'module': 'self_attn.o_proj', 'loss': '18.93305', 'damp': '0.10000', 'time': '1.445', 'fwd_time': '179.618'}, {'layer': 56, 'module': 'mlp.up_proj', 'loss': '137.50682', 'damp': '0.10000', 'time': '2.292', 'fwd_time': '180.052'}, {'layer': 56, 'module': 'mlp.gate_proj', 'loss': '133.82163', 'damp': '0.10000', 'time': '2.294', 'fwd_time': '180.052'}, {'layer': 56, 'module': 'mlp.down_proj', 'loss': '104.22985', 'damp': '0.10000', 'time': '10.929', 'fwd_time': '194.535'}, {'layer': 57, 'module': 'self_attn.k_proj', 'loss': '3.39507', 'damp': '0.10000', 'time': '1.297', 'fwd_time': '180.633'}, {'layer': 57, 'module': 'self_attn.v_proj', 'loss': '9.25974', 'damp': '0.10000', 'time': '1.283', 'fwd_time': '180.633'}, {'layer': 57, 'module': 'self_attn.q_proj', 'loss': '16.10579', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.633'}, {'layer': 57, 'module': 'self_attn.o_proj', 'loss': '14.65038', 'damp': '0.10000', 'time': '1.442', 'fwd_time': '179.609'}, {'layer': 57, 'module': 'mlp.up_proj', 'loss': '146.27147', 'damp': '0.10000', 'time': '2.271', 'fwd_time': '180.001'}, {'layer': 57, 'module': 'mlp.gate_proj', 'loss': '140.22373', 'damp': '0.10000', 'time': '2.270', 'fwd_time': '180.001'}, {'layer': 57, 'module': 'mlp.down_proj', 'loss': '114.18199', 'damp': '0.10000', 'time': '11.026', 'fwd_time': '194.483'}, {'layer': 58, 'module': 'self_attn.k_proj', 'loss': '3.59921', 'damp': '0.10000', 'time': '1.293', 'fwd_time': '180.761'}, {'layer': 58, 'module': 'self_attn.v_proj', 'loss': '10.66743', 'damp': '0.10000', 'time': '1.291', 'fwd_time': '180.761'}, {'layer': 58, 'module': 'self_attn.q_proj', 'loss': '15.81635', 'damp': '0.10000', 'time': '1.438', 'fwd_time': '180.761'}, {'layer': 58, 'module': 'self_attn.o_proj', 'loss': '15.86379', 'damp': '0.10000', 'time': '1.510', 'fwd_time': '179.620'}, {'layer': 58, 'module': 'mlp.up_proj', 'loss': '158.08565', 'damp': '0.10000', 'time': '2.279', 'fwd_time': '180.014'}, {'layer': 58, 'module': 'mlp.gate_proj', 'loss': '149.25287', 'damp': '0.10000', 'time': '2.345', 'fwd_time': '180.014'}, {'layer': 58, 'module': 'mlp.down_proj', 'loss': '137.70841', 'damp': '0.10000', 'time': '10.935', 'fwd_time': '194.487'}, {'layer': 59, 'module': 'self_attn.k_proj', 'loss': '3.67538', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.754'}, {'layer': 59, 'module': 'self_attn.v_proj', 'loss': '14.46169', 'damp': '0.10000', 'time': '1.289', 'fwd_time': '180.754'}, {'layer': 59, 'module': 'self_attn.q_proj', 'loss': '18.15292', 'damp': '0.10000', 'time': '1.437', 'fwd_time': '180.754'}, {'layer': 59, 'module': 'self_attn.o_proj', 'loss': '37.87932', 'damp': '0.10000', 'time': '1.452', 'fwd_time': '179.615'}, {'layer': 59, 'module': 'mlp.up_proj', 'loss': '175.38797', 'damp': '0.10000', 'time': '2.328', 'fwd_time': '180.052'}, {'layer': 59, 'module': 'mlp.gate_proj', 'loss': '162.44526', 'damp': '0.10000', 'time': '2.331', 'fwd_time': '180.052'}, {'layer': 59, 'module': 'mlp.down_proj', 'loss': '179.52118', 'damp': '0.10000', 'time': '10.903', 'fwd_time': '194.595'}, {'layer': 60, 'module': 'self_attn.k_proj', 'loss': '3.14580', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.662'}, {'layer': 60, 'module': 'self_attn.v_proj', 'loss': '15.64041', 'damp': '0.10000', 'time': '1.286', 'fwd_time': '180.662'}, {'layer': 60, 'module': 'self_attn.q_proj', 'loss': '17.17400', 'damp': '0.10000', 'time': '1.446', 'fwd_time': '180.662'}, {'layer': 60, 'module': 'self_attn.o_proj', 'loss': '47.29679', 'damp': '0.10000', 'time': '1.456', 'fwd_time': '179.653'}, {'layer': 60, 'module': 'mlp.up_proj', 'loss': '191.12323', 'damp': '0.10000', 'time': '2.287', 'fwd_time': '180.117'}, {'layer': 60, 'module': 'mlp.gate_proj', 'loss': '173.92417', 'damp': '0.10000', 'time': '2.289', 'fwd_time': '180.117'}, {'layer': 60, 'module': 'mlp.down_proj', 'loss': '381.57719', 'damp': '0.10000', 'time': '10.930', 'fwd_time': '194.374'}, {'layer': 61, 'module': 'self_attn.k_proj', 'loss': '3.22560', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.663'}, {'layer': 61, 'module': 'self_attn.v_proj', 'loss': '19.75692', 'damp': '0.10000', 'time': '1.285', 'fwd_time': '180.663'}, {'layer': 61, 'module': 'self_attn.q_proj', 'loss': '17.35482', 'damp': '0.10000', 'time': '1.435', 'fwd_time': '180.663'}, {'layer': 61, 'module': 'self_attn.o_proj', 'loss': '57.58032', 'damp': '0.10000', 'time': '1.433', 'fwd_time': '179.432'}, {'layer': 61, 'module': 'mlp.up_proj', 'loss': '205.42150', 'damp': '0.10000', 'time': '2.284', 'fwd_time': '179.905'}, {'layer': 61, 'module': 'mlp.gate_proj', 'loss': '187.30222', 'damp': '0.10000', 'time': '2.273', 'fwd_time': '179.905'}, {'layer': 61, 'module': 'mlp.down_proj', 'loss': '321.43789', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.398'}, {'layer': 62, 'module': 'self_attn.k_proj', 'loss': '3.10699', 'damp': '0.10000', 'time': '1.294', 'fwd_time': '180.628'}, {'layer': 62, 'module': 'self_attn.v_proj', 'loss': '22.59203', 'damp': '0.10000', 'time': '1.292', 'fwd_time': '180.628'}, {'layer': 62, 'module': 'self_attn.q_proj', 'loss': '17.16475', 'damp': '0.10000', 'time': '1.436', 'fwd_time': '180.628'}, {'layer': 62, 'module': 'self_attn.o_proj', 'loss': '82.21398', 'damp': '0.10000', 'time': '1.428', 'fwd_time': '179.517'}, {'layer': 62, 'module': 'mlp.up_proj', 'loss': '205.27777', 'damp': '0.10000', 'time': '2.263', 'fwd_time': '179.917'}, {'layer': 62, 'module': 'mlp.gate_proj', 'loss': '191.64138', 'damp': '0.10000', 'time': '2.267', 'fwd_time': '179.917'}, {'layer': 62, 'module': 'mlp.down_proj', 'loss': '544.66563', 'damp': '0.10000', 'time': '10.971', 'fwd_time': '194.511'}, {'layer': 63, 'module': 'self_attn.k_proj', 'loss': '2.77712', 'damp': '0.10000', 'time': '1.279', 'fwd_time': '180.354'}, {'layer': 63, 'module': 'self_attn.v_proj', 'loss': '14.33761', 'damp': '0.10000', 'time': '1.287', 'fwd_time': '180.354'}, {'layer': 63, 'module': 'self_attn.q_proj', 'loss': '12.67621', 'damp': '0.10000', 'time': '1.430', 'fwd_time': '180.354'}, {'layer': 63, 'module': 'self_attn.o_proj', 'loss': '35.30698', 'damp': '0.10000', 'time': '1.494', 'fwd_time': '179.569'}, {'layer': 63, 'module': 'mlp.up_proj', 'loss': '221.10228', 'damp': '0.10000', 'time': '2.296', 'fwd_time': '179.977'}, {'layer': 63, 'module': 'mlp.gate_proj', 'loss': '213.36907', 'damp': '0.10000', 'time': '2.307', 'fwd_time': '179.977'}, {'layer': 63, 'module': 'mlp.down_proj', 'loss': '877.11320', 'damp': '0.10000', 'time': '10.990', 'fwd_time': '194.567'}]
In [20]:
model.save_quantized("FuseAI-Flash-merge-32B_GPTQ-4q32g")
INFO - Pre-Quantized model size: 62492.22MB, 61.03GB INFO - Quantized model size: 20191.62MB, 19.72GB INFO - Size difference: 42300.60MB, 41.31GB - 67.69%
In [21]:
source_tokenizer.save_pretrained("FuseAI-Flash-merge-32B_GPTQ-4q32g")
Out[21]:
('FuseAI-Flash-merge-32B_GPTQ-4q32g/tokenizer_config.json', 'FuseAI-Flash-merge-32B_GPTQ-4q32g/special_tokens_map.json', 'FuseAI-Flash-merge-32B_GPTQ-4q32g/tokenizer.json')
Base model¶
In [9]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
source_model_id = "FuseAI-Flash-merge-32B_GPTQ-4q32g"
device_map = "auto"
max_memory = {0:"24GiB", 1: "24GiB"}
model = AutoModelForCausalLM.from_pretrained(
source_model_id,
attn_implementation="flash_attention_2",
torch_dtype=torch.float16,
device_map=device_map,
max_memory=max_memory
)
model
/home/mmv/dev/AutoGPTQ/auto_gptq/nn_modules/triton_utils/kernels.py:410: FutureWarning: `torch.cuda.amp.custom_fwd(args...)` is deprecated. Please use `torch.amp.custom_fwd(args..., device_type='cuda')` instead. @custom_fwd /home/mmv/dev/AutoGPTQ/auto_gptq/nn_modules/triton_utils/kernels.py:418: FutureWarning: `torch.cuda.amp.custom_bwd(args...)` is deprecated. Please use `torch.amp.custom_bwd(args..., device_type='cuda')` instead. @custom_bwd /home/mmv/dev/AutoGPTQ/auto_gptq/nn_modules/triton_utils/kernels.py:461: FutureWarning: `torch.cuda.amp.custom_fwd(args...)` is deprecated. Please use `torch.amp.custom_fwd(args..., device_type='cuda')` instead. @custom_fwd(cast_inputs=torch.float16) `loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.
Out[9]:
Qwen2ForCausalLM( (model): Qwen2Model( (embed_tokens): Embedding(152064, 5120) (layers): ModuleList( (0-63): 64 x Qwen2DecoderLayer( (self_attn): Qwen2Attention( (k_proj): QuantLinear() (o_proj): QuantLinear() (q_proj): QuantLinear() (v_proj): QuantLinear() ) (mlp): Qwen2MLP( (act_fn): SiLU() (down_proj): QuantLinear() (gate_proj): QuantLinear() (up_proj): QuantLinear() ) (input_layernorm): Qwen2RMSNorm((5120,), eps=1e-05) (post_attention_layernorm): Qwen2RMSNorm((5120,), eps=1e-05) ) ) (norm): Qwen2RMSNorm((5120,), eps=1e-05) (rotary_emb): Qwen2RotaryEmbedding() ) (lm_head): Linear(in_features=5120, out_features=152064, bias=False) )
In [10]:
from transformers import AutoTokenizer
source_tokenizer = AutoTokenizer.from_pretrained(source_model_id)
source_tokenizer
Out[10]:
LlamaTokenizerFast(name_or_path='FuseAI-Flash-merge-32B_GPTQ-4q32g', vocab_size=151643, model_max_length=16384, is_fast=True, padding_side='left', truncation_side='right', special_tokens={'bos_token': '<|begin▁of▁sentence|>', 'eos_token': '<|end▁of▁sentence|>', 'pad_token': '<|end▁of▁sentence|>'}, clean_up_tokenization_spaces=False, added_tokens_decoder={ 151643: AddedToken("<|end▁of▁sentence|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151644: AddedToken("<|User|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151645: AddedToken("<|Assistant|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151646: AddedToken("<|begin▁of▁sentence|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151647: AddedToken("<|EOT|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151648: AddedToken("<think>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151649: AddedToken("</think>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151650: AddedToken("<|quad_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151651: AddedToken("<|quad_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151652: AddedToken("<|vision_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151653: AddedToken("<|vision_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151654: AddedToken("<|vision_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151655: AddedToken("<|image_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151656: AddedToken("<|video_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 151657: AddedToken("<tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151658: AddedToken("</tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151659: AddedToken("<|fim_prefix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151660: AddedToken("<|fim_middle|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151661: AddedToken("<|fim_suffix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151662: AddedToken("<|fim_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151663: AddedToken("<|repo_name|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), 151664: AddedToken("<|file_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False), } )
In [5]:
%%time
prompt = "Write quick sort on python"
messages = [
{"role": "user", "content": prompt}
]
text = source_tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
print(text)
model_inputs = source_tokenizer([text], return_tensors="pt").to(model.device)
with torch.inference_mode():
generated_ids = model.generate(
**model_inputs,
max_new_tokens=128
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = source_tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.
<|begin▁of▁sentence|><|User|>Write quick sort on python<|Assistant|> <think> Okay, I need to write a quick sort algorithm in Python. Hmm, I remember that quick sort is a divide-and-conquer algorithm. So, the basic idea is to pick a pivot element and partition the array around it, then recursively sort the subarrays. Wait, how do I choose the pivot? Oh right, there are different strategies. For simplicity, maybe I'll just pick the last element as the pivot each time. That seems straightforward. So, first, I'll write a function called quick_sort that takes an array as input. Then, I'll handle the base case: if the array has one or zero CPU times: user 27.2 s, sys: 26.6 ms, total: 27.2 s Wall time: 27.1 s
In [11]:
%%time
prompt = "Напиши рассказ про достопримечательности Москвы используя Python"
messages = [
{"role": "user", "content": prompt}
]
text = source_tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
print(text)
model_inputs = source_tokenizer([text], return_tensors="pt").to(model.device)
with torch.inference_mode():
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4*1024
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = source_tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.
<|begin▁of▁sentence|><|User|>Напиши рассказ про достопримечательности Москвы используя Python<|Assistant|> <think> Хорошо, мне нужно написать рассказ о достопримечательностях Москвы, используя Python. Сначала подумаю, как лучше это сделать. Возможно, стоит использовать функции для вывода информации о разных местах. Начну с основного списка достопримечательностей: Красная площадь, Кремль, Белый дом, Арбат, Третьяковская галерея, Зоопарк, Парк Победы и Музей космонавтики. Это основные места, которые обычно включают в такие рассказы. Теперь подумаю, как структурировать программу. Может быть, создать функцию, которая выводит заголовок, и отдельные функции для каждой достопримечательности, описывающие их. Или, возможно, использовать цикл, чтобы перебрать список мест и выводить их описания по очереди. Но, возможно, будет проще создать функцию для каждого места, чтобы можно было их вызывать по отдельности или все вместе. Например, функция red_square() описывает Красную площадь, kremlin() — Кремль и так далее. Также стоит подумать о том, как оформить вывод: использовать цвета или просто текст. В Python можно использовать библиотеки, например, colorama, для цветного вывода, но, возможно, это усложнит программу. В данном случае, возможно, ограничиться обычным текстом будет проще. Начну с написания основного кода: импортировать необходимые модули, возможно, time для задержек между выводами, чтобы было более плавно. Затем определю функции для каждого места. В каждой функции будет выводить название и краткое описание достопримечательности. После этого в основном цикле программы вызову все эти функции по очереди, возможно, с небольшими задержками между ними, чтобы пользователь мог читать информацию по частям. Также можно добавить введение и заключение, чтобы рассказ выглядел более целостно. Нужно убедиться, что код правильно работает и не вызывает ошибок. Проверю, правильно ли определены функции, правильно ли вызываются, и нет ли опечаток в названиях. Возможно, стоит добавить разделительные линии или другие оформительские элементы, чтобы разделить описания разных мест. Также подумаю о том, чтобы сделать код модульным, чтобы в будущем можно было легко добавить новые достопримечательности или изменить существующие. В итоге, программа должна выводить информацию о достопримечательностях Москвы в понятной и структурированной форме, используя Python. </think> Вот пример программы на Python, которая рассказывает о достопримечательностях Москвы: ```python def introduction(): print("Добро пожаловать в Москву, город, который сочетает в себе древнюю историю и современную культуру.") print("Сегодня мы познакомимся с некоторыми из самых известных достопримечательностей Москвы.") print() def red_square(): print("Красная площадь") print("Сердце Москвы и одна из самых знаменитых площадей в мире.") print("Здесь вы можете увидеть Кремль, Спасскую башню с курантами и собор Покрова на Рву.") print() def kremlin(): print("Кремль") print("Государственный историко-архитектурный и культурный музей-заповедник.") print("Это комплекс древнерусской архитектуры, включающий соборы, башни и терема.") print() def white_house(): print("Белый дом") print("Главное здание правительства России.") print("Это современное здание с архитектурой, отражающей силу и стабильность.") print() def arbat(): print("Арбат") print("Старинная улица, которая стала символом русской культуры.") print("Здесь вы можете увидеть старинные дома, художников и музыкантов.") print() def tretyakov_gallery(): print("Третьяковская галерея") print("Одна из крупнейших художественных галерей в мире.") print("Здесь представлены работы русских художников от древнерусского искусства до советского периода.") print() def zoo(): print("Московский зоопарк") print("Один из старейших зоопарков в Европе.") print("Здесь обитает более 6 тысяч животных из 800 видов.") print() def victory_park(): print("Парк Победы") print("Памятник победе в Великой Отечественной войне.") print("Здесь находится монументalая скульптура 'Триумфальная арка' и музей.") print() def cosmonautics_museum(): print("Музей космонавтики") print("Музей, посвященный истории космонавтики и космических исследований.") print("Здесь вы можете увидеть ракеты, спутники и космические корабли.") print() def conclusion(): print("Спасибо за внимание!") print("Москва — это город, который值得_visiting и изучения.") print() def main(): introduction() red_square() kremlin() white_house() arbat() tretyakov_gallery() zoo() victory_park() cosmonautics_museum() conclusion() if __name__ == "__main__": main() ``` Эта программа выводит информацию о различных достопримечательностях Москвы, используя функции для каждой локации. Она начинается с введения, затем перечисляет основные места и заканчивается заключением. Каждая функция выводит название и краткое описание достопримечательности. CPU times: user 15min 12s, sys: 634 ms, total: 15min 13s Wall time: 15min 12s
Replace embeddings¶
In [12]:
import torch
from torch import nn
from safetensors import safe_open
with safe_open(source_model_id + "/model.safetensors", framework="pt", device="cpu") as f:
for k in f.keys():
if "model.embed_tokens.weight" in k:
embeddings_src = torch.nn.Parameter(f.get_tensor(k)).to(torch.float32)
with safe_open(source_model_id + "/model.safetensors", framework="pt", device="cpu") as f:
for k in f.keys():
if "lm_head" in k:
lm_head_src = torch.nn.Parameter(f.get_tensor(k)).to(torch.float32)
In [13]:
embeddings_src_size = embeddings_src.shape[0]
print("embeddings_src_size", embeddings_src_size)
embeddings_src_size 152064
In [14]:
torch_dtype = torch.float16
with torch.no_grad():
input_emb_mean = torch.mean(embeddings_src[:embeddings_src_size], dim=0).to(torch_dtype).to("cuda:0")
output_emb_mean = torch.mean(lm_head_src[:embeddings_src_size], dim=0).to(torch_dtype).to("cuda:1")
print(input_emb_mean)
print(output_emb_mean)
tensor([-0.0012, -0.0008, -0.0008, ..., 0.0029, 0.0003, 0.0006], device='cuda:0', dtype=torch.float16) tensor([-0.0001, 0.0008, 0.0003, ..., -0.0019, -0.0008, -0.0025], device='cuda:1', dtype=torch.float16)
In [15]:
# https://github.com/RefalMachine/ruadapt/blob/main/ruadapt/tokenization/replace_tokenizer.py
def if_hex(token):
return token.startswith('<0x') and token.endswith('>')
def convert_token_to_string_universal(token, tokenizer_dst, tokeniser_src_vocab, tokenizer_dst_properties):
if if_hex(token):
if token in tokeniser_src_vocab:
return token
token = chr(convert_ascii_hex(token))
if token in tokeniser_src_vocab:
return token
token = [token]
if tokenizer_dst_properties['force_leading_space']:
token = [tokenizer_dst_properties['space']] + token
text_token = tokenizer_dst.convert_tokens_to_string(token)
if len(text_token) == 1 and ord(text_token) == 65533:
return token[-1]
return text_token
def convert_token_universal(token_str, tokenizer, vocab, tokenizer_prop):
assert tokenizer.is_fast
pre_tokenizer = tokenizer._tokenizer.pre_tokenizer
if pre_tokenizer is not None:
token_str = pre_tokenizer.pre_tokenize_str(token_str)
token_str = ''.join([t[0] for t in token_str])
if tokenizer_prop['space'] == '▁':
token_str = token_str.replace(' ', '▁')
if if_hex(token_str) and token_str in vocab:
return tokenizer.convert_tokens_to_ids([token_str])
return [t.id for t in tokenizer._tokenizer.model.tokenize(token_str)]
In [16]:
spec_tokens = [x.content for x in source_tokenizer.added_tokens_decoder.values()]
spec_tokens
Out[16]:
['<|end▁of▁sentence|>', '<|User|>', '<|Assistant|>', '<|begin▁of▁sentence|>', '<|EOT|>', '<think>', '</think>', '<|quad_start|>', '<|quad_end|>', '<|vision_start|>', '<|vision_end|>', '<|vision_pad|>', '<|image_pad|>', '<|video_pad|>', '<tool_call>', '</tool_call>', '<|fim_prefix|>', '<|fim_middle|>', '<|fim_suffix|>', '<|fim_pad|>', '<|repo_name|>', '<|file_sep|>']
In [17]:
from tqdm.auto import tqdm
tokenizer_src_vocab = source_tokenizer.get_vocab()
EMBED_SIZE = 128024
IN_FEATURES = 5120
model.vocab_size = EMBED_SIZE
model.model.vocab_size = EMBED_SIZE
model.config.vocab_size = EMBED_SIZE
model.model.embed_tokens = nn.Embedding(model.config.vocab_size, model.config.hidden_size, model.config.pad_token_id)
model.lm_head = nn.Linear(IN_FEATURES, EMBED_SIZE, bias=False)
logs = []
with torch.no_grad():
for i in tqdm(range(vocab_size)):
token = tokenizer.decode(i)
if token in spec_tokens:
token_idx = source_tokenizer._tokenizer.token_to_id(token)
embed_tokens_ids = [token_idx]
if token_idx is None:
embed_tokens_ids = None
token_str = token
else:
token_str = convert_token_to_string_universal(token, tokenizer, tokenizer_src_vocab, {'force_leading_space': False})
embed_tokens_ids = convert_token_universal(token_str, source_tokenizer, tokenizer_src_vocab, {'force_leading_space': False, 'space': '▁'})
logs.append({'token_id': i, 'token_repr': token, 'token_str': token_str, 'tokens_src': embed_tokens_ids})
if embed_tokens_ids is None:
input_emb_vec = input_emb_mean
else:
input_emb_vec = embeddings_src[embed_tokens_ids].mean(axis=0).to(torch_dtype)
if input_emb_vec.norm() < 1e-12:
input_emb_vec = input_emb_mean
model.model.embed_tokens.weight.data[i].copy_(input_emb_vec)
if embed_tokens_ids is None:
output_emb_vec = output_emb_mean
else:
output_emb_vec = lm_head_src[embed_tokens_ids].mean(axis=0).to(torch_dtype)
if output_emb_vec.norm() < 1e-12:
logs[-1]['output_emb_vec_mean'] = True
output_emb_vec = output_emb_mean
model.lm_head.weight.data[i].copy_(output_emb_vec)
model.model.embed_tokens.to(torch_dtype).to("cuda:0")
model.lm_head.to(torch_dtype).to("cuda:1")
del input_emb_mean
del output_emb_mean
del embeddings_src
del lm_head_src
torch.cuda.empty_cache()
len(logs)
0%| | 0/128024 [00:00<?, ?it/s]
Out[17]:
128024
In [18]:
def model_dtypes(model):
# Verifying the datatypes.
dtypes = {}
for name, p in model.named_parameters():
dtype = p.dtype
if dtype not in dtypes: dtypes[dtype] = 0
dtypes[dtype] += p.numel()
total = 0
for k, v in dtypes.items(): total+= v
for k, v in dtypes.items():
print(k, v, v/total * 100)
def print_trainable_parameters(model, is_logging=False):
"""
Prints the number of trainable parameters in the model.
"""
trainable_params = 0
all_param = 0
for k, param in model.named_parameters():
all_param += param.numel()
if param.requires_grad:
if is_logging:
print(k)
trainable_params += param.numel()
print(
f"trainable params: {trainable_params} || all params: {all_param} || trainables%: {100 * trainable_params / all_param}"
)
print_trainable_parameters(model)
model_dtypes(model)
trainable params: 1311626240 || all params: 1311626240 || trainables%: 100.0 torch.float16 1311626240 100.0
generation¶
In [21]:
from transformers import GenerationConfig
input_messages = [
{"role": "user", "content": "Напиши рассказ про достопримечательности Москвы используя Python"}
]
text = tokenizer.apply_chat_template(input_messages, tokenize=False, add_generation_prompt=True)
print(text)
input_ids = tokenizer.encode(text, return_tensors="pt", add_special_tokens=False)
print(input_ids.shape)
with torch.inference_mode():
inp = input_ids.to("cuda")
labels = input_ids.clone()
output_ids = model.generate(inp, pad_token_id=tokenizer.eos_token_id, max_new_tokens=128, eos_token_id=tokenizer.eos_token_id)
outputs = model(inp, labels = labels, pad_token_id=tokenizer.eos_token_id, max_new_tokens=128, eos_token_id=tokenizer.eos_token_id)
neg_log_likelihood = outputs.loss
print(neg_log_likelihood)
ppl = torch.exp(torch.stack([neg_log_likelihood]).mean())
print(ppl)
ouput_str = tokenizer.decode(output_ids[0])
print(ouput_str)
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
<|begin▁of▁sentence|><|User|>Напиши рассказ про достопримечательности Москвы используя Python<|Assistant|> torch.Size([1, 11]) tensor(13.4576, device='cuda:1') tensor(699152., device='cuda:1') <|begin▁of▁sentence|><|User|>Напиши рассказ про достопримечательности Москвы используя Python<|Assistant|><think> Okay, the user wrote "Нпи рассказ проот Москвыу Python". It looks like there are some typos here. Maybe they meant "Напиши рассказ про от Москвы до Python"? That would make sense, like a story from Moscow to Python, perhaps about learning Python in Moscow or something related to programming there. I should ask for a bit more clarity to make sure I understand what they need. I'll respond in Russian to keep it natural for them. </think> Кажется, вы хотите, чтобы я написал рассказ на тему "от Москвы до Python". Возможно, вы имеете в вид
In [ ]: