Fix new line issue & Match vocab type to base model

Files changed (6) hide show

README.md CHANGED Viewed

@@ -29,22 +29,24 @@ These are the merged version: after training the adapters, we merge the original
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
-# model_name = "mistralai/Mistral-7B-v0.1 # Base Model
 model_name = "h-j-han/Mistral-7B-VocADT-50k-Mixed" # Vocabulary Adapted Model
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
 prefix = "\nEnglish: Hello \nKorean: 안녕하세요 \nEnglish: Thank you\nKorean: 고맙습니다\nEnglish: "
-line = "I lived in Korea for seven years"
 suffix = f"\nKorean:"
 prompt = prefix + line + suffix
 inputs = tokenizer(prompt, return_tensors="pt")
-outputs = model.generate(**inputs, max_new_tokens=8)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
-# Base Model Output: "한국에 7년" # This short incomplete phrase in Korean is 8 tokens for the base model.
-# VocADT Output: "저는 한국에 7년 동안 살았습니다." # Complete and good output within 8 tokens
 ```
 ## Reference

 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
+# model_name = "mistralai/Mistral-7B-v0.1" # Base Model
 model_name = "h-j-han/Mistral-7B-VocADT-50k-Mixed" # Vocabulary Adapted Model
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
 prefix = "\nEnglish: Hello \nKorean: 안녕하세요 \nEnglish: Thank you\nKorean: 고맙습니다\nEnglish: "
+line = "I'm a student."
 suffix = f"\nKorean:"
 prompt = prefix + line + suffix
 inputs = tokenizer(prompt, return_tensors="pt")
+for item in inputs:
+    inputs[item] = inputs[item].cuda()
+outputs = model.generate(**inputs, max_new_tokens=88)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+# Base Model Output: "나는 학" # This short incomplete phrase in Korean is 5 tokens for the base model.
+# VocADT Output: "저는 학생입니다." # Complete and good output within 5 tokens
 ```
 ## Reference

config.json CHANGED Viewed

@@ -21,5 +21,5 @@
     "torch_dtype": "bfloat16",
     "transformers_version": "4.43.0.dev0",
     "use_cache": true,
-    "vocab_size": 50298
 }

     "torch_dtype": "bfloat16",
     "transformers_version": "4.43.0.dev0",
     "use_cache": true,
+    "vocab_size": 50000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6c70409152bbd52d747ab55ffbf2c15298e11ef43e7bbd89e8271cc13fe7132
-size 4975618928

 version https://git-lfs.github.com/spec/v1
+oid sha256:b12b68690b89b00b5155b899e7af8c3ee1eeeb92c5c7715f7d001fd934b9f850
+size 4973177712

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e450598da48018d7d2fa90b378429e31fa378cba197cea9253e623598f3e8ee
-size 4891757352

 version https://git-lfs.github.com/spec/v1
+oid sha256:378dabdba3a3b4fcdb862f645af685249e5b02123d57c84bfd7f7ab4e23193dc
+size 4889316136

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 14783258624
   },
   "weight_map": {
     "lm_head.weight": "model-00003-of-00003.safetensors",

 {
   "metadata": {
+    "total_size": 14778376192
   },
   "weight_map": {
     "lm_head.weight": "model-00003-of-00003.safetensors",

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff