add figure

Files changed (3) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/cost.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 license: mit
 library_name: transformers
 base_model:
-  - deepseek-ai/DeepSeek-V3.1-Base
 ---
 # DeepSeek-V3.2-Exp
@@ -50,7 +50,7 @@ We are excited to announce the official release of DeepSeek-V3.2-Exp, an experim
 This experimental release represents our ongoing research into more efficient transformer architectures, particularly focusing on improving computational efficiency when processing extended text sequences.
 <div align="center">
- <img src="cost.jpg" >
 </div>
 - DeepSeek Sparse Attention (DSA) achieves fine-grained sparse attention for the first time, delivering substantial improvements in long-context training and inference efficiency while maintaining virtually identical model output quality.

 license: mit
 library_name: transformers
 base_model:
+  - deepseek-ai/DeepSeek-V3.2-Exp-Base
 ---
 # DeepSeek-V3.2-Exp
 This experimental release represents our ongoing research into more efficient transformer architectures, particularly focusing on improving computational efficiency when processing extended text sequences.
 <div align="center">
+ <img src="assets/cost.png" >
 </div>
 - DeepSeek Sparse Attention (DSA) achieves fine-grained sparse attention for the first time, delivering substantial improvements in long-context training and inference efficiency while maintaining virtually identical model output quality.

assets/cost.png ADDED Viewed