ChaoHuangCS
/

DRIFT-VL-7B

Image-Text-to-Text

vision-language-model

text-generation-inference

Model card Files Files and versions

ChaoHuangCS commited on 25 days ago

Commit

8ee4b34

·

verified ·

1 Parent(s): 5f1c818

Update README.md

Files changed (1) hide show

README.md +4 -32

README.md CHANGED Viewed

@@ -14,45 +14,16 @@ pipeline_tag: image-to-text
 This is a fine-tuned version of Qwen2.5-VL for enhanced reasoning capabilities, specifically optimized for multimodal reasoning tasks.
-## Model Details
-- **Base Model**: qwen2.5-vl
-- **Model Type**: Vision-Language Model
-- **Task**: Multimodal reasoning and visual question answering
-- **Fine-tuning**: Custom training on reasoning datasets
-## Model Files
-This repository contains only the essential files for inference:
-### Core Model Files
-- `config.json`: Model configuration
-- `generation_config.json`: Text generation configuration
-- `model-*.safetensors`: Model weights in SafeTensors format
-- `model.safetensors.index.json`: Model weights index
-### Tokenizer Files
-- `tokenizer.json`: Tokenizer configuration
-- `tokenizer_config.json`: Tokenizer settings
-- `vocab.json`: Vocabulary file
-- `merges.txt`: BPE merge rules
-- `added_tokens.json`: Additional tokens
-- `special_tokens_map.json`: Special token mappings
-### Vision Processing
-- `preprocessor_config.json`: Image preprocessing configuration
-- `chat_template.json`: Chat template for conversations
 ## Usage
 ```python
-from transformers import AutoModelForCausalLM, AutoProcessor
 import torch
 model_id = "ChaoHuangCS/DRIFT-VL-7B"
 # Load model and processor
-model = AutoModelForCausalLM.from_pretrained(
     model_id,
     torch_dtype=torch.float16,
     device_map="auto",
@@ -88,6 +59,7 @@ print(response)
 This model was fine-tuned using:
 - **Base Model**: Qwen2.5-VL
 - **Training Method**: Custom reasoning-focused fine-tuning
 - **Dataset**: Multimodal reasoning datasets
 - **Architecture**: Preserves original Qwen2.5-VL architecture
@@ -102,7 +74,7 @@ The model has been optimized for:
 ## Citation
-If you use this model, please cite the original Qwen2.5-VL paper and mention this fine-tuned version.
 ## License

 This is a fine-tuned version of Qwen2.5-VL for enhanced reasoning capabilities, specifically optimized for multimodal reasoning tasks.
 ## Usage
 ```python
+from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
 import torch
 model_id = "ChaoHuangCS/DRIFT-VL-7B"
 # Load model and processor
+model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
     model_id,
     torch_dtype=torch.float16,
     device_map="auto",
 This model was fine-tuned using:
 - **Base Model**: Qwen2.5-VL
+- **Merged Model**: DeepSeek-R1
 - **Training Method**: Custom reasoning-focused fine-tuning
 - **Dataset**: Multimodal reasoning datasets
 - **Architecture**: Preserves original Qwen2.5-VL architecture
 ## Citation
+If you use this model, please cite our paper.
 ## License