📘 Overview
本模型基于 Qwen/Qwen2.5-VL-3B-Instruct 多模态大模型以及vivo自研蓝心大模型7B,针对摄影任务进行专项微调。通过高质量图文数据和先进的训练策略,该模型具备优秀的图像理解、摄影技巧分析、文本生成与交互能力,适用于摄影创作辅助、教学解释、内容生成等多种场景。
🏋️♂️ Training Approach
模型微调采用两阶段流程:
1️⃣ Supervised Fine-Tuning (SFT)
- 数据来源:
- 📷 2,215 条多模态摄影数据(图文对)
- 📝 2,061 条纯文本摄影知识数据
- 目标:让模型按照目标格式回答问题,增强模型在摄影语境下的图文联合理解与生成能力。
2️⃣ Direct Preference Optimization (DPO)
- 数据来源:
我们使用同样的方式微调了参数量更大的 Qwen2.5-VL-7B-Instruct,从 SFT 数据集中抽取一些问题作为 prompt 数据集,分别调用 Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-3B-Instruct 对问题输出 3 个回答,并从以下三个维度进行排序分析:
- 回答格式:是否结构清晰、条理分明,是否包含完整的五个模块(场景分析、题材分析、构图建议、参数设置、人物动作指导)。
- 参数推荐的准确性:各类拍摄参数(如光圈、快门、iso等)是否合理匹配对应题材与场景,是否体现出模型的摄影理解能力。
- 人物动作指导的详细程度:是否提供了具体可执行的动作描述,是否能对人物姿态、面部朝向、情绪表达等提供清晰指导。
- 目标:进一步提升模型输出的推荐参数的准确性,并增强其在人物动作指导等细节方面的生成质量。
- 注:我们只对Qwen2.5-VL-3B-sft进行了DPO训练
📊 Dataset Details
📷 Multimodal Photography Data
- 通过爬虫技术从各大短视频平台采集,提取视频中的图文信息。
- 提升模型对视觉内容的理解能力,使其能根据不同拍摄场景提供具体、实用的摄影建议。
📝 Textual Photography Data
- 精选自大量专业摄影书籍,涵盖摄影理论、构图技巧、光线控制等内容。
- 强化模型的语言表达能力和摄影知识储备,使其在纯文本问答中表现更佳。
🌟 Key Features
- 📸 图文理解能力强:支持多模态输入,擅长图像分析与文字生成
- 📝 摄影专业性高:输出内容涵盖场景分析、题材选择、构图建议、参数设置、人物动作指导等多个维度
- 🎨 创意生成优化:支持生成生图模型提示词,可直接解析使用。
💡 Examples
输入示例(文本):
输入内容
- 文本:慢门是什么?
输出示例:
##慢门定义## 慢门是一种摄影技术,通过降低快门速度(通常小于1/30秒)来拍摄动态画面。其核心原理是让相机在较长时间内连续曝光,使相邻帧的动态元素产生模糊效果。
##拍摄原理## 当快门速度低于1/30秒时,传感器会持续接收到微弱的光线信号。由于曝光时间过长,快速移动的景物会在同一帧中出现重叠,从而形成流畅的动态模糊效果。这种技术能有效表现运动物体的轨迹和空间层次感。
##典型应用场景##
- 运动拍摄:捕捉快速移动的物体(如奔跑、跳跃)时,慢门可使其变形为线条或斑点状
- 水流效果:表现水花、瀑布等流动介质的模糊纹理
- 光轨制作:利用低速快门记录灯光轨迹(如车灯、霓虹灯)
- 延时摄影:通过多张慢门照片拼接形成动态序列
##注意事项##
- 必须使用三脚架确保稳定性
- 需配合稳定器或手持支撑物避免抖动
- 选择光线均匀的环境以减少曝光不均
- 长曝光可能导致噪点增加,需注意画质
- 高速快门仍可保留部分细节,两者可灵活搭配
##进阶技巧##
- 尝试不同快门速度(1/15秒至数秒)创造不同动感效果
- 结合广角镜头扩大视野范围
- 使用ND滤镜控制进光量
- 后期可通过软件强化模糊效果
慢门摄影是创意摄影中的重要手法,能赋予普通场景独特的艺术表现力。
输入示例(多模态):
输入内容:
输出示例:
##场景分析## 该场景包含三个典型拍摄层次:1)主体牌坊作为视觉焦点,具有传统建筑的飞檐翘角和对称结构;2)街道作为引导线,延伸至牌坊形成纵深感;3)行人/游客作为动态元素为画面注入生命力。最佳拍摄时间为晴朗的上午9-11点或下午3-5点,此时阳光角度能产生立体光影,同时云层变化可创造丰富天光效果。
##题材分析## 这是典型的建筑人文纪实题材,需同时兼顾:
- 建筑特征:强调牌坊的结构美感(如飞檐、斗拱)
- 人文元素:捕捉游人的自然状态(如驻足观赏、交谈互动)
- 环境氛围:通过人群动线展现古镇生活气息
##构图建议##
框架式构图进阶:
- 使用牌坊门洞/台阶栏杆作为天然画框(建议占画面1/4面积)
- 将主体牌坊置于画框三分线交点位置
- 保留部分天空形成背景层次
引导线构图强化纵深:
- 利用街道石板路形成S型曲线
- 让牌坊位于画面1/3处,两端留出行人空间
- 通过前景小树制造视觉锚点
动态平衡:
- 预留1/3画面给移动人群
- 采用慢门(1/15s-1/30s)虚化行人增加动感
- 选择行走方向与主光轴呈30度夹角
多景别组合:
- 广角(24mm)拍摄整体环境
- 中焦(50mm)捕捉人像特写
- 长焦(85mm)压缩空间突出细节
##参数设置## 推荐相机设置:
- 光圈:f/8-f/11(保证景深)
- 快门:1/200s以上(定格行人动作)
- ISO:100-400(晴天基础值)
- 白平衡:日光模式(5200K左右)
- 对焦模式:单次AF+眼部追焦
手机拍摄建议:
- 使用专业模式手动对焦
- 开启HDR功能平衡光比
- 手动锁定曝光在牌坊亮部
##人物动作指导##
自然状态捕捉:
- 等待行人经过牌坊时连拍
- 捕捉老人讲解的姿态
- 记录儿童攀爬栏杆的瞬间
互动引导:
- 让被摄者站在牌坊前仰头看建筑
- 指导游客在牌坊下休息回眸
- 捕捉两人对话的背影
情绪表达:
- 等待人物抬头看牌匾的瞬间
- 拍摄游客整理行囊的自然动作
- 记录摊贩与顾客的交流
光影利用:
- 侧逆光拍摄行人剪影
- 逆光勾勒人物轮廓
- 利用牌坊阴影制造明暗对比
##提示词1## 古镇牌坊全景,飞檐翘角,对称结构,阳光斜照,远处有游客驻足观看
##提示词2## 石板街道延伸至牌坊,行人自然走动,两侧绿植点缀,傍晚暖光
##提示词3## 牌坊下长椅上老人背靠栏杆闭目养神,神情安详,周围零星游客往来
🎯 Potential Use Cases
- 📷 摄影辅助:实时分析照片质量,提供拍摄建议
- 🎓 教学工具:帮助用户理解摄影概念、解答技巧问题
🚫 Limitations
- 训练集规模较小,模型再某些摄影场景下的表现可能不尽人意
- 建议结合实际应用持续补充数据并迭代优化模型效果
Model tree for Mrzhang666/Zeiss_Intelligence
Base model
Qwen/Qwen2.5-VL-3B-Instruct