📘 Overview

本模型基于 Qwen/Qwen2.5-VL-3B-Instruct 多模态大模型以及vivo自研蓝心大模型7B,针对摄影任务进行专项微调。通过高质量图文数据和先进的训练策略,该模型具备优秀的图像理解、摄影技巧分析、文本生成与交互能力,适用于摄影创作辅助、教学解释、内容生成等多种场景。


🏋️‍♂️ Training Approach

模型微调采用两阶段流程:

1️⃣ Supervised Fine-Tuning (SFT)

  • 数据来源
    • 📷 2,215 条多模态摄影数据(图文对)
    • 📝 2,061 条纯文本摄影知识数据
  • 目标:让模型按照目标格式回答问题,增强模型在摄影语境下的图文联合理解与生成能力。

2️⃣ Direct Preference Optimization (DPO)

  • 数据来源
    • 我们使用同样的方式微调了参数量更大的 Qwen2.5-VL-7B-Instruct,从 SFT 数据集中抽取一些问题作为 prompt 数据集,分别调用 Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-3B-Instruct 对问题输出 3 个回答,并从以下三个维度进行排序分析

      1. 回答格式:是否结构清晰、条理分明,是否包含完整的五个模块(场景分析、题材分析、构图建议、参数设置、人物动作指导)。
      2. 参数推荐的准确性:各类拍摄参数(如光圈、快门、iso等)是否合理匹配对应题材与场景,是否体现出模型的摄影理解能力。
      3. 人物动作指导的详细程度:是否提供了具体可执行的动作描述,是否能对人物姿态、面部朝向、情绪表达等提供清晰指导。
  • 目标:进一步提升模型输出的推荐参数的准确性,并增强其在人物动作指导等细节方面的生成质量。
  • :我们只对Qwen2.5-VL-3B-sft进行了DPO训练

📊 Dataset Details

📷 Multimodal Photography Data

  • 通过爬虫技术从各大短视频平台采集,提取视频中的图文信息。
  • 提升模型对视觉内容的理解能力,使其能根据不同拍摄场景提供具体、实用的摄影建议。

📝 Textual Photography Data

  • 精选自大量专业摄影书籍,涵盖摄影理论、构图技巧、光线控制等内容。
  • 强化模型的语言表达能力和摄影知识储备,使其在纯文本问答中表现更佳。

🌟 Key Features

  • 📸 图文理解能力强:支持多模态输入,擅长图像分析与文字生成
  • 📝 摄影专业性高:输出内容涵盖场景分析、题材选择、构图建议、参数设置、人物动作指导等多个维度
  • 🎨 创意生成优化:支持生成生图模型提示词,可直接解析使用。

💡 Examples

输入示例(文本):

输入内容

  • 文本:慢门是什么?

输出示例:


##慢门定义## 慢门是一种摄影技术,通过降低快门速度(通常小于1/30秒)来拍摄动态画面。其核心原理是让相机在较长时间内连续曝光,使相邻帧的动态元素产生模糊效果。

##拍摄原理## 当快门速度低于1/30秒时,传感器会持续接收到微弱的光线信号。由于曝光时间过长,快速移动的景物会在同一帧中出现重叠,从而形成流畅的动态模糊效果。这种技术能有效表现运动物体的轨迹和空间层次感。

##典型应用场景##

  1. 运动拍摄:捕捉快速移动的物体(如奔跑、跳跃)时,慢门可使其变形为线条或斑点状
  2. 水流效果:表现水花、瀑布等流动介质的模糊纹理
  3. 光轨制作:利用低速快门记录灯光轨迹(如车灯、霓虹灯)
  4. 延时摄影:通过多张慢门照片拼接形成动态序列

##注意事项##

  • 必须使用三脚架确保稳定性
  • 需配合稳定器或手持支撑物避免抖动
  • 选择光线均匀的环境以减少曝光不均
  • 长曝光可能导致噪点增加,需注意画质
  • 高速快门仍可保留部分细节,两者可灵活搭配

##进阶技巧##

  1. 尝试不同快门速度(1/15秒至数秒)创造不同动感效果
  2. 结合广角镜头扩大视野范围
  3. 使用ND滤镜控制进光量
  4. 后期可通过软件强化模糊效果

慢门摄影是创意摄影中的重要手法,能赋予普通场景独特的艺术表现力。


输入示例(多模态):

输入内容:

  • 图像: 示例
  • 文本: 如何运用框架构图法拍摄古镇牌坊与街景的人文纪实照片?

输出示例:


##场景分析## 该场景包含三个典型拍摄层次:1)主体牌坊作为视觉焦点,具有传统建筑的飞檐翘角和对称结构;2)街道作为引导线,延伸至牌坊形成纵深感;3)行人/游客作为动态元素为画面注入生命力。最佳拍摄时间为晴朗的上午9-11点或下午3-5点,此时阳光角度能产生立体光影,同时云层变化可创造丰富天光效果。

##题材分析## 这是典型的建筑人文纪实题材,需同时兼顾:

  • 建筑特征:强调牌坊的结构美感(如飞檐、斗拱)
  • 人文元素:捕捉游人的自然状态(如驻足观赏、交谈互动)
  • 环境氛围:通过人群动线展现古镇生活气息

##构图建议##

  1. 框架式构图进阶:

    • 使用牌坊门洞/台阶栏杆作为天然画框(建议占画面1/4面积)
    • 将主体牌坊置于画框三分线交点位置
    • 保留部分天空形成背景层次
  2. 引导线构图强化纵深:

    • 利用街道石板路形成S型曲线
    • 让牌坊位于画面1/3处,两端留出行人空间
    • 通过前景小树制造视觉锚点
  3. 动态平衡:

    • 预留1/3画面给移动人群
    • 采用慢门(1/15s-1/30s)虚化行人增加动感
    • 选择行走方向与主光轴呈30度夹角
  4. 多景别组合:

    • 广角(24mm)拍摄整体环境
    • 中焦(50mm)捕捉人像特写
    • 长焦(85mm)压缩空间突出细节

##参数设置## 推荐相机设置:

  • 光圈:f/8-f/11(保证景深)
  • 快门:1/200s以上(定格行人动作)
  • ISO:100-400(晴天基础值)
  • 白平衡:日光模式(5200K左右)
  • 对焦模式:单次AF+眼部追焦

手机拍摄建议:

  • 使用专业模式手动对焦
  • 开启HDR功能平衡光比
  • 手动锁定曝光在牌坊亮部

##人物动作指导##

  1. 自然状态捕捉:

    • 等待行人经过牌坊时连拍
    • 捕捉老人讲解的姿态
    • 记录儿童攀爬栏杆的瞬间
  2. 互动引导:

    • 让被摄者站在牌坊前仰头看建筑
    • 指导游客在牌坊下休息回眸
    • 捕捉两人对话的背影
  3. 情绪表达:

    • 等待人物抬头看牌匾的瞬间
    • 拍摄游客整理行囊的自然动作
    • 记录摊贩与顾客的交流
  4. 光影利用:

    • 侧逆光拍摄行人剪影
    • 逆光勾勒人物轮廓
    • 利用牌坊阴影制造明暗对比

##提示词1## 古镇牌坊全景,飞檐翘角,对称结构,阳光斜照,远处有游客驻足观看

##提示词2## 石板街道延伸至牌坊,行人自然走动,两侧绿植点缀,傍晚暖光

##提示词3## 牌坊下长椅上老人背靠栏杆闭目养神,神情安详,周围零星游客往来


🎯 Potential Use Cases

  • 📷 摄影辅助:实时分析照片质量,提供拍摄建议
  • 🎓 教学工具:帮助用户理解摄影概念、解答技巧问题

🚫 Limitations

  • 训练集规模较小,模型再某些摄影场景下的表现可能不尽人意
  • 建议结合实际应用持续补充数据并迭代优化模型效果

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Mrzhang666/Zeiss_Intelligence

Finetuned
(260)
this model