UWTRL-MEG / README-zh.md
peng7554's picture
Rename rm_model.md to README-zh.md
23a7f95 verified

水下目标识别与定位模型库

项目概述

本仓库包含一系列用于水下目标识别与定位的深度学习模型,包括专为水下声学场景设计的MCL/MEG系列网络,以及迁移自计算机视觉领域的通用识别模型。这些模型基于声纹识别技术,实现对水下目标的分类与定位,可应用于海洋监测、水下安防等领域。

模型说明

1. 专用网络系列(识别+定位)

模型名称 描述 输入特征 功能
MCL 基础网络,无混合专家模型 GFCC/STFT 识别+定位
MEG 在MCL基础上加入混合专家模型 GFCC/STFT 识别+定位
MEG_BLC MEG变体,加入负载均衡机制 GFCC/STFT 识别+定位
MEG_MIX MEG变体,多特征混合输入 多种特征融合 识别+定位

2. 通用CV网络(仅识别)

迁移自计算机视觉领域的经典模型,适配水下声纹识别任务:

  • DenseNet121
  • MobileNetV2
  • ResNet18
  • ResNet50
  • Swin-Transformer

性能指标

Network ACC(%) MAE-R (km) MAE-D (m)
MEG (STFT) 95.93 0.2011 20.61
MCL (STFT) 96.07 0.2565 27.68
MEG(GFCC) 95.75 0.1707 19.43
MCL(GFCC) 96.10 0.3384 35.42
densenet121 86.61 - -
resnet18 84.99 - -
mobilenetv2 83.60 - -
resnet50 76.34 - -
swin-transformer 63.08 - -

注:ACC为识别准确率,MAE-R为距离定位平均绝对误差,MAE-D为深度定位平均绝对误差

使用方法

1. 模型下载

可从Hugging Face Hub 或者 魔搭社区 下载各模型权重文件,通过以下链接获取完整项目代码:

  • Gitee:
  • GitHub:

2. 模型使用

使用超参数--resume指定权重文件所在文件夹即可,默认加载model.pth

python train_mtl.py --features stft --task_type mtl --resume './models/meg(stft)'

3. 输入输出

  • 输入:声学特征(GFCC/STFT等)
  • 输出:目标类别、距离估计、深度估计 详细输入输出格式及训练/推理代码请参考项目仓库文档。

引用信息

相关研究论文正在审查中,预计2025年9月发表于MDPI《Remote Sensing》期刊。如使用本项目模型,请引用以下论文(发表后更新):

@article{uwtrl2025,
  title={Multi-Task Mixture-of-Experts Model for Underwater Target Localization and Recognition},
  author={Peng Qian, Jingyi Wang, Yining Liu, Yingxuan Chen, Pengjiu Wang, Yanfa Deng, Peng Xiao* and Zhenglin Li},
  journal={Remote Sensing},
  year={2025},
  publisher={MDPI}
}

联系方式

如有问题或合作意向,请联系:[[email protected]]


本项目仅供学术研究使用,商业用途请联系作者获取授权。