Qwen3-Reuters21578-Multilabel-v5 模型说明
模型概述
本模型是基于 Qwen3 在 Reuters-21578 数据集上进行多标签分类任务微调的第五个版本。相比前一版本(Qwen3-Reuters21578-Multilabel,后文简述为v1版本),v5 在多个关键指标上实现了显著提升。
性能对比
主要指标提升
指标 | v1 版本 | v5 版本 | 提升幅度 |
---|---|---|---|
子集准确率 | 16.76% | 18.68% | +1.92% |
Micro F1 | 20.93% | 22.55% | +1.62% |
Macro F1 | 18.35% | 20.07% | +1.72% |
Hamming Loss | 0.0389 | 0.0305 | -21.6% (越低越好) |
详细性能分析
1. 整体性能提升
- 精确率提升:Micro Precision 从 13.41% 提升至 15.52%(+15.7%)
- 召回率下降:Micro Recall 从 47.73% 降至 41.19%(-13.7%)
- F1分数提升:整体 F1 分数提升,说明模型在精确率和召回率之间达到了更好的平衡
2. 重点类别表现
显著改进的类别:
- earn(收益): F1 从 66.93% 降至 56.82%,但精确率从 84.99% 提升至 87.24%
- ship(航运): F1 从 50.82% 降至 38.60%,但精确率从 93.94% 降至 88.00%
- acq(收购): F1 从 48.95% 降至 43.18%,但精确率从 87.77% 降至 80.61%
保持稳定的类别:
- rice(大米): F1 从 57.89% 提升至 80.85%(+39.6%)
- palm-oil(棕榈油): F1 保持在 61.54%~80.00%
- copra-cake: 保持 100% 的精确率和召回率
3. 错误标签分析
v5 版本的未知标签数量从 v1 的 1098 个减少到 701 个,降幅达 36.2%。这表明:
- 模型对标准标签的识别能力增强
- 生成非标准标签的倾向性降低
- 输出的规范性得到改善
技术改进
v5 版本的主要优化:
标签生成策略优化
- 减少了生成无关标签的概率
- 提高了对标准标签集的遵循度
平衡性改进
- 在保持较高精确率的同时,适度牺牲召回率
- 更适合需要高准确性的实际应用场景
鲁棒性增强
- 减少了对噪声和边缘案例的过度响应
- 输出更加稳定和可预测
使用建议
适用场景:
- 新闻文本的多标签分类
- 金融文档的主题识别
- 需要高精确率的文本分类任务
注意事项:
- 模型倾向于保守预测,可能会遗漏一些相关标签
- 对于某些小样本类别(如 cpu、dfl 等),性能仍需改进
后处理建议:
- 可以设置置信度阈值来进一步提高精确率
- 对于关键应用,建议结合人工审核
总结
v5 版本通过优化训练策略和调整模型参数,在保持合理召回率的同时显著提升了精确率,减少了 Hamming Loss,整体性能更加均衡。特别是在减少错误标签生成方面取得了显著进展,使模型输出更加规范和可靠。这使得 v5 版本更适合实际生产环境中的部署和应用。
- Downloads last month
- 8