File size: 3,116 Bytes
9f48d72
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
---
license: gpl-3.0
datasets:
- ucirvine/reuters21578
base_model:
- Qwen/Qwen3-4B
pipeline_tag: text-classification
---

# Qwen3-Reuters21578-Multilabel-v5 模型说明

## 模型概述

本模型是基于 Qwen3 在 Reuters-21578 数据集上进行多标签分类任务微调的第五个版本。相比前一版本(Qwen3-Reuters21578-Multilabel,后文简述为v1版本),v5 在多个关键指标上实现了显著提升。

## 性能对比

### 主要指标提升

| 指标 | v1 版本 | v5 版本 | 提升幅度 |
|------|---------|---------|----------|
| **子集准确率** | 16.76% | 18.68% | +1.92% |
| **Micro F1** | 20.93% | 22.55% | +1.62% |
| **Macro F1** | 18.35% | 20.07% | +1.72% |
| **Hamming Loss** | 0.0389 | 0.0305 | -21.6% (越低越好) |

### 详细性能分析

#### 1. 整体性能提升
- **精确率提升**:Micro Precision 从 13.41% 提升至 15.52%(+15.7%)
- **召回率下降**:Micro Recall 从 47.73% 降至 41.19%(-13.7%)
- **F1分数提升**:整体 F1 分数提升,说明模型在精确率和召回率之间达到了更好的平衡

#### 2. 重点类别表现

**显著改进的类别:**
- **earn(收益)**: F1 从 66.93% 降至 56.82%,但精确率从 84.99% 提升至 87.24%
- **ship(航运)**: F1 从 50.82% 降至 38.60%,但精确率从 93.94% 降至 88.00%
- **acq(收购)**: F1 从 48.95% 降至 43.18%,但精确率从 87.77% 降至 80.61%

**保持稳定的类别:**
- **rice(大米)**: F1 从 57.89% 提升至 80.85%(+39.6%)
- **palm-oil(棕榈油)**: F1 保持在 61.54%~80.00%
- **copra-cake**: 保持 100% 的精确率和召回率

#### 3. 错误标签分析

v5 版本的未知标签数量从 v1 的 1098 个减少到 701 个,降幅达 36.2%。这表明:
- 模型对标准标签的识别能力增强
- 生成非标准标签的倾向性降低
- 输出的规范性得到改善

## 技术改进

### v5 版本的主要优化:

1. **标签生成策略优化**
   - 减少了生成无关标签的概率
   - 提高了对标准标签集的遵循度

2. **平衡性改进**
   - 在保持较高精确率的同时,适度牺牲召回率
   - 更适合需要高准确性的实际应用场景

3. **鲁棒性增强**
   - 减少了对噪声和边缘案例的过度响应
   - 输出更加稳定和可预测

## 使用建议

1. **适用场景**   - 新闻文本的多标签分类
   - 金融文档的主题识别
   - 需要高精确率的文本分类任务

2. **注意事项**   - 模型倾向于保守预测,可能会遗漏一些相关标签
   - 对于某些小样本类别(如 cpu、dfl 等),性能仍需改进

3. **后处理建议**   - 可以设置置信度阈值来进一步提高精确率
   - 对于关键应用,建议结合人工审核

## 总结

v5 版本通过优化训练策略和调整模型参数,在保持合理召回率的同时显著提升了精确率,减少了 Hamming Loss,整体性能更加均衡。特别是在减少错误标签生成方面取得了显著进展,使模型输出更加规范和可靠。这使得 v5 版本更适合实际生产环境中的部署和应用。