YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

模型目的

因为最近在预训练模型,在数据处理阶段普遍有用大模型进行打分的操作,但是目前针对中文的打分数据集、模型都太少了,因此用 Qwen2.5-32B-Instruct-AWQ(48G单卡)进行了 Low / Mid / High 的打分,中文数据集用的是 C4-zh 的前10w数据,英文数据集用的是现有的英文数据集 text-score-data

主要是在 bert-base-chinese、bert-base-uncase、xlm-roberta-large 上进行全量微调的,所以最后选择了中英文混合的bert-base-chinse,这个中英文正确率还可以的数据。

语言 模型 测试集正确率
中文 bert-base-chinese 0.8
中文 xlm-roberta-large 0.80
英文 bert-base-uncase 0.6
英文 xlm-roberta-large 0.49
中英文混合 xlm-roberta-large 0.4
中英文混合 bert-base-chinese 0.68
Downloads last month
5
Safetensors
Model size
102M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support