Modell Card: German Edu Score
Modell Details
Modellname: GermanEduScorer-ModernBERT-base
Modelltyp: Klassifikator für deutsche lehrreiche Texte
Basisarchitektur: Modernbert Base
Destilliert von: LLaMA 3.3 70B
Trainingsdaten: 500.000 Samples
Anzahl Epochen: 50
Batch Size: 65.536
Autor: Florian Zimmermeister
Verwendungszweck
Dieses Modell dient zur automatischen Bewertung der pädagogischen Eignung von deutschen Texten anhand der unten definierten Skala. Es kann verwendet werden, um Texte zu identifizieren, die für den Einsatz in Bildungskontexten geeignet sind, oder um die Qualität von Lehrmaterialien zu beurteilen.
Primärer Anwendungsfall:
- Bewertung der pädagogischen Eignung von Texten.
- Filterung von Texten für Bildungszwecke von Sprachmodellen.
- Unterstützung bei der Erstellung von Lehrmaterialien für KI Anwendungen.
Einsatz außerhalb des vorgesehenen Anwendungsbereichs:
- Das Modell ist nicht für die automatische Bewertung von Schülerleistungen oder die Benotung von Klausuren vorgesehen.
- Es sollte nicht als alleinige Grundlage für Entscheidungen über die Eignung von Lehrmaterialien verwendet werden, sondern als unterstützendes Werkzeug.
Bewertungskategorien (German Edu Score)
Das Modell klassifiziert Texte in die folgenden Kategorien, die den Grad der pädagogischen Eignung widerspiegeln:
- 0 Punkte: Der Inhalt ist nicht organisiert und schwer zu lesen. Der Text enthält Werbung oder irrelevante Informationen zum Lehren von Inhalten. Der Text ist nicht neutral, sondern enthält persönliche Sichtweisen. Beispiel: Tweets, Chatnachrichten oder Forenbeiträge.
- 1 Punkt: Der Text ist für den privaten Gebrauch bestimmt und enthält Werbung oder irrelevante Informationen. Der Text ist nicht neutral und spiegelt zum Teil persönliche Sichtweisen wider. Beispiel: Ein Blogbeitrag, der hauptsächlich auf persönliche Erfahrungen eingeht und nur gelegentlich nützliche Informationen bietet.
- 2 Punkte: Der Text ist neutral geschrieben, aber enthält Werbung oder irrelevante Informationen. Die enthaltenen Informationen können zeitlich vergänglich sein. Beispiel: Ein Artikel oder Nachrichtenbeitrag.
- 3 Punkte: Der Text enthält viele Informationen und ist leicht verständlich. Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Beispiel: Ein Wikipedia-Artikel.
- 4 Punkte: Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Der Text enthält tiefergehendes Wissen und ist für den Unterricht von der Grundschule bis zur Universität nützlich. Beispiel: Ein wissenschaftlicher Artikel oder ein Lehrbuch.
- 5 Punkte: Der Text beinhaltet tiefergehendes Wissen, ist dabei aber dennoch leicht verständlich, sodass jeder daraus lernen und sich neue Fähigkeiten aneignen kann. Beispiel: Schritt-für-Schritt-Anleitungen, Erklärungen oder Definitionen.
Trainingsdaten
Größe: 500.000 Samples Beschreibung: Der Datensatz enthält deutsche Texte, die hinsichtlich ihrer pädagogischen Eignung gemäß der oben definierten Skala annotiert wurden, basierend auf dem deutschen Split von Fineweb-2
Einschränkungen und Verzerrungen (Bias)
- Das Modell wurde auf einem spezifischen Datensatz trainiert und kann daher auf anderen Datensätzen oder Textsorten möglicherweise weniger gut performen.
- Es wird empfohlen, die Modellvorhersagen kritisch zu überprüfen und mit menschlicher Expertise zu kombinieren.
- Die Bewertung mit niedrigen Punktzahlen kann durch die Destillation häufiger auftreten.
Ethische Überlegungen
- Es ist wichtig, die Ergebnisse des Modells verantwortungsvoll zu verwenden und die oben genannten Einschränkungen zu berücksichtigen.
- Das Modell sollte nicht verwendet werden, um Entscheidungen zu treffen, die erhebliche Auswirkungen auf Einzelpersonen haben, ohne menschliche Überprüfung.
- Downloads last month
- 94
Model tree for flozi00/GermanEduScorer-ModernBERT-base
Base model
answerdotai/ModernBERT-base