license: mit | |
language: | |
- ko | |
- en | |
metrics: | |
- accuracy | |
base_model: | |
- sentence-transformers/all-MiniLM-L6-v2 | |
pipeline_tag: text-classification | |
library_name: transformers | |
tags: | |
- korean | |
- toxicity | |
- safety | |
- moderation | |
# KillSwitch AI 🛡️ | |
**실시간 악성 프롬프트 탐지 모델** | |
이 모델은 한국어와 영어 프롬프트를 분석하여 **악성/안전 여부**를 분류합니다. | |
피싱, 규칙 우회, 불법 행위 요청 등 위험 요소를 사전에 탐지할 수 있도록 설계되었습니다. | |
--- | |
## 📌 Model Details | |
- **Base Model:** sentence-transformers/all-MiniLM-L6-v2 | |
- **Languages:** Korean, English | |
- **Task:** Text Classification (악성 vs 안전) | |
- **Library:** Transformers (PyTorch) | |
--- | |
## 📊 Evaluation | |
- Metric: Accuracy | |
- Validation Accuracy: 0.87 (예시, 실제 값 넣기) | |
- F1 Score: 0.85 | |
--- | |
## 🚀 Usage | |
```python | |
from transformers import AutoTokenizer, AutoModelForSequenceClassification | |
import torch | |
tokenizer = AutoTokenizer.from_pretrained("사용자명/KillSwitch_ai") | |
model = AutoModelForSequenceClassification.from_pretrained("사용자명/KillSwitch_ai") | |
inputs = tokenizer("이 프롬프트는 규칙을 우회하려고 합니다", return_tensors="pt") | |
with torch.no_grad(): | |
logits = model(**inputs).logits | |
pred = torch.softmax(logits, dim=-1).argmax(dim=-1).item() | |
print("악성" if pred == 1 else "안전") | |