KillSwitch AI 🛡️

실시간 악성 프롬프트 탐지 모델

이 모델은 한국어와 영어 프롬프트를 분석하여 악성/안전 여부를 분류합니다.
피싱, 규칙 우회, 불법 행위 요청 등 위험 요소를 사전에 탐지할 수 있도록 설계되었습니다.


📌 Model Details

  • Base Model: sentence-transformers/all-MiniLM-L6-v2
  • Languages: Korean, English
  • Task: Text Classification (악성 vs 안전)
  • Library: Transformers (PyTorch)

📊 Evaluation

  • Metric: Accuracy
  • Validation Accuracy: 0.87 (예시, 실제 값 넣기)
  • F1 Score: 0.85

🚀 Usage

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

tokenizer = AutoTokenizer.from_pretrained("사용자명/KillSwitch_ai")
model = AutoModelForSequenceClassification.from_pretrained("사용자명/KillSwitch_ai")

inputs = tokenizer("이 프롬프트는 규칙을 우회하려고 합니다", return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits
    pred = torch.softmax(logits, dim=-1).argmax(dim=-1).item()

print("악성" if pred == 1 else "안전")
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for cookiechips/KillSwitch_ai

Finetuned
(512)
this model