有害コンテンツ判定のための有害濃縮語彙モデル(32k) for NLP2024

トークナイザのテキスト圧縮率を算出するためのモデル

Model Description

SentencePieceのユニグラムモードを適用して構築した有害語彙モデル

圧縮率の算出方法

圧縮率 = 1 - (トークン数/元々のテキスト文字列長)

発表

@InProceedings{jwu:nlp2023, 
    author = {梶浦 照乃, 山内 璃乃, 小柳 響子, 東出 紗也夏, 倉光 君郎}, 
    title = {トークナイザーの圧縮率を用いた有害コンテンツの判定法},
    booktitle = {言語処理学会第30回年次大会 (NLP2024)}, 
    year      = {2024}, 
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.