SentenceTransformer based on nlpai-lab/KURE-v1

This is a sentence-transformers model finetuned from nlpai-lab/KURE-v1. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: nlpai-lab/KURE-v1
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '제적 유보가 가능한 상황은 어떤 경우야?',
    '제 6 장 휴학, 복학, 제적 및 퇴학\n\n제 25 조 (휴학)\n학생은 재학 중 휴학할 수 있으며 시행에 관한 세부 사항은 학사운영규정으로 정한다.\n제23조 및 제24조에 따른 등록(등록금 납부 및 수강신청)을 완료하지 못한 자는 당해학기 미등록휴학 처리한다. 다만, 휴학기간이 3년 이상이고 본인의 의사가 없는 경우 제적처리한다.\n질병 등으로 타 학생에게 현저히 피해를 주어 팀 활동이나 학생생활관 입주 등 공동체 생활이 어렵다고 판단되는 자는 심리검사 또는 상담이나 치료를 받아야 한다. 이를 거부하거나 권고휴학을 거부하는 자에게 총장은 학생지도위원회의 심의를 거쳐 휴학을 명할 수 있으며, 이에 관한 세부사항은 학사운영규정으로 정한다.\n\n제 26 조 (복학)\n복학의 절차 및 시기 등에 관하여는 학사운영규정으로 정한다.\n제25조 제5항에 의거 미등록휴학된 자는 다음학기 제1항의 절차에 따라 복학하거나 휴학하여야 한다.\n\n제 27 조 (자퇴)\n자퇴코자 하는 자는 보증인이 연서한 사유서를 제출하여 총장의 허가를 받아야 한다.\n\n제 28 조 (제적)\n학생으로서 다음 각호의 1에 해당하는 자는 제적한다.\n휴학기간 경과후 복학하여야 하는 학기의 소정기간내에 복학하지 않은 자\n등록금 분납신청자중 소정의 기간내에 완납하지 못한 자\n학사경고를 연속 3회 또는 통산 4회 받은 자\n재학연한을 초과한 자\n제1항 제1호의 경우 제적 처리를 원칙으로 하되, 교무처장이 인정하는 경우, 해당학기에 휴학연장으로 처리할 수 있다.\n제1항 제4호의 경우 제적 처리를 원칙으로 하되, 질병 또는 이에 준하는 특별한 사유가 있다고 총장이 인정한 경우에는 1회에 한하여 제적을 유보하고 권고휴학을 하도록 할 수 있다.\n\n\n',
    '제 15 장 장학금\n\n제 66 조 (장학금)\n이 대학교 학생중 품행이 방정하고 학업성적이 우수한 자와 가계곤란으로 학업계속에 지장이 있는 학생에 대하여는 장학금을 지급할 수 있다.\n장학금 지급에 관한 세부사항은 총장이 따로 정한다.\n\n\n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.997

Training Details

Training Dataset

Unnamed Dataset

  • Size: 15,135 training samples
  • Columns: sentence_0, sentence_1, and sentence_2
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2
    type string string string
    details
    • min: 9 tokens
    • mean: 17.46 tokens
    • max: 28 tokens
    • min: 25 tokens
    • mean: 568.48 tokens
    • max: 1024 tokens
    • min: 25 tokens
    • mean: 424.77 tokens
    • max: 1024 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2
    한동대학교 교수회는 대학 운영에 관한 중요한 결정도 내리나요? 제 17 장 교수회

    제 68 조 (기능)
    학사에 관한 중요사항 등을 심의하기 위하여 교수회를 둔다.

    제 69 조 (구성)
    교수회는 조교수 이상의 전임교원으로 구성한다.

    제 70 조 (소집)
    교수회는 총장이 소집하고 그 의장이 된다. 다만, 전체 교수의 3분의 1이상이 소집을 요청할 때에는 총장은 지체없이 소집하여야 한다.
    총장은 필요시 학사부총장, 기획처장, 교무처장 순으로 의장을 대행하게 할 수 있다.

    제 71 조 (심의사항)
    교수회는 특별한 규정이 없는한 다음 사항을 심의한다.
    입학에 관한 사항
    수업 및 연구에 관한 사항
    교과과정에 관한 사항
    학생의 지도 및 징계에 관한 사항
    장학 및 후생에 관한 사항
    졸업 및 수료에 관한 사항
    기타 대학운영에 관한 중요한 사항

    제 72 조 (회의)
    교수회는 재적인원 과반수의 출석과 출석인원 과반수의 찬성으로 의결한다.


    제 11 장 공개강좌

    제 50 조 (공개강좌)
    교양, 학술 또는 실무에 관한 이론과 기술을 보급하기 위하여 공개강좌를 둘 수 있다.
    공개강좌에 관한 규정은 총장이 따로 정한다.


    한동대학교의 정기휴업일에 포함되지 않는 휴업일은 무엇인가요? 제 3 장 학년, 학기, 수업일수 및 휴업일

    제 7 조 (학년도 및 학기)
    학년도는 3월 1일부터 다음해 2월말일까지로 한다.
    학년도는 다음과 같이 두 학기로 나누는 것을 원칙으로 한다. 다만, 수업은 2주를 초과하지 않는 범위내에서 학기 개시일 전에 개강할 수 있다.
    제1학기 : 3월 1일부터 8월 31일까지
    제2학기 : 9월 1일부터 다음해 2월 말일까지
    하기 및 동기 방학기간 중에 1개 이상의 계절학기를 둘 수 있으며, 계절학기 운영에 관한 사항은 총장이 따로 정한다.
    정규학기 중 학생들이 자기주도적 학습활동을 할 수 있는 자유학기를 둘 수 있으며, 자유학기 운영에 관한 사항은 총장이 따로 정한다.
    정규학기 및 계절학기 중 학생들이 진로적성 탐색에 집중하거나 문제발굴과 해결을 위한 참여적 학습활동 위주의 혁신학기를 둘 수 있 으며, 혁신학기 운영에 관한 사항은 총장이 따로 정한다.

    제 8 조 (수업일수)
    수업일수는 매학년도 30주(매학기 15주)이상으로 한다. 다만, 교과목 특성 등을 고려하여 총장이 필요하다고 특별히 인정하는 경우에 는 해당 교과의 수업일수를 단축하여 운영할 수 있으며, 이 경우 학점당 15시간 이상의 수업시간을 준수하여야 한다.
    자유학기 및 혁신학기의 수업일수는 별도로 하며, 이에 관한 세부사항은 총장이 따로 정한다.
    천재지변, 기타 교무 형편상 부득이한 사유로 소정의 수업일수를 충당할 수 없는 경우에는 고등교육법시행령 제11조 제3항의 규정에 따 라 2주이내의 범위에서 수업일수를 감축할 수 있다.

    제 9 조 (휴업일)
    정기휴업일은 국정 공휴일 및 일요일로 한다.
    하기 및 동기 휴가기간은 총장이 따로 정한다.
    휴업일이라도 필요한 때에는 실험ᆞ실습 등을 과할 수 있다.
    임시휴업은 필요에 따라 총장이 정한다.


    제 1 장 총칙

    제 1 조 (목적)
    이 학칙은 한동대학교(이하 "이 대학교"라 한다) 교훈의 실천과 교육이념, 교육목적 및 교육목표를 달성하기 위한 교육조직, 학사운영 등에 관한 사항을 규정함을 목적으로 한다.

    제 2 조 (교훈, 교육이념, 교육목적, 교육목표)
    이 대학교의 교훈, 교육이념, 교육목적, 그리고 교육목표는 다음 각 호와 같다.
    교훈 : 사랑, 겸손, 봉사
    교육이념 : 대한민국의 교육이념과 기독교정신을 바탕으로 지성·인성·영성 교육을 통하여 세상을 변화시키는 지도자를 양성한다.
    교육목적 : 기독교 정신에 기반 한 수준 높은 교수·연구를 통해 참된 인간성과 창조적 지성을 갖춘 지도적 인재를 양성하고 학술을 진흥하며 이를 통해 지역사회 및 국가의 발전과 인류 번영에 기여한다.
    교육목표 : 기독교 정신, 학문적 탁월성, 세계시민 소양, 그리고 훌륭한 기독교적 인성, 특히 정직과 봉사의 희생정신을 겸비한 민족과세계를 변화시키는 새로운 지도자를 배출한다.

    제 3 조 (교육조직)
    이 대학교에 별표와 같은 학부(과)와 교양 및 실무과정 운영을 위한 글로벌리더십학부(Global Leadership School)를 둔다.
    이 대학교의 행정조직, 대학원, 부속기관, 부속연구소의 조직에 관한 사항은 직제 및 업무분장규정으로 정한다.
    각 대학원의 학칙과 학위수여에 관한 세부사항 및 교육조직의 운영에 필요한 사항은 총장이 따로 정한다.

    제 4 조 (전공 및 학생정원)
    이 대학교의 모집단위별 학생정원은 별표 1과 같다.
    이 대학교의 모집단위내 개설전공, 학과, 학부, 계열 정원은 2학년 진학부터 적용하며 그 정원은 별표 2와 같다.
    학부에는 2이상의 전공을 둘 수 있다.


    총학생회는 학생 자치활동에 어떤 영향을 미치나요? 제 12 장 학생활동

    제 51 조 (학생활동)
    학생은 이 대학교의 건학정신에 따라 덕성을 기르고 교칙을 준수하며 전심ᆞ성의로 학업에 종사하고 신체를 단련하여 사회의 지도자가 될 자질을 닦아야 한다.

    제 52 조 (총학생회)
    건전한 학풍을 조성하고 학생자치활동을 신장시키기 위하여 한동대학교 총학생회(이하 '총학생회'라 한다)를 둔다.
    총학생회의 조직과 운영에 관한 사항은 총장의 승인을 얻어 학생회칙으로 따로 정한다.
    전시·사변 또는 이에 준하는 국가 비상사태시에는 그 활동이 정지된다.

    제 53 조 (회비)
    총학생회 회원은 소정의 회비를 납부하여야 한다.

    제 54 조 (학생지도)
    학업 및 학생생활을 지도하기 위하여 담임지도교수를 둘 수 있다.
    담임지도교수는 학생이 건전한 사고방식을 지닌 유능한 학생이 되도록 학생지도에 최선의 노력을 다한다.

    제 55 조 (학생지도위원회)
    학생자치 활동을 비롯한 학생들의 생활전반에 관한 사항을 지도, 협의하기 위하여 학생지도위원회를 둔다.
    학생지도위원회는 위원장 1인을 포함한 11인 이내의 위원으로 구성하되, 학생인재개발처장을 위원장으로 하고 교목실장, RC학장은 당연직위원이 되며 그외 위원은 전임교원중에서 총장이 임명한다.
    학생지도위원회의 운영에 관하여 필요한 사항은 총장이 따로 정한다.

    제 56 조 (학업방해 행위의 금지)
    학생은 학내에서 정치적 활동을 할 수 없으며, 수업ᆞ연구 등 학교의 기본기능 수행을 방해하는 개인 또는 단체의 어떠한 행위도 할 수 없 다.

    제 57 조 (학생단체의 승인)
    총학생회 이외의 학생단체를 조직하고자 할 때에는 학생지도위원회의 승인을 받아야 한다.

    제 58 조 (간행물)
    학생의 간행물 발간, 배포 및 게시에 관한 사항은 총장이 따로 정한다.


    제 16 장 직제

    제 67 조 (직제)
    이 대학교의 직제는 따로 정한다.


  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.3
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 1
  • per_device_eval_batch_size: 1
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 1
  • per_device_eval_batch_size: 1
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss val-eval_cosine_accuracy
0.0661 500 0.1275 0.9828
0.1321 1000 0.0327 0.9869
0.1982 1500 0.019 0.9884
0.2643 2000 0.0167 0.9888
0.3303 2500 0.0126 0.9910
0.3964 3000 0.009 0.9921
0.4625 3500 0.0156 0.9903
0.5285 4000 0.0114 0.9880
0.5946 4500 0.0121 0.9869
0.6607 5000 0.0099 0.9843
0.7267 5500 0.0139 0.9929
0.7928 6000 0.0083 0.9764
0.8589 6500 0.0146 0.9876
0.9249 7000 0.0083 0.9918
0.9910 7500 0.0063 0.9925
1.0 7568 - 0.9910
1.0571 8000 0.0112 0.9873
1.1232 8500 0.0092 0.9903
1.1892 9000 0.0101 0.9933
1.2553 9500 0.0062 0.9959
1.3214 10000 0.006 0.9914
1.3874 10500 0.005 0.9936
1.4535 11000 0.0058 0.9951
1.5196 11500 0.004 0.9918
1.5856 12000 0.0055 0.9929
1.6517 12500 0.0037 0.9948
1.7178 13000 0.0062 0.9951
1.7838 13500 0.0027 0.9966
1.8499 14000 0.0041 0.9944
1.9160 14500 0.0023 0.9963
1.9820 15000 0.0012 0.9948
2.0 15136 - 0.9966
2.0481 15500 0.0041 0.9884
2.1142 16000 0.0052 0.9929
2.1802 16500 0.003 0.9970

Framework Versions

  • Python: 3.10.13
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.2
  • PyTorch: 2.0.1+cu118
  • Accelerate: 0.34.2
  • Datasets: 3.0.0
  • Tokenizers: 0.20.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
3
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for TARARARAK/HGU_rulebook-fine-tuned-Kure-v1_TripletLoss

Base model

BAAI/bge-m3
Finetuned
nlpai-lab/KURE-v1
Finetuned
(1)
this model

Evaluation results