--- base_model: distilbert/distilbert-base-multilingual-cased language: - ko - en library_name: sentence-transformers pipeline_tag: sentence-similarity tags: - sentence-transformers - sentence-similarity - feature-extraction - loss:MatryoshkaLoss - loss:MultipleNegativesRankingLoss widget: - source_sentence: 'query: When was the Scottish Treasury abolished?' sentences: - >- passage: 스코틀랜드 재무장관은 스코틀랜드 연합 이전 정부인 스코틀랜드 비밀 평의회에서 중요한 직책을 맡았습니다. 재무장관의 공식 직함은 고등 재무장관, 감독관, 총수집가 및 신규 증가 재무장관이었으며, 이는 이전의 네 직책이 합쳐진 결과였습니다. 이 중 재무장관과 감독관은 1425년에 대장의 재정 기능이 이들에게 이전되었을 때 시작되었습니다. 1466년부터 감독관은 왕실 가계의 재정을 전적으로 책임졌으며, 특정 수입(재산)이 배정되었고, 재무장관은 나머지 수입(사고)과 다른 지출을 담당했습니다. 1562년에 설립된 총수집가는 왕실의 수입인 교구의 3분의 1을 관리했으며, 신규 증가 재무장관은 1587년에 왕실에 합병된 이전 교회 토지를 담당했습니다. 1581년부터 엘리자베스 여왕은 제임스 6세에게 매년 일정 금액을 보냈습니다. 1599년 2월, 비밀 평의회는 재무장관이 이 영국 보조금을 관리하고 왕실 가족과 헨리 왕자의 가계에 옷을 구입하는 데 사용할 것이라고 선언했습니다. 이전 해에는 금세공인 토마스 풀리스와 직물 상인 로버트 주시가 이 돈을 관리했습니다. 네 직책은 모두 1610년부터 같은 사람이 맡았지만, 1635년에 기능이 실질적으로 통합된 후에도 각각의 직함은 유지되었습니다. 1667년부터 1682년까지 재무부는 위원회에 의해 운영되었고, 1686년부터 1708년까지 다시 위원회에 의해 운영되었으며, 이 때 스코틀랜드 재무부는 폐지되었습니다. 1690년부터 왕실은 재무장관으로 의회에 참석할 사람을 한 명 지명했습니다. - >- passage: 새뮤얼슨은 1963년부터 1967년까지 인디애나 대학교 철학과 조교를 역임했습니다. 그는 1969년부터 1970년까지 브루클린 대학교 철학과 방문 강사, 1969년부터 1973년까지 럿거스 대학교 히브리어 연구과 방문 부교수를 역임했습니다. 1973년부터 1975년까지 새뮤얼슨은 버지니아 대학교 교수진으로 있었습니다. 1975년부터 그는 템플 대학교 종교학과 부교수를 역임했습니다. 1987년 정교수가 되었으며, 1998년까지 그 직책을 유지했습니다. 그 후 그는 애리조나 주립대학교로 자리를 옮겨 종교학과에서 해롤드와 진 그로스먼 유대 연구 교수가 되었습니다. ASU에서 은퇴한 후 그는 시카고에 거주했습니다. 새뮤얼슨은 밴더빌트 대학교 신학대학과 영국의 랭커스터 대학교에서 강연했으며, 버지니아 대학교 종교학과 조교수(1973-1975), 펜실베이니아 대학교 종교학과 방문 부교수(1984), 함부르크 대학교 신학과 초빙 교수(1993년 및 1995년 여름)를 역임했습니다. - >- passage: The history of thermodynamics dates back to the mid-17th century. Otto von Guericke's invention of the first vacuum pump and Robert Boyle's experimental discovery of the relationship between the pressure and volume of a gas laid the foundation for the study of thermodynamics. The 18th century saw various scientists put forward diverse theories about heat and energy. In 1749, Émilie du Châtelet derived the conservation of energy from the first principles of Newtonian mechanics in her French translation and commentary on Newton's Philosophiae Naturalis Principia Mathematica. In 1798, Count Rumford performed experiments measuring the frictional heat generated in boring cannons, leading him to develop the idea that heat is a form of kinetic energy. His measurements were inconsistent with caloric theory, but also sufficiently imprecise as to leave room for doubt. - >- passage: The Human League released their fourth studio album, "Hysteria", on 7 May 1984 through Virgin Records. Following the worldwide success of their previous studio album "Dare" (1981), the band struggled to make a successful follow-up and the sessions for "Hysteria" were fraught with problems. The album title itself is taken from the problematic recording period. Producers Martin Rushent and Chris Thomas both left the project which would eventually be finished by producer Hugh Padgham. "Hysteria" attained relatively lacklustre success in comparison to its multi-platinum predecessor. Three singles from the album reached the top 20 of the UK Singles Chart, and "The Lebanon" was the only single to chart in the United States, peaking at number 64 on the Billboard Hot 100. The album peaked at number three on the UK Albums Chart and has been certified Gold by the British Phonographic Industry (BPI), denoting shipments in excess of 100,000 copies. license: apache-2.0 --- # SentenceTransformer based on distilbert/distilbert-base-multilingual-cased This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [distilbert/distilbert-base-multilingual-cased](https://huggingface.co/distilbert/distilbert-base-multilingual-cased). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ``` matryoshka_dims = [768, 512, 384, 256, 128, 64, 32] ``` ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [distilbert/distilbert-base-multilingual-cased](https://huggingface.co/distilbert/distilbert-base-multilingual-cased) - **Maximum Sequence Length:** 512 tokens - **Output Dimensionality:** 768 tokens - **Similarity Function:** Cosine Similarity ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) (2): Normalize() ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("lemon-mint/KoEn-Embed-Turbo-Matryoshka-v0.11-final") # Run inference sentences = [ 'query: 로마는 왜 분열 되었는가?', 'passage: 고대 로마\n로마 제국은 기독교 공인 후 교황 선출 문제를 기화로 서로마, 동로마로 분할됐으며 이민족의 침략으로 쇠퇴기에 접어들었다. 서기 5세기 경 서로마 제국은 멸망 후 게르만족의 여러 독립 국가로 갈라져 프랑크 왕국, 신성 로마 제국 등 로마의 후계자를 자처하는 여타 서유럽의 정치 세력들이 나타난다. 한편 동로마 제국은 중세 시대에 비잔티움 제국으로 발전했으나 1453년 오스만 투르크에게 멸망한다.', 'passage: 판노니아 속주\n102년에서 107년경 트라야누스 황제는 이 지역을 다시 동서로 분할하여 ‘판노니아 수페리오르’와 ‘판노니아 인페리오르’로 나누었다. 3세기에 이르면서 이 지역 출신의 황제가 여러 명이 배출되었고 전통적으로 로마 군단의 병력을 제공하는 속주로 변모하였다. 그러나 로마 제국이 쇠퇴하기 시작하면서 야만족의 침입을 받았고 395년에 로마군이 이 지역에서 완전히 철수하고 반달족이 거주하면서 판노니아는 그 명맥이 끊어졌다.', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] ``` ## Training Details ### Framework Versions - Python: 3.10.13 - Sentence Transformers: 3.0.1 - Transformers: 4.41.2 - PyTorch: 2.1.2+cpu - Accelerate: 0.30.1 - Datasets: 2.19.2 - Tokenizers: 0.19.1 ## Citation ### BibTeX