SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct

このモデルは、戦略的イノベーション創造プログラム（SIP）第 3 期課題「統合型ヘルスケアシステムの構築における生成 AI 活用」テーマ１「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」において研究開発された、医療特化型 LLM のオープンソースライセンス・モデル（Apache-2.0）です。

プロジェクトページ: https://sip3.ncgm.go.jp/

モデルの特性

SIP-jmed-llm-2-8x13b-OP-instruct は、ベースモデルである llm-jp/llm-jp-3-8x13b に対して、医学分野の知識を取り扱えるようにドメイン適応を施した大規模言語モデルです。

モデルの概要

ベースモデル: llm-jp/llm-jp-3-8x13bに対して、SIPプロジェクトで収集した0.3T汎用コーパスで事前学習を実施したモデル
モデルタイプ: トランスフォーマーベースの言語モデル
言語: 日本語・英語
ライセンス: Apache-2.0
開発者: SIP 第 3 期テーマ 1 研究開発チーム

使用目的と制限事項

このモデルは「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」における研究開発プロトタイプとして開発されました。現段階では研究開発目的のみでの使用を想定しており、実際の臨床現場における疾患の診断や臨床意思決定支援として直接利用することは推奨されません。

制限事項

本モデルは研究開発段階のプロトタイプであり、実臨床における安全性・有効性の検証は十分に行われていません。
開発者は、本プログラムに関し、その正確性、完全性、最新性、および品質など、いかなる保証も行わず、利用者が本プログラムを利用したこと、利用できなかったことにより生じた一切の損害について責任を負いません。
医療行為（診断、治療方針の決定、健康への助言など）に直接適用することは推奨されません。あくまで医療専門家による適切な判断の補助となる情報提供ツールとしての利用可能性を探る研究段階にあります。

学習データ

本モデルは以下のデータセットを用いて、ベースモデルを追加事前学習することにより開発されました：

追加事前学習用データセット

追加事前学習用データセットとして、主に以下の内容からなる医療系コーパス（トークン数 44.2B）を用いました。

文書種別

医学生物学論文フルテキスト
医学生物学論文アブストラクト
医療系Webクロールデータ
学術研究レポート
医学教科書
薬剤添付文書
専門機関発行文書：
- 学会発行の診療ガイドライン
- 医療機関・行政機関による医療関連文書
- 製薬企業等による医療情報・医薬品情報
ベンチマークの学習用データセット：医師国家試験過去問（2006年から2017年までの12年分）、USMLE過去問を含む

指示チューニング用データセット

追加事前学習の後、以下のデータセットを用いた指示チューニングも実施されています。

SIPプロジェクトで開発された医療系指示チューニング用データセット
llm-jp/llm-jp-3-13b が公開している指示チューニング用データセットの一部
医療系ベンチマークデータセットの学習用データセット（医師国家試験過去問題や USMLE 過去問題など）

必要なライブラリ

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3")
model = AutoModelForCausalLM.from_pretrained("SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "心筋梗塞の主要な症状を教えて下さい。"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

技術仕様の詳細

トークナイザーなどの詳細な技術仕様については、llm-jp/llm-jp-3-8x13bのページを参照してください。

メンテナンス情報

リリース日: 2025 年 4 月 30 日
最終更新日: 2025 年 4 月 30 日
バージョン: 1.0.0
問い合わせ先: [email protected] へご連絡ください。

謝辞

本モデルの開発にあたり、コーパス構築において国立国語研究所（NINJAL）より日本語コーパスの提供を受けました。また、科学技術振興機構（JST）にはJ-GLOBAL収載の医学論文アブストラクトデータを提供いただきました。両機関のご協力に深く感謝申し上げます。

SIP-med-LLM
/

SIP-jmed-llm-2-8x13b-OP-instruct