File size: 4,883 Bytes
cd5dd16
 
 
 
 
5018b9e
cd5dd16
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
---
license: apache-2.0
language:
- ja
base_model:
- llm-jp/llm-jp-3-8x13b
---
# SIP-med-LLM/SIP-jmed-llm-3-8x13b-OP-4k-base

このモデルは、<b>戦略的イノベーション創造プログラム(SIP)第 3 期課題「統合型ヘルスケアシステムの構築における生成 AI 活用」テーマ1「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」</b>において研究開発された、医療特化型 LLM のオープンソースライセンス・モデル(`Apache-2.0`)です。

#### プロジェクトページ: https://sip3.ncgm.go.jp/

## モデルの特性

- `SIP-jmed-llm-3-8x13b-OP-4k-base` は、ベースモデルである `llm-jp/llm-jp-3-8x13b` に対して、医学分野の知識を取り扱えるようにドメイン適応目的の継続事前学習を施した大規模言語モデルです。
- 本モデルは、指示チューニングを施す前のベースモデルとして提供されています。個々の研究開発者が特定のダウンストリームタスクのための指示チューニング等を行うことによって、指示追従性や対話応答が可能になることを想定しています。

## モデルの概要

- **ベースモデル**: [llm-jp/llm-jp-3-8x13b](https://huggingface.co/llm-jp/llm-jp-3-8x13b)に対して、SIPプロジェクトで収集した0.3T汎用コーパスで事前学習を実施したモデル
- **モデルタイプ**: トランスフォーマーベースの言語モデル
- **言語**: 日本語・英語
- **ライセンス**: Apache-2.0
- **開発者**: SIP 第 3 期 テーマ 1 研究開発チーム

## 使用目的と制限事項

このモデルは「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」における研究開発プロトタイプとして開発されました。**現段階では研究開発目的のみでの使用を想定しており、実際の臨床現場における疾患の診断や臨床意思決定支援として直接利用することは推奨されません。**

#### 制限事項

- **本モデルは研究開発段階のプロトタイプであり、実臨床における安全性・有効性の検証は十分に行われていません。**
- 開発者は、本プログラムに関し、その正確性、完全性、最新性、および品質など、いかなる保証も行わず、利用者が本プログラムを利用したこと、利用できなかったことにより生じた一切の損害について責任を負いません。
- **医療行為(診断、治療方針の決定、健康への助言など)に直接適用することは推奨されません。あくまで医療専門家による適切な判断の補助となる情報提供ツールとしての利用可能性を探る研究段階にあります。**
- **公開しているモデルを活用して「具体的な製品」を開発される場合、その製品が医療機器プログラムとして薬機法の規制対象となる可能性があることにご留意ください。**
  - プログラム医療機器の該当性に関する相談窓口:
  - [独立行政法人医薬品医療機器総合機構(PMDA; Pharmaceuticals and Medical Devices Agency)](https://www.pmda.go.jp/review-services/f2f-pre/strategies/0011.html)


## 学習データ

本モデルは以下のデータセットを用いて、ベースモデルを追加事前学習することにより開発されました:

### 追加事前学習用データセット

追加事前学習用データセットとして、主に以下の内容からなる医療系コーパス(トークン数 78.3B)を用いました。

### 文書種別

- 医学生物学論文フルテキスト
- 医学生物学論文アブストラクト
- 医療系Webクロールデータ
- 学術研究レポート
- 医学教科書
- 薬剤添付文書
- 専門機関発行文書:
    - 学会発行の診療ガイドライン
    - 医療機関・行政機関による医療関連文書
    - 製薬企業等による医療情報・医薬品情報
- ベンチマークの学習用データセット:医師国家試験過去問(2006年から2017年までの12年分)、USMLE過去問を含む

### 指示チューニング用データセット

本モデルは指示チューニングを施す前のベースモデルとして提供されています。

## 技術仕様の詳細

トークナイザーなどの詳細な技術仕様については、[llm-jp/llm-jp-3-8x13b](https://huggingface.co/llm-jp/llm-jp-3-8x13b)のページを参照してください。

## メンテナンス情報

- リリース日: 2025 年 10 月 13 日
- 最終更新日: 2025 年 10 月 13 日
- バージョン: 1.0.0
- 問い合わせ先: [[email protected]]([email protected]) へご連絡ください。