Tomohiro
/

MedTXTNER

Token Classification

Model card Files Files and versions

MedTXTNER / README.md

Tomohiro's picture

Update README.md

fd9e32a verified 6 months ago

|

history blame contribute delete

2.37 kB

	---
	library_name: transformers
	tags:
	- japanese
	- ner
	- medical
	---

	# Model Card for `Tomohiro/MedTXTNER`

	本モデルは、日本語医療テキストの NER（固有表現抽出）タスク向けに `cl-tohoku/bert-base-japanese-v3` をファインチューニングしたモデルです。

	## モデル詳細

	### 説明
	- ベースに `cl-tohoku/bert-base-japanese-v3`を使用
	- 奈良先端大で作成された日本語医療テキストのアノテーション付きデータ（症例報告、読影レポート、看護記録）でファインチューニングを実施

	\| 項目 \| 詳細 \|
	\|-------------------------\|----------------------------------------\|
	\| Developed by \| NAIST ソーシャルコンピューティング研究室 \|
	\| Model type \| Token classification 　　 \|
	\| Language(s) \| Japanese \|
	\| Finetuned from \| cl-tohoku/bert-base-japanese-v3 \|

	### モデルソース
	- Hub リポジトリ: https://huggingface.co/Tomohiro/MedTXTNER

	## 利用方法

	```python
	import torch
	from transformers import AutoTokenizer, AutoModelForTokenClassification

	model_dir = "Tomohiro/MedTXTNER"
	model = AutoModelForTokenClassification.from_pretrained(model_dir)
	tokenizer = AutoTokenizer.from_pretrained(checkpoint_dir, use_fast=True)
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model.to(device)
	model.eval()

	def predict_text(text: str):
	enc = tokenizer(
	text,
	return_tensors="pt",
	truncation=True,
	padding="max_length",
	max_length=512,
	is_split_into_words=False
	).to(device)

	with torch.no_grad():
	outputs = model(**enc)
	logits = outputs.logits

	pred_ids = torch.argmax(logits, dim=-1)[0].cpu().tolist()
	tokens = tokenizer.convert_ids_to_tokens(enc["input_ids"][0])
	id2label = model.config.id2label

	result = []
	for tok, pid in zip(tokens, pred_ids):
	if tok in tokenizer.all_special_tokens:
	continue
	result.append((tok, id2label[pid]))
	return result

	sample = "症例】５３歳女性。発熱と嘔気を認め、プレドニゾロンを中断しました。"
	for tok, lab in predict_text(sample):
	print(f"{tok}\t{lab}")