metadata

license: mit
language:
  - lat
datasets:
  - CATMuS/medieval
tags:
  - trocr
  - image-to-text
widget:
  - src: >-
      https://huggingface.co/medieval-data/trocr-medieval-latin-caroline/resolve/main/images/heldout1.png
    example_title: Heldout Sample 1

About

This is a TROcr model for medieval Latin, specifically the Caroline script. The base model was microsoft/trocr-base-handwritten It was finetuned from the examples in the CATMuS dataset.

The model has not been formally tested. Preliminary examination indicates that further finetuning is needed.

Finetuning was done with finetune.py found in this repository.

Usage

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('medieval-data/trocr-medieval-latin-caroline/')
model = VisionEncoderDecoderModel.from_pretrained('medieval-data/trocr-medieval-latin-caroline/')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]