bbow 좌표 출력을 제대로 못 할 경우 해결방법 문의

by retriever0712 - opened Sep 11

Sep 11

안녕하세요 최근 한국어에 특화된 OCR 모델이 오픈소스로 공개되었다는 소식을 들어 감사한 마음으로 모델을 활용하고 있습니다. 저는 현재 이미지 내 글자 인식 결과 + bbox 결과를 활용하여 이미지 전체에서 글자에만 한정된 canny edge map을 만들어보고자 하고 있기 때문에 글자 인식 결과는 물론이고 bbox 좌표가 필요한 상황인데 conversation text 부분에 아무리 구체적으로 프롬프트를 넣어도 단어 자체만 출력하고 단어의 bbox 좌표는 출력되지 않는 상황이 발생하여 해당 문제를 어떻게 해결할 수 있을지 문의드립니다. 좋은 모델 공개해주셔서 감사합니다.

jaycha

NCSOFT org Sep 12

안녕하세요. 저희 모델 사용해주셔서 감사합니다 :)
저희가 실수로 README에서 Usage를 잘못 업데이트 했네요.
OCR with bbox 기능은 아래와 같이 special token을 넣어주어야 동작합니다!
README도 수정했으니 참고해주세요. 감사합니다!

conversation = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "<ocr>"},  # <- HERE
        ],
    },
]

jaycha

NCSOFT org Sep 12

혹시 위에 안내드린대로 해도 잘안되시면 편하게 문의주세요!

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment