Стоит ли изобретать велосипед? (разработка собственной OCR)

Рейтинг: 1Ответов: 0Опубликовано: 19.09.2014

Привет всем! Я разрабатываю специальную систему распознавания рукописного ввода. На данный момент у меня стоит задача написать программный блок, который лишь принимает бинаризованное изображение одной буквы и возвращает значение буквы в цифровом формате (UTF, ASCII, не важно). И вот у меня мысль: быть может, не стоит писать то, что уже давно есть, а использовать готовое? Выбор пал на Taserract OCR, по которой у меня есть несколько вопросов:

  1. Умеет ли система считывать одиночные символы?
  2. Если да, то обработка одного символа должна занять небольшое время, но вот как дело обстоит с обработкой большого количества символов (1-2 тысячи за "сессию")? Быть может, собственная система, приспособленная под чтение одиночных символов, будет работать в разы быстрее, и тогда стоит писать собственную систему?
  3. Работа будет вестись с рукописным (но не прописным) текстом. То есть буквы раздельные. Хорошо ли данная система распознает с рукописные данные?
  4. Можно ли обучить систему собственным вариантам букв? Можно ли это сделать с помощью импорта в систему готовых бинаризованных GIF-изображений букв?

Обновление

Дополню. Распознавать нужно не слитный текст, а "печатный" от руки. И по первому вопросу: одиночные, значит, что на вход программы подается одно небольшое изображение с одной буквой.

Ответы

Ответов пока нет.