August 6th, 2013

Полевое тестирование HT-сканера

Дисклеймер: описывается краткий отчёт по полевому испытанию портативной системы high throughput scanning.

Обрабатываемыми материалами являлась багажная сумка, набитая всевозможными бумагами, документами, газетами, брошюрами и тетрадями. Также было несколько фотографий и физических артефактов.

Начальным этапом - пробоподготовкой к высокопроизводительному сканированию являлись извлечения листов из файликов, пакетов, обложек с папками, разуплотнение укладки листов и (очень важное) извлечение скоб (это напоминает про критическую важность наличия расшивателя).

Процедура разбивалась по запускам - серийному сканированию бумаг одного типа на одних настройках, двусторонний режим с пропуском пустых страниц использовался всё время вместе с автокоррекцией поворота бумаги, автоопределения размера и автовыравниванию по направлению текста. Также выполнялась группировка по размеру бумаг.
Общие документы и прочие бумаги, не содержавшие цвета, сканировались в оттенках серого на 200 DPI
Явно ценные документы со штампами с подписями и цветные бумаги сканировались в цвете на 200-300 DPI
Фотографии сканировались в цвете на 600 DPI.
Формат хранения - 1 изображение на TIFF-файл со сжатием "выше среднего" (более точно ПО к сканеру не позволяет задать), алгоритм JPEG, цвета - YCbCr либо оттенки серого.
Ограничения возможностей сканера: опасность скрепок, невозможность работы с прозрачками, с толстым картоном и недостаточная эффективность подавления захвата многих листов сразу. Примечательно что система стабильно и эффективно работала с UMPC.

Статистика: ~6 часов работы, свыше 2 из которых это пробоподготовка, 1 810 сканов, 923 Мб.

Основные типы ошибок: захват нескольких листов (потеря сторон и листов) вплоть до замятия, геометрические искажения при протаскивании, ложноположительные сканы (скан пустой страницы), ложноотрицательные сканы (пропуск страницы с изображением  как пустой), неверная оценка ориентации страницы. Часть ошибок порождена недостаточностью механики, часть связана с проблемностью исходного материала, часть с проблемами процессинга изображения "на лету". Также возможны дупликации и нарушения порядка следования при пересканировании замятых листов.

Из-за изначально высокой хаотичности расположения бумаг специальных мер по обеспечению порядка следования не проводилось (это многократно замедлило-бы работу при большом числе "блоков" бумаг), но было сохранено приближённое расположение.

Необходимая обработка "сырых" сканов: удаление пустых страниц (частый случай), обрезка краёв вне скана, коррекция яркости/контраста и цветового баланса. Более высокоуровневая (трудно реализуемая автоматически на данный момент) коррекция включает в себя удаление дупликаций листов, корректный по тексту поворот (частый случай), компенсация геометрических искажений и детекция некорректных изображений (например, скан наложения листов). Последующей обработкой является распознавание текста и построение из него поисковой базы.