Информационные технологии
Автоматизированные системы управления
Средства и системы безопасности
Средства радиосвязи

Информационно-технологическая система ретроконверсии

Автоматизация библиотечной деятельности невозможна без наличия такого важного элемента, как электронный каталог, который является ядром библиотечной технологии. В связи с вводом в эксплуатацию нового здания Национальной библиотеки Беларуси и внедрения Автоматизированной библиотечной информационной системы (АБИС) встал вопрос о ретроконверсии карточных каталогов. 


Ретроспективная конверсия — перевод уже имеющейся библиографической информации на традиционных носителях (карточных каталогах) в более удобную для использования машиночитаемую форму. 


 
 
Вследствие специфики предметной области, задача ретроконверсии, потребовала от специалистов НП РУП «Агат-Систем» разработки уникальной промышленной Информационно-технологической системы ретроконверсии (ИТСР), включающей набор технических средств и программных продуктов, потребовала выполнения целого комплекса мероприятий по организации рабочих мест и обучению персонала.
 
В рамках задания необходимо обработать ~ 3,5 млн. карточек шести различных карточных каталогов, срок выполнения задания — 2 года (ноябрь 2005 г. — октябрь 2007 г.).
 
 
Ключевым моментом в процессе ретроконверсии является представление информации с каталожной карточки в виде текста и последующая обработка полученного текста с целью выделения элементов библиографического описания и формирования электронных записей в MARC-формате. В целом работа по ретроконверсии включает: 
 
  1. Сканирование каталожных карточек;
  2. Распознавание («расшифровка») графических образов карточек специальным программным обеспечением с целью получения текстов;
  3. Обработка текстов каталожных карточек, выделение отдельных элементов библиографического описания;
  4. Формирование записей в MARC-формате.
 
Операцию получения текста с карточки можно считать типовой, т.к. для этого существуют специальные пакеты программ, использующие метод распознавания образов и преобразования (или расшифровывания) текста с графического источника. Поэтому разработанная в НП РУП «Агат-Систем» ИТСР предполагает обработку информации уже распознанных после сканирования каталожных карточек. Построена система на базе СУБД Oracle с использованием архитектуры "клиент-сервер", что обеспечивает хранение и обработку значительных объемов информации, интенсивное совместное использование ресурсов пользователями специализированных рабочих мест.
 
ИТСР состоит из: 
 
  1. Базы данных (БД) для хранения и накопления информации;
  2. Комплекса программ, предназначенных для сопровождения базы данных, контроля завершения технологических операций, а также администрирования системы и учета работы персонала;
  3. Нескольких видов автоматизированных рабочих мест (АРМ), функционально различных в зависимости от выполняемых работ на соответствующей стадии технологического процесса:
    •  АРМ корректировки (нормализации) текста.

    Какое бы совершенное программное обеспечение не использовалось для распознавания, встречаются символы, которые распознаются неуверенно (или не распознаются вовсе, т.к. выполнены рукописным способом или физические характеристики каталожной карточки не позволили получить после сканирования удовлетворительный образ). Поэтому все тексты, полученные после программной «расшифровки» должны проходить стадию ручной обработки. Суть этой обработки заключается в корректировке текстов операторами с помощью специального программного обеспечения

    • АРМ ОТК текста;
    • АРМ маркировки текста;
    • АРМ ОТК маркировки текста;
    • АРМ ОТК назначений.

    Выполняется проверка отнесения карточек различного вида в соответствующие информационные потоки.

    • АРМ администратора системы;
  4. Комплекса программ для автоматизированной обработки текстов каталожных карточек с целью выделения отдельных элементов библиографического описания, соответствующих полям Белорусского коммуникативного формата BELMARC, разработанного на основе UNIMARC.

Данный комплекс программ включен в состав АРМ маркировки, существенно снижает трудоемкость данной технологической операции, т.к. позволяет автоматически определить и выделить в текстах каталожных карточек до 64 полей MARC-формата. 

  1. Комплекса программ для контроля полей библиографических описаний и выгрузки данных в выходные файлы для информационного обмена. 

Выгрузка информации из БД ИТСР осуществляется в файлы, структурированные в соответствии с ГОСТ 7.14-98 (ISO 2709-96).

  1. Программы контроля библиографических записей.

Данный модуль не имеет интерфейса с базой данных ИТСР и предназначен для проведения выборочного или сплошного контроля выходных файлов с целью приемки специалистами заказчика.

 Особенности обработки информации, реализованные в системе.

 

  • Основная особенность обработки информации в ИТСР — верификация, т. е. проверка правильности выполнения основных операций (корректировка и маркировка текста). Режим верификации заключается в выполнении двукратной обработки информации одной каталожной карточки двумя исполнителями и последующего автоматического определении рассогласования в данных. Принятие решения для устранения обнаруженных ошибок производится операторами АРМ ОТК.
  • В связи с особыми требованиями стандарта на составление многоуровневых библиографических описаний, в первую очередь на многотомные документы, а также сериальные и другие продолжающиеся ресурсы, был разработан специальный пользовательский и программный интерфейс. Таким образом, ИТСР позволяет производить «слияние» данных нескольких каталожных карточек или «разбиение» данных одной карточки на логические блоки и последующую их обработку, причем с возможностью привязки инвентарных номеров единиц хранения к соответствующим томам.
  • Следует отметить заложенные в системе принципы распределения информации при обработке: при корректировке текста информация на рабочие места поступает в случайном порядке, а на самой ответственной операции — маркировке текста (библиографической разметке) — информация на рабочие места поступает в виде последовательных, ограниченных по количеству карточек блоков данных, соответствующих физическому размещению в ящиках хранения. Такие технологические принципы обработки гарантируют возможность выгрузки в выходной файл только завершенных блоков данных, кратных каталожному ящику.
 

Технологические принципы, заложенные в ИТСР, направлены, прежде всего, на обеспечение жестких требований к качеству создаваемых библиографических записей. При контроле 5% выборки библиографических записей, выгружаемых в выходной файл, система обеспечивает не более одной ошибки в маркере (MARC-поле) на 10 записей.