Обзор клиента
Клиент работал с большими объемами структурированных и частично структурированных документов, которые необходимо было преобразовывать в структурированные данные с извлечением полей, значений, таблиц и связанных элементов данных для дальнейшей обработки во внешних системах.
Основная сложность заключалась в высокой вариативности входящих документов. Форматы различались по структуре, расположению информационных блоков, наименованиям полей и способам оформления. В результате заранее заданные правила извлечения быстро теряли точность: любое изменение шаблона или появление нового типа документа требовало ручной корректировки логики обработки.
Клиенту требовался более гибкий подход к настройке извлечения данных, позволяющий оперативно адаптировать систему под новые форматы документов без постоянной ручной доработки под каждый отдельный шаблон.
Задача
Клиенту требовалось повысить точность извлечения данных и сократить объем ручной настройки при обработке документов.
Основные задачи проекта включали:
- Анализ исходных документов и использование готовых примеров для определения необходимых к извлечению данных
- Определение полей, значений, таблиц и связей между ними
- Учет различий в структуре и оформлении документов
- Автоматическое формирование логики извлечения данных
- Сокращение объема ручной настройки для новых типов документов
- Ускорение адаптации извлечения при изменении шаблонов
- Повышение стабильности выходных данных для дальнейшей обработки
- Снижение затрат на ручную настройку обработки документов
Краткий обзор проекта
Команда СКЭНД разработала систему на Python с использованием моделей OpenAI для автоматизации настройки извлечения данных из документов. Решение работало поэтапно: сначала выполняло анализ исходного документа, затем сопоставляло его с размеченными примерами и на этой основе формировало логику извлечения данных.
На этапе анализа модуль выделял структурные блоки документа, поля, значения и пары «ключ-значение», а также приводил данные к унифицированному формату, удобному для дальнейшей обработки. Затем языковая модель сравнивала исходные документы с эталонными примерами и определяла, какие именно данные необходимо извлекать и каким образом находить их в аналогичных файлах.
Сформированная логика сохранялась в виде повторно используемого шаблона. Его можно было применять к документам одного типа, адаптировать при изменении форматов и интегрировать в общий процесс обработки данных.
Решение
Система позволила перейти от ручного написания правил к автоматической настройке извлечения данных на основе примеров.
Пользователь передавал в систему исходный документ и размеченный эталон, в котором уже были определены целевые выходные данные. Система сопоставляла исходную структуру с ожидаемым результатом, выявляла повторяющиеся элементы и формировала правила извлечения для последующей обработки документов аналогичного типа.
При изменении верстки, расположения полей или форматов значений не требовалось полностью перерабатывать логику вручную — система позволяла оперативно обновлять правила извлечения на основе нового примера.
Подход оказался особенно эффективен для документов с устойчивой семантикой данных при вариативной структуре, различающихся по оформлению, наименованиям полей и визуальному представлению информации.
Ключевые возможности
- Анализ исходных документов и примеров
- Определение полей, значений, таблиц и связей между ними
- Поиск необходимых полей и связанных с ними значений
- Автоматическое формирование логики извлечения данных
- Повторное использование настроек для документов аналогичного типа
- Обработка структурированных и частично структурированных файлов
- Адаптация к изменениям в шаблонах документов
- Сокращение ручной работы при подключении новых форматов
- Формирование единого формата извлеченных данных для дальнейшей обработки
- Снижение затрат на ручную настройку извлечения данных
Технологический стек
- Бэкенд: Python
- ИИ-модели: OpenAI
- Обработка документов: Разбор структуры, подготовка входных данных, формирование правил извлечения
- Типы документов: Структурированные и частично структурированные документы
- Автоматизация: Настройка логики извлечения по исходным документам и размеченным примерам
Результаты
Система помогла клиенту быстрее настраивать извлечение данных для документов с разной структурой и оформлением. Вместо ручной разработки правил под каждый новый формат специалисты получили инструмент, который анализировал исходные документы и размеченные примеры, а затем формировал основу для автоматической обработки.
Решение повысило точность извлечения данных, сократило время настройки для новых типов документов и снизило затраты на сопровождение правил. В оригинальном кейсе также отмечены более стабильное качество выходных данных и более быстрый процесс подключения новых форматов документов.
В результате клиент получил:
- Систему для автоматической настройки извлечения данных
- Точную обработку документов с различной структурой
- Сокращение ручной работы при подключении новых форматов
- Быструю адаптацию к изменениям в шаблонах документов
- Стабильный формат данных для дальнейшей обработки
- Снижение затрат на создание и сопровождение правил извлечения
- Базу для масштабирования обработки документов