ИИ-система для создания правил извлечения данных из документов по шаблонам

Система сопоставления документов с размеченными примерами для извлечения структурированных данных на основе искусственного интеллекта.

Обзор клиента

Клиент работал с большими объемами структурированных и частично структурированных документов, которые необходимо было преобразовывать в структурированные данные с извлечением полей, значений, таблиц и связанных элементов данных для дальнейшей обработки во внешних системах.

Основная сложность заключалась в высокой вариативности входящих документов. Форматы различались по структуре, расположению информационных блоков, наименованиям полей и способам оформления. В результате заранее заданные правила извлечения быстро теряли точность: любое изменение шаблона или появление нового типа документа требовало ручной корректировки логики обработки.

Клиенту требовался более гибкий подход к настройке извлечения данных, позволяющий оперативно адаптировать систему под новые форматы документов без постоянной ручной доработки под каждый отдельный шаблон.

Задача

Клиенту требовалось повысить точность извлечения данных и сократить объем ручной настройки при обработке документов.

Основные задачи проекта включали:

  • Анализ исходных документов и использование готовых примеров для определения необходимых к извлечению данных
  • Определение полей, значений, таблиц и связей между ними
  • Учет различий в структуре и оформлении документов
  • Автоматическое формирование логики извлечения данных
  • Сокращение объема ручной настройки для новых типов документов
  • Ускорение адаптации извлечения при изменении шаблонов
  • Повышение стабильности выходных данных для дальнейшей обработки
  • Снижение затрат на ручную настройку обработки документов

Краткий обзор проекта

Команда СКЭНД разработала систему на Python с использованием моделей OpenAI для автоматизации настройки извлечения данных из документов. Решение работало поэтапно: сначала выполняло анализ исходного документа, затем сопоставляло его с размеченными примерами и на этой основе формировало логику извлечения данных.

На этапе анализа модуль выделял структурные блоки документа, поля, значения и пары «ключ-значение», а также приводил данные к унифицированному формату, удобному для дальнейшей обработки. Затем языковая модель сравнивала исходные документы с эталонными примерами и определяла, какие именно данные необходимо извлекать и каким образом находить их в аналогичных файлах.

Сформированная логика сохранялась в виде повторно используемого шаблона. Его можно было применять к документам одного типа, адаптировать при изменении форматов и интегрировать в общий процесс обработки данных.

Решение

Система позволила перейти от ручного написания правил к автоматической настройке извлечения данных на основе примеров.

Пользователь передавал в систему исходный документ и размеченный эталон, в котором уже были определены целевые выходные данные. Система сопоставляла исходную структуру с ожидаемым результатом, выявляла повторяющиеся элементы и формировала правила извлечения для последующей обработки документов аналогичного типа.

При изменении верстки, расположения полей или форматов значений не требовалось полностью перерабатывать логику вручную — система позволяла оперативно обновлять правила извлечения на основе нового примера.

Подход оказался особенно эффективен для документов с устойчивой семантикой данных при вариативной структуре, различающихся по оформлению, наименованиям полей и визуальному представлению информации.

Ключевые возможности

  • Анализ исходных документов и примеров
  • Определение полей, значений, таблиц и связей между ними
  • Поиск необходимых полей и связанных с ними значений
  • Автоматическое формирование логики извлечения данных
  • Повторное использование настроек для документов аналогичного типа
  • Обработка структурированных и частично структурированных файлов
  • Адаптация к изменениям в шаблонах документов
  • Сокращение ручной работы при подключении новых форматов
  • Формирование единого формата извлеченных данных для дальнейшей обработки
  • Снижение затрат на ручную настройку извлечения данных

Технологический стек

  • Бэкенд: Python
  • ИИ-модели: OpenAI
  • Обработка документов: Разбор структуры, подготовка входных данных, формирование правил извлечения
  • Типы документов: Структурированные и частично структурированные документы
  • Автоматизация: Настройка логики извлечения по исходным документам и размеченным примерам

Результаты

Система помогла клиенту быстрее настраивать извлечение данных для документов с разной структурой и оформлением. Вместо ручной разработки правил под каждый новый формат специалисты получили инструмент, который анализировал исходные документы и размеченные примеры, а затем формировал основу для автоматической обработки.

Решение повысило точность извлечения данных, сократило время настройки для новых типов документов и снизило затраты на сопровождение правил. В оригинальном кейсе также отмечены более стабильное качество выходных данных и более быстрый процесс подключения новых форматов документов.

В результате клиент получил:

  • Систему для автоматической настройки извлечения данных
  • Точную обработку документов с различной структурой
  • Сокращение ручной работы при подключении новых форматов
  • Быструю адаптацию к изменениям в шаблонах документов
  • Стабильный формат данных для дальнейшей обработки
  • Снижение затрат на создание и сопровождение правил извлечения
  • Базу для масштабирования обработки документов

Нуждаетесь в разработке похожего проекта?

Свяжитесь с нами

Мы любим новые проекты! Напишите нам, и мы ответим вам в ближайшее время.

Спасибо, что написали нам! Ваше сообщение было успешно отправлено. Мы обязательно ответим на него в ближайшее время. Пожалуйста, проверьте, получили ли Вы от нас письмо-подтверждение на указанную Вами почту.