Краткий обзор проекта
Клиент работал с большим объемом внутренних материалов: технической документацией, рабочими инструкциями, внутренними регламентами и проектными данными. Информация хранилась в разных репозиториях и форматах, поэтому сотрудникам было сложно быстро находить точные и актуальные ответы.
Традиционный поиск позволял находить документы по ключевым словам, но не решал задачу получения готового ответа. Сотрудникам приходилось самостоятельно просматривать несколько источников, анализировать длинные фрагменты текста и сопоставлять информацию из разных документов.
Дополнительным требованием была конфиденциальность данных. Внутренние материалы содержали корпоративную информацию, которую нельзя было передавать во внешние ИИ-сервисы. Поэтому клиенту требовалось решение, работающее полностью внутри собственной инфраструктуры.
- Регион: Европа
- Индустрия: Корпоративное ПО / управление внутренними знаниями
- Сроки: около 1 месяца
Задача
Клиенту нужно было упростить поиск информации во внутренних документах и сохранить контроль над корпоративными данными.
Основными задачами проекта стали:
- Создание ИИ-бота для поиска по внутренним документам
- Предоставление сотрудникам возможности задавать вопросы на естественном языке
- Поиск релевантных фрагментов в технической документации, инструкциях, регламентах и проектных материалах
- Формирование ответов на основе внутренних источников данных
- Обработка документов различных типов и форматов
- Автоматическое добавление новых и обновленных файлов в поисковый индекс
- Исключение передачи внутренних документов во внешние ИИ-сервисы
- Развертывание обработки документов внутри инфраструктуры клиента
- Обеспечение возможности масштабирования системы и подключения новых источников данных
Решение
Команда СКЭНД разработала локального ИИ-бота для поиска по внутренним документам. Пользователь задавал вопрос в диалоговом интерфейсе, а система находила релевантные фрагменты в корпоративных материалах и передавала их языковой модели для формирования ответа с учетом внутреннего контекста.
Документы автоматически разбивались на смысловые фрагменты, для которых создавались векторные представления, хранившиеся в PostgreSQL с расширением pgvector. При обработке запроса бот выполнял семантический поиск, отбирал наиболее релевантные фрагменты и дополнял их необходимым контекстом для повышения точности ответа.
LangChain объединял поиск, подготовку контекста и генерацию ответа в единый процесс, а LangGraph управлял логикой работы бота и последовательностью шагов обработки. Для локального запуска языковых моделей без обращения к внешним API использовался Ollama.
Чтобы повысить качество ответов, команда реализовала интеллектуальное разбиение документов, расширение запросов, повторную сортировку найденных фрагментов и краткое изложение длинных текстов.
Система поддерживала PDF, Markdown, Word, Excel, TXT и изображения. Новые и обновленные материалы автоматически индексировались, что позволяло поддерживать поиск в актуальном состоянии без ручного обновления базы знаний.
Ключевые возможности
- Поиск по внутренним документам через диалоговый интерфейс
- Ответы на вопросы сотрудников на основе корпоративных материалов
- Работа с технической документацией, инструкциями, политиками и проектными материалами
- Поиск по документам разных типов и форматов
- Автоматическая индексация новых и обновленных файлов
- Обработка PDF, Markdown, Word, Excel, TXT и изображений
- Локальный запуск языковых моделей через Ollama
- Работа с корпоративными данными без передачи во внешние ИИ-сервисы
- Хранение поискового индекса и данных о документах в PostgreSQL и pgvector
- Повторная сортировка найденных фрагментов по релевантности
- Добавление дополнительного контекста для повышения точности ответов
- Возможность подключения новых документов и источников без переработки системы
Технологический стек
- Бэкенд: Python
- Поиск и генерация ответа: LangChain
- Сценарии работы бота: LangGraph
- База данных и векторный поиск: PostgreSQL, pgvector
- Локальный запуск языковой модели: Ollama
- Модели: BGE-M3, Qwen3
- Подход к поиску: RAG
- Типы файлов: изображения, PDF, Markdown, Word, Excel, TXT
Результаты
Готовым решением стал ИИ-бот для поиска по внутренним документам. Сотрудники могли задавать вопросы на естественном языке и получать ответы на основе внутренней базы знаний — технической документации, инструкций, корпоративных политик и проектных материалов.
Разработанная система сократила время поиска информации в разных репозиториях и помогла новым специалистам быстрее ориентироваться во внутренних материалах компании. При этом документы не передавались во внешние ИИ-сервисы: поиск, подготовка контекста и генерация ответов выполнялись полностью во внутренней инфраструктуре клиента.
В результате клиент получил:
- ИИ-бота для поиска по внутренним документам
- Точные ответы на вопросы сотрудников на основе корпоративных материалов
- Снижение затрат времени на поиск информации в разных репозиториях
- Локальную обработку данных без использования внешних ИИ-сервисов и рисков утечки чувствительной информации
- Автоматическое добавление новых и обновленных файлов в поисковый индекс
- Поиск релевантных фрагментов с использованием PostgreSQL и pgvector
- Масштабируемую систему для дальнейшего роста внутренней базы документов
- Быстрый доступ к внутренней информации для сотрудников и новых специалистов