Разработка локального ИИ-бота для поиска по внутренним документам

Краткий обзор проекта

Клиент работал с большим объемом внутренних материалов: технической документацией, рабочими инструкциями, внутренними регламентами и проектными данными. Информация хранилась в разных репозиториях и форматах, поэтому сотрудникам было сложно быстро находить точные и актуальные ответы.

Традиционный поиск позволял находить документы по ключевым словам, но не решал задачу получения готового ответа. Сотрудникам приходилось самостоятельно просматривать несколько источников, анализировать длинные фрагменты текста и сопоставлять информацию из разных документов.

Дополнительным требованием была конфиденциальность данных. Внутренние материалы содержали корпоративную информацию, которую нельзя было передавать во внешние ИИ-сервисы. Поэтому клиенту требовалось решение, работающее полностью внутри собственной инфраструктуры.

Регион: Европа
Индустрия: Корпоративное ПО / управление внутренними знаниями
Сроки: около 1 месяца

Задача

Клиенту нужно было упростить поиск информации во внутренних документах и сохранить контроль над корпоративными данными.

Основными задачами проекта стали:

Создание ИИ-бота для поиска по внутренним документам
Предоставление сотрудникам возможности задавать вопросы на естественном языке
Поиск релевантных фрагментов в технической документации, инструкциях, регламентах и проектных материалах
Формирование ответов на основе внутренних источников данных
Обработка документов различных типов и форматов
Автоматическое добавление новых и обновленных файлов в поисковый индекс
Исключение передачи внутренних документов во внешние ИИ-сервисы
Развертывание обработки документов внутри инфраструктуры клиента
Обеспечение возможности масштабирования системы и подключения новых источников данных

Решение

Команда СКЭНД разработала локального ИИ-бота для поиска по внутренним документам. Пользователь задавал вопрос в диалоговом интерфейсе, а система находила релевантные фрагменты в корпоративных материалах и передавала их языковой модели для формирования ответа с учетом внутреннего контекста.

Документы автоматически разбивались на смысловые фрагменты, для которых создавались векторные представления, хранившиеся в PostgreSQL с расширением pgvector. При обработке запроса бот выполнял семантический поиск, отбирал наиболее релевантные фрагменты и дополнял их необходимым контекстом для повышения точности ответа.

LangChain объединял поиск, подготовку контекста и генерацию ответа в единый процесс, а LangGraph управлял логикой работы бота и последовательностью шагов обработки. Для локального запуска языковых моделей без обращения к внешним API использовался Ollama.

Чтобы повысить качество ответов, команда реализовала интеллектуальное разбиение документов, расширение запросов, повторную сортировку найденных фрагментов и краткое изложение длинных текстов.

Система поддерживала PDF, Markdown, Word, Excel, TXT и изображения. Новые и обновленные материалы автоматически индексировались, что позволяло поддерживать поиск в актуальном состоянии без ручного обновления базы знаний.

Ключевые возможности

Поиск по внутренним документам через диалоговый интерфейс
Ответы на вопросы сотрудников на основе корпоративных материалов
Работа с технической документацией, инструкциями, политиками и проектными материалами
Поиск по документам разных типов и форматов
Автоматическая индексация новых и обновленных файлов
Обработка PDF, Markdown, Word, Excel, TXT и изображений
Локальный запуск языковых моделей через Ollama
Работа с корпоративными данными без передачи во внешние ИИ-сервисы
Хранение поискового индекса и данных о документах в PostgreSQL и pgvector
Повторная сортировка найденных фрагментов по релевантности
Добавление дополнительного контекста для повышения точности ответов
Возможность подключения новых документов и источников без переработки системы

Технологический стек

Бэкенд: Python
Поиск и генерация ответа: LangChain
Сценарии работы бота: LangGraph
База данных и векторный поиск: PostgreSQL, pgvector
Локальный запуск языковой модели: Ollama
Модели: BGE-M3, Qwen3
Подход к поиску: RAG
Типы файлов: изображения, PDF, Markdown, Word, Excel, TXT

Результаты

Готовым решением стал ИИ-бот для поиска по внутренним документам. Сотрудники могли задавать вопросы на естественном языке и получать ответы на основе внутренней базы знаний — технической документации, инструкций, корпоративных политик и проектных материалов.

Разработанная система сократила время поиска информации в разных репозиториях и помогла новым специалистам быстрее ориентироваться во внутренних материалах компании. При этом документы не передавались во внешние ИИ-сервисы: поиск, подготовка контекста и генерация ответов выполнялись полностью во внутренней инфраструктуре клиента.

В результате клиент получил:

ИИ-бота для поиска по внутренним документам
Точные ответы на вопросы сотрудников на основе корпоративных материалов
Снижение затрат времени на поиск информации в разных репозиториях
Локальную обработку данных без использования внешних ИИ-сервисов и рисков утечки чувствительной информации
Автоматическое добавление новых и обновленных файлов в поисковый индекс
Поиск релевантных фрагментов с использованием PostgreSQL и pgvector
Масштабируемую систему для дальнейшего роста внутренней базы документов
Быстрый доступ к внутренней информации для сотрудников и новых специалистов

Локальный ИИ-бот для работы с корпоративной базой знаний

Краткий обзор проекта

Задача

Решение

Ключевые возможности

Технологический стек

Результаты

Нуждаетесь в разработке похожего проекта?

ИИ-мониторинг новостей с Telegram-уведомлениями

ИИ-чат-бот для базы знаний

ИИ-бот в Telegram для краткого изложения статей

Свяжитесь с нами

Локальный ИИ-бот для работы с корпоративной базой знаний

Краткий обзор проекта

Задача

Решение

Ключевые возможности

Технологический стек

Результаты

Нуждаетесь в разработке похожего проекта?

Наши проекты

ИИ-мониторинг новостей с Telegram-уведомлениями

ИИ-чат-бот для базы знаний

ИИ-бот в Telegram для краткого изложения статей

Свяжитесь с нами