Локальный ИИ-бот для работы с корпоративной базой знаний

ИИ-бот для поиска по внутренним документам компании с обработкой запросов на естественном языке, поиском информации в документации и локальной обработкой данных без передачи во внешние ИИ-сервисы.

Краткий обзор проекта

Клиент работал с большим объемом внутренних материалов: технической документацией, рабочими инструкциями, внутренними регламентами и проектными данными. Информация хранилась в разных репозиториях и форматах, поэтому сотрудникам было сложно быстро находить точные и актуальные ответы.

Традиционный поиск позволял находить документы по ключевым словам, но не решал задачу получения готового ответа. Сотрудникам приходилось самостоятельно просматривать несколько источников, анализировать длинные фрагменты текста и сопоставлять информацию из разных документов.

Дополнительным требованием была конфиденциальность данных. Внутренние материалы содержали корпоративную информацию, которую нельзя было передавать во внешние ИИ-сервисы. Поэтому клиенту требовалось решение, работающее полностью внутри собственной инфраструктуры.

  • Регион: Европа
  • Индустрия: Корпоративное ПО / управление внутренними знаниями
  • Сроки: около 1 месяца

Задача

Клиенту нужно было упростить поиск информации во внутренних документах и сохранить контроль над корпоративными данными.

Основными задачами проекта стали:

  • Создание ИИ-бота для поиска по внутренним документам
  • Предоставление сотрудникам возможности задавать вопросы на естественном языке
  • Поиск релевантных фрагментов в технической документации, инструкциях, регламентах и проектных материалах
  • Формирование ответов на основе внутренних источников данных
  • Обработка документов различных типов и форматов
  • Автоматическое добавление новых и обновленных файлов в поисковый индекс
  • Исключение передачи внутренних документов во внешние ИИ-сервисы
  • Развертывание обработки документов внутри инфраструктуры клиента
  • Обеспечение возможности масштабирования системы и подключения новых источников данных

Решение

Команда СКЭНД разработала локального ИИ-бота для поиска по внутренним документам. Пользователь задавал вопрос в диалоговом интерфейсе, а система находила релевантные фрагменты в корпоративных материалах и передавала их языковой модели для формирования ответа с учетом внутреннего контекста.

Документы автоматически разбивались на смысловые фрагменты, для которых создавались векторные представления, хранившиеся в PostgreSQL с расширением pgvector. При обработке запроса бот выполнял семантический поиск, отбирал наиболее релевантные фрагменты и дополнял их необходимым контекстом для повышения точности ответа.

LangChain объединял поиск, подготовку контекста и генерацию ответа в единый процесс, а LangGraph управлял логикой работы бота и последовательностью шагов обработки. Для локального запуска языковых моделей без обращения к внешним API использовался Ollama.

Чтобы повысить качество ответов, команда реализовала интеллектуальное разбиение документов, расширение запросов, повторную сортировку найденных фрагментов и краткое изложение длинных текстов.

Система поддерживала PDF, Markdown, Word, Excel, TXT и изображения. Новые и обновленные материалы автоматически индексировались, что позволяло поддерживать поиск в актуальном состоянии без ручного обновления базы знаний.

Ключевые возможности

  • Поиск по внутренним документам через диалоговый интерфейс
  • Ответы на вопросы сотрудников на основе корпоративных материалов
  • Работа с технической документацией, инструкциями, политиками и проектными материалами
  • Поиск по документам разных типов и форматов
  • Автоматическая индексация новых и обновленных файлов
  • Обработка PDF, Markdown, Word, Excel, TXT и изображений
  • Локальный запуск языковых моделей через Ollama
  • Работа с корпоративными данными без передачи во внешние ИИ-сервисы
  • Хранение поискового индекса и данных о документах в PostgreSQL и pgvector
  • Повторная сортировка найденных фрагментов по релевантности
  • Добавление дополнительного контекста для повышения точности ответов
  • Возможность подключения новых документов и источников без переработки системы

Технологический стек

  • Бэкенд: Python
  • Поиск и генерация ответа: LangChain
  • Сценарии работы бота: LangGraph
  • База данных и векторный поиск: PostgreSQL, pgvector
  • Локальный запуск языковой модели: Ollama
  • Модели: BGE-M3, Qwen3
  • Подход к поиску: RAG
  • Типы файлов: изображения, PDF, Markdown, Word, Excel, TXT

Результаты

Готовым решением стал ИИ-бот для поиска по внутренним документам. Сотрудники могли задавать вопросы на естественном языке и получать ответы на основе внутренней базы знаний — технической документации, инструкций, корпоративных политик и проектных материалов.

Разработанная система сократила время поиска информации в разных репозиториях и помогла новым специалистам быстрее ориентироваться во внутренних материалах компании. При этом документы не передавались во внешние ИИ-сервисы: поиск, подготовка контекста и генерация ответов выполнялись полностью во внутренней инфраструктуре клиента.

В результате клиент получил:

  • ИИ-бота для поиска по внутренним документам
  • Точные ответы на вопросы сотрудников на основе корпоративных материалов
  • Снижение затрат времени на поиск информации в разных репозиториях
  • Локальную обработку данных без использования внешних ИИ-сервисов и рисков утечки чувствительной информации
  • Автоматическое добавление новых и обновленных файлов в поисковый индекс
  • Поиск релевантных фрагментов с использованием PostgreSQL и pgvector
  • Масштабируемую систему для дальнейшего роста внутренней базы документов
  • Быстрый доступ к внутренней информации для сотрудников и новых специалистов

Нуждаетесь в разработке похожего проекта?

Свяжитесь с нами

Мы любим новые проекты! Напишите нам, и мы ответим вам в ближайшее время.

Спасибо, что написали нам! Ваше сообщение было успешно отправлено. Мы обязательно ответим на него в ближайшее время. Пожалуйста, проверьте, получили ли Вы от нас письмо-подтверждение на указанную Вами почту.