О клиенте
Клиент — медийная организация, работающая с новостным и аналитическим контентом. Ее аудитория — специалисты и читатели, которым важно следить за событиями в разных отраслях, но им не всегда хватает времени читать длинные материалы полностью.
Клиент хотел дать пользователям быстрый способ работать со статьями прямо в Telegram. Пользователь должен был отправить ссылку и получить краткое изложение, а при необходимости — аудиоверсию, которую можно слушать в дороге, на прогулке или во время перерыва.
Для этого требовался ИИ-бот, который мог бы собирать статьи с разных сайтов, извлекать из них основной текст, готовить точные краткие изложения и обрабатывать большое количество запросов без задержек.
Задача
Клиенту нужна была система, которая превращает длинные веб-статьи в короткие текстовые и аудиоформаты внутри Telegram.
Основные сложности проекта:
- извлекать статьи с разных новостных сайтов, не создавая лишнюю нагрузку на серверы сайтов-источников;
- обходить сложные страницы с динамическим контентом, всплывающими окнами, рекламными блоками и навигацией;
- извлекать основной текст статьи без рекламы, меню и навигационных блоков;
- формировать краткие изложения, которые сохраняют смысл и контекст исходного материала;
- превращать текстовые изложения в естественно звучащее аудио;
- поддерживать разные форматы ссылок, страниц и медийных материалов внутри Telegram;
- обрабатывать несколько запросов параллельно без заметных задержек;
- убирать повторяющуюся информацию, если одна и та же тема встречается в нескольких источниках.
Краткий обзор проекта
Мы разработали ИИ-бота в Telegram, который обрабатывает ссылку на статью от начала до конца.
Когда пользователь отправляет URL, бот открывает страницу через Playwright, извлекает основной текст статьи и удаляет лишние элементы: рекламу, меню, навигационные блоки, всплывающие окна и другой контент, который не относится к материалу.
После очистки текст приводится к формату, удобному для обработки ИИ-моделью. OpenAI формирует краткое изложение статьи, а при необходимости бот создает аудиоверсию через модель преобразования текста в речь.
В результате пользователь получает короткое текстовое изложение или аудио прямо в Telegram и может быстро понять суть статьи без ручного просмотра сайта.
Решение
Финальная версия работает как персональный новостной помощник внутри Telegram.
Пользователь отправляет ссылку на статью или подписывается на тематические подборки, а бот возвращает ему краткое изложение или аудиоверсию материала. Это помогает следить за новостями и аналитикой без долгого чтения и переключения между сайтами.
Помимо основной функции, бот собирает данные по использованию: какие статьи открывают чаще, какие изложения читают до конца, как часто пользователи запускают аудио. Эта аналитика помогает клиенту лучше подбирать источники и темы для дальнейшей обработки.
Ключевые возможности
- краткие изложения веб-статей с помощью OpenAI;
- преобразование текста в аудио для прослушивания изложений;
- извлечение текста с разных сайтов через Playwright, включая страницы с динамическим контентом;
- очистка статей от рекламы, навигации, всплывающих окон и нерелевантных блоков;
- параллельная обработка запросов без заметных задержек;
- доставка изложений и аудиоверсий внутри Telegram;
- пуш-уведомления о новых материалах;
- аналитика по просмотрам, изложениям, аудиопрослушиваниям и пользовательской активности;
- подписка на тематические подборки и обработка ссылок, которые пользователи отправляют боту.
Технологический стек
- ИИ и обработка текста: OpenAI GPT для кратких изложений, понимания контента и преобразования текста в речь;
- Извлечение текста с сайтов: Playwright;
- Мессенджер: Telegram Bot API;
- Бэкенд и обработка задач: Python, асинхронная обработка задач;
- Хранение данных и кэширование: PostgreSQL, Redis;
- Облачная инфраструктура: AWS.
Результаты
Клиент получил Telegram-бота, который помогает пользователям быстрее работать с новостными и аналитическими материалами.
Бот извлекает текст статей с внешних сайтов, готовит краткие изложения, превращает их в аудио и отправляет результат прямо в Telegram. Пользователям больше не нужно открывать несколько сайтов и читать длинные материалы полностью, чтобы понять главное.
В результате клиент получил:
- быстрое извлечение текста статей с разных сайтов;
- краткие ИИ-изложения, удобные для быстрого чтения;
- автоматическое создание аудиоверсий статей;
- единый Telegram-интерфейс для работы с материалами из разных источников;
- параллельную обработку пользовательских запросов без заметных задержек;
- аналитику по использованию статей, изложений и аудиоверсий.