Гибридный подход к анализу транскриптов колл-центра: снижение нагрузки на LLM за счёт предварительной фильтрации
Автор: Ивангай • Февраль 26, 2026 • Статья • 1,338 Слов (6 Страниц) • 3 Просмотры
Гибридный подход к анализу транскриптов колл-центра: снижение нагрузки на LLM за счёт предварительной фильтрации
Арсланов Ринат Маратович1, Дубинин Ярослав Александрович2, Суровцев Егор Сергеевич3
1, 2, 3Северный (Арктический) федеральный университет, Архангельск, Россия
1arslanov.r@edu.narfu.ru
2surovcev.e@edu.narfu.ru
3dubinin.y@edu.narfu.ru
Научный руководитель: Васендина Ирина Сергеевна, кандидат технических наук, доцент
Аннотация. В данной статье представлен обзор гибридной системы для поэтапной разметки транскрибированных данных с целью выявить группу кандидатов на удержание. Метод сочетает классическое программирование и современные языковые модели. Такой способ позволяет снизить нагрузку на дорогостоящие LLM, существенно не теряя в точности.
Ключевые слова: отток клиентов, большие языковые модели (LLM), обработка естественного языка, предварительная фильтрация, колл-центр, гибридная система.
Введение
Использование систем на основе искусственного интеллекта (ИИ) позволяет решить ряд задач более эффективно. Распространенной практикой является применение ИИ-ассистентов в задаче оттока клиентов для опроса клиентов из «группы риска». Однако ИИ-ассистент не всегда показывает наивысшую точность, что влияет на полноту (recall) удержания, так, например, в телекоммуникационной отрасли приемлемым считается уровень recall не менее 85 % (Леонов, 2022: 230). Цель работы — повысить полноту (recall) выявления клиентов, склонных к оттоку, за счёт гибридного подхода, в котором логические правила обрабатывают явные сигналы, а LLM — только спорные и неоднозначные случаи, что одновременно повышает recall и снижает вычислительную нагрузку.
Материалы и методы
Исходными данными являлся массив из 7811 транскрибированных диалогов между клиентами компании и ИИ-ассистентом, предоставленных в рамках Хакатона. Изначально диалоги были размечены ИИ-ассистентом по 9 категориям на основании ответа на вопрос «Подскажите, пожалуйста, планируете ли вы пользоваться нашими услугами дальше?», однако для бизнес-задачи эти значения были сгруппированы по двум категориям:
«Кандидаты на удержание» — группы с подтверждённой и неопределённой угрозой оттока.
«Другое» — лояльные, недоступные, технические и иные нерелевантные случаи.
Для оценки эффективности подхода была сформирована подвыборка из 318 транскрипций (10 % от исходной выборки), отобранная из полной совокупности после логической фильтрации (3204 транскрибированных диалога). Соотношение классов в подвыборке — 84 % (268 диалогов) «Кандидаты на удержание» и 16 % (50 диалогов) «Другое» — полностью соответствует распределению в исходной совокупности, что обеспечивает её репрезентативность.
В качестве LLM был использован GigaChat Lite от Сбербанка. Это доступное, бюджетное решение c качественной поддержкой русского языка.
1. Логическая фильтрация — наиболее экономичный и надежный способ предобработки данных. Этот подход соответствует выводам исследователей, доказавших, что оптимальная архитектура для обработки диалогов — гибридная, где детерминированная логика закрывает тривиальные случаи, а LLM справляется с более узкими и нестандартными ситуациями (Шатько, 2024). В данной реализации использованы Python-скрипты, прицельно направленные на конкретные группы транскрипций, выбранные, исходя из логики «исключаем только то что действительно легко исключить и до тех пор, пока это не скажется на точности». Это подтверждается низким покрытием правилами даже в очевидной группе «уходящих» — всего 4,6 % (48 из 1033 диалогов).
Таким образом были выбраны следующие группы, которые легко исключить без контекстного анализа:
- недоступные для контакта;
- автоответчик;
- нецензурная лексика (негативные клиенты);
- лояльные клиенты (по ключевым фразам-подтверждениям);
- явно уходящие клиенты (по прямым отказам);
- проигнорировавшие ключевой вопрос.
Примеры логических правил:
Так, для выявления лояльных клиентов использовались фразы вроде «да, остаюсь» или «всё устраивает», для уходящих — «больше не буду пользоваться», «меняю оператора», «нет». Игнорирование фиксировалось по отсутствию реакции на ключевой вопрос после приветствия (например, клиент говорит «алло» или «да», а затем молчит).
2. LLM обработка — диалоги, не попавшие под строгие правила (3204 диалога или 41 %), будут переданы в LLM для последующей разметки. Но перед этим было проведено исследование на подвыборке, для подтверждения эффективности метода.
...