Гибридный подход к анализу транскриптов колл-центра: снижение нагрузки на LLM за счёт предварительной фильтрации

Автор: Ивангай • Февраль 26, 2026 • Статья • 1,338 Слов (6 Страниц) • 3 Просмотры

Страница 1 из 6

Арсланов Ринат Маратович1, Дубинин Ярослав Александрович2, Суровцев Егор Сергеевич3
1, 2, 3Северный (Арктический) федеральный университет, Архангельск, Россия

1arslanov.r@edu.narfu.ru

2surovcev.e@edu.narfu.ru

3dubinin.y@edu.narfu.ru

Научный руководитель: Васендина Ирина Сергеевна, кандидат технических наук, доцент

Аннотация. В данной статье представлен обзор гибридной системы для поэтапной разметки транскрибированных данных с целью выявить группу кандидатов на удержание. Метод сочетает классическое программирование и современные языковые модели. Такой способ позволяет снизить нагрузку на дорогостоящие LLM, существенно не теряя в точности.

Ключевые слова: отток клиентов, большие языковые модели (LLM), обработка естественного языка, предварительная фильтрация, колл-центр, гибридная система.

Введение

Использование систем на основе искусственного интеллекта (ИИ) позволяет решить ряд задач более эффективно. Распространенной практикой является применение ИИ-ассистентов в задаче оттока клиентов для опроса клиентов из «группы риска». Однако ИИ-ассистент не всегда показывает наивысшую точность, что влияет на полноту (recall) удержания, так, например, в телекоммуникационной отрасли приемлемым считается уровень recall не менее 85 % (Леонов, 2022: 230). Цель работы — повысить полноту (recall) выявления клиентов, склонных к оттоку, за счёт гибридного подхода, в котором логические правила обрабатывают явные сигналы, а LLM — только спорные и неоднозначные случаи, что одновременно повышает recall и снижает вычислительную нагрузку.

Материалы и методы

Исходными данными являлся массив из 7811 транскрибированных диалогов между клиентами компании и ИИ-ассистентом, предоставленных в рамках Хакатона. Изначально диалоги были размечены ИИ-ассистентом по 9 категориям на основании ответа на вопрос «Подскажите, пожалуйста, планируете ли вы пользоваться нашими услугами дальше?», однако для бизнес-задачи эти значения были сгруппированы по двум категориям:

«Кандидаты на удержание» — группы с подтверждённой и неопределённой угрозой оттока.

«Другое» — лояльные, недоступные, технические и иные нерелевантные случаи.

Для оценки эффективности подхода была сформирована подвыборка из 318 транскрипций (10 % от исходной выборки), отобранная из полной совокупности после логической фильтрации (3204 транскрибированных диалога). Соотношение классов в подвыборке — 84 % (268 диалогов) «Кандидаты на удержание» и 16 % (50 диалогов) «Другое» — полностью соответствует распределению в исходной совокупности, что обеспечивает её репрезентативность.

В качестве LLM был использован GigaChat Lite от Сбербанка. Это доступное, бюджетное решение c качественной поддержкой русского языка.

1. Логическая фильтрация — наиболее экономичный и надежный способ предобработки данных. Этот подход соответствует выводам исследователей, доказавших, что оптимальная архитектура для обработки диалогов — гибридная, где детерминированная логика закрывает тривиальные случаи, а LLM справляется с более узкими и нестандартными ситуациями (Шатько, 2024). В данной реализации использованы Python-скрипты, прицельно направленные на конкретные группы транскрипций, выбранные, исходя из логики «исключаем только то что действительно легко исключить и до тех пор, пока это не скажется на точности». Это подтверждается низким покрытием правилами даже в очевидной группе «уходящих» — всего 4,6 % (48 из 1033 диалогов).

Таким образом были выбраны следующие группы, которые легко исключить без контекстного анализа:

недоступные для контакта;
автоответчик;
нецензурная лексика (негативные клиенты);
лояльные клиенты (по ключевым фразам-подтверждениям);
явно уходящие клиенты (по прямым отказам);
проигнорировавшие ключевой вопрос.

Примеры логических правил:

Так, для выявления лояльных клиентов использовались фразы вроде «да, остаюсь» или «всё устраивает», для уходящих — «больше не буду пользоваться», «меняю оператора», «нет». Игнорирование фиксировалось по отсутствию реакции на ключевой вопрос после приветствия (например, клиент говорит «алло» или «да», а затем молчит).

2. LLM обработка — диалоги, не попавшие под строгие правила (3204 диалога или 41 %), будут переданы в LLM для последующей разметки. Но перед этим было проведено исследование на подвыборке, для подтверждения эффективности метода.

...

Скачать: txt (18.6 Kb) pdf (333.8 Kb) docx (126.4 Kb)

Продолжить читать еще 5 страниц(ы) »

Читать полный текст Сохранить

Доступно только на Essays.club