Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Гибридный подход к анализу транскриптов колл-центра: снижение нагрузки на LLM за счёт предварительной фильтрации

Автор:   •  Февраль 26, 2026  •  Статья  •  1,338 Слов (6 Страниц)  •  6 Просмотры

Страница 1 из 6

Гибридный подход к анализу транскриптов колл-центра: снижение нагрузки на LLM за счёт предварительной фильтрации

Арсланов Ринат Маратович1, Дубинин Ярослав Александрович2, Суровцев Егор Сергеевич3
1, 2, 3Северный (Арктический) федеральный университет, Архангельск, Россия

1arslanov.r@edu.narfu.ru

2surovcev.e@edu.narfu.ru

3dubinin.y@edu.narfu.ru

Научный руководитель: Васендина Ирина Сергеевна, кандидат технических наук, доцент

        

Аннотация. В данной статье представлен обзор гибридной системы для поэтапной разметки транскрибированных данных с целью выявить группу кандидатов на удержание. Метод сочетает классическое программирование и современные языковые модели. Такой способ позволяет снизить нагрузку на дорогостоящие LLM, существенно не теряя в точности.

Ключевые слова: отток клиентов, большие языковые модели (LLM), обработка естественного языка, предварительная фильтрация, колл-центр, гибридная система.

Введение

Использование систем на основе искусственного интеллекта (ИИ) позволяет решить ряд задач более эффективно. Распространенной практикой является применение ИИ-ассистентов в задаче оттока клиентов для опроса клиентов из «группы риска». Однако ИИ-ассистент не всегда показывает наивысшую точность, что влияет на полноту (recall) удержания, так, например, в телекоммуникационной отрасли приемлемым считается уровень recall не менее 85 % (Леонов, 2022: 230). Цель работы — повысить полноту (recall) выявления клиентов, склонных к оттоку, за счёт гибридного подхода, в котором логические правила обрабатывают явные сигналы, а LLM — только спорные и неоднозначные случаи, что одновременно повышает recall и снижает вычислительную нагрузку.

Материалы и методы

Исходными данными являлся массив из 7811 транскрибированных диалогов между клиентами компании и ИИ-ассистентом, предоставленных в рамках Хакатона. Изначально диалоги были размечены ИИ-ассистентом по 9 категориям на основании ответа на вопрос «Подскажите, пожалуйста, планируете ли вы пользоваться нашими услугами дальше?», однако для бизнес-задачи эти значения были сгруппированы по двум категориям:

«Кандидаты на удержание» — группы с подтверждённой и неопределённой угрозой оттока. 

«Другое» — лояльные, недоступные, технические и иные нерелевантные случаи.

Для оценки эффективности подхода была сформирована подвыборка из 318 транскрипций (10 % от исходной выборки), отобранная из полной совокупности после логической фильтрации (3204 транскрибированных диалога). Соотношение классов в подвыборке — 84 % (268 диалогов) «Кандидаты на удержание» и 16 % (50 диалогов) «Другое» — полностью соответствует распределению в исходной совокупности, что обеспечивает её репрезентативность.

В качестве LLM был использован GigaChat Lite от Сбербанка. Это доступное, бюджетное решение c качественной поддержкой русского языка.

1. Логическая фильтрация — наиболее экономичный и надежный способ предобработки данных. Этот подход соответствует выводам исследователей, доказавших, что оптимальная архитектура для обработки диалогов — гибридная, где детерминированная логика закрывает тривиальные случаи, а LLM справляется с более узкими и нестандартными ситуациями (Шатько, 2024). В данной реализации использованы Python-скрипты, прицельно направленные на конкретные группы транскрипций, выбранные, исходя из логики «исключаем только то что действительно легко исключить и до тех пор, пока это не скажется на точности». Это подтверждается низким покрытием правилами даже в очевидной группе «уходящих» — всего 4,6 % (48 из 1033 диалогов).

Таким образом были выбраны следующие группы, которые легко исключить без контекстного анализа:

  • недоступные для контакта;
  • автоответчик;
  • нецензурная лексика (негативные клиенты);
  • лояльные клиенты (по ключевым фразам-подтверждениям);
  • явно уходящие клиенты (по прямым отказам);
  • проигнорировавшие ключевой вопрос.

Примеры логических правил:

Так, для выявления лояльных клиентов использовались фразы вроде «да, остаюсь» или «всё устраивает», для уходящих «больше не буду пользоваться», «меняю оператора», «нет». Игнорирование фиксировалось по отсутствию реакции на ключевой вопрос после приветствия (например, клиент говорит «алло» или «да», а затем молчит).

2. LLM обработка  диалоги, не попавшие под строгие правила (3204 диалога или 41 %), будут переданы в LLM для последующей разметки. Но перед этим было проведено исследование на подвыборке, для подтверждения эффективности метода.

...

Скачать:   txt (18.6 Kb)   pdf (333.8 Kb)   docx (126.4 Kb)  
Продолжить читать еще 5 страниц(ы) »
Доступно только на Essays.club