Шумо-устойчивость речи при сортировке
Автор: Login9 • Ноябрь 14, 2018 • Реферат • 5,548 Слов (23 Страниц) • 362 Просмотры
Шумо-устойчивость речи при сортировке.
Anthony L. Bartos,1 Tomas Cipr,2 Douglas J. Nelson,3,a) Petr Schwarz,2 John Banowetz,4 and Ladislav Jerabek1
1Suzanne R. Miller Associates, Marriotsville, Maryland 21104, USA
2Phonexia Limited and Brno University of Technology, Brno, Czech Republic
3United States Department of Defense, 9800 Savage Road, Fort Meade, Maryland 20755, USA
4Naval Research Laboratory, Washington, DC 20375, USA
(Получено 21 сентября 2017 г.; пересмотрено 22 февраля 2018 г.; принято 26 марта 2018 г.; опубликовано
онлайн 23 апреля 2018)
Представлен метод, в котором применяются традиционные речевые алгоритмы, без каких-либо модификаций, для повышения их производительности в чрезвычайно шумных средах. Было продемонстрировано, что для алгоритмов eigen-канала предварительная подготовка моделей идентификации нескольких динамиков (SID) на решетке уровней отношения сигнал / шум (SNR), а затем выполнение SID с использованием соответствующей модели, зависящей от SNR, было успешным в смягчении шума на всех уровнях SNR. В этих тестах было обнаружено, что оптимизирование SID выполняется, когда SNR тестовых и обучающих данных близок или идентичен. В этой текущей работе были использованы несколько алгоритмов i-vector, что значительно улучшило как пропускную способность обработки, так и точность классификации с одинаковой частотой ошибок. Использование идентичных подходов в одной и той же шумной среде позволило значительно улучшить показатели SID, языковой идентификации, гендерной идентификации и диаризации. Критический фактор в этом улучшении обнаружение деятельности при речи (SAD) которое выполняет надежно в весьма шумных окружающих средах, где речь сама едва слышна. Для оптимизации работы SAD на всех уровнях SNR использовались два алгоритма. Первый:
максимизированная вероятность обнаружения на низких уровнях (10 дБ SNR < 10 дБ), используя только конверт озвученной речи, а второй эксплуатируемые функции, извлеченные из оригинальной речи для улучшения
общая точность на высоком уровне качества (НСР ≤ þ 10 дБ).https://doi.org/10.1121/1.5031029
[JFL] Pages: 2313–2320
- ВВЕДЕНИЕ.
Мы рассматриваем проблему эффективного говорения, языка и гендерной идентификации (SID, LID и GID) и диаризации речи в ухудшенных условиях. Наша цель состоит в сортировке потенциально огромных объемов данных для эффективного извлечения важной информации. Были предложены различные подходы для улучшения характеристик SID, LID, GID и диаризации в ухудшенных каналах. Как правило, эти методы основаны на изменении извлеченных объектов или методах анализа для повышения производительности. Мы уже доказали, что несколько собственных каналов SID алгоритмов могут быть значительно улучшены путем тестирования моделей динамиков, обученных на решетке уровней отношения сигнал / шум (SNR). Было обнаружено, что наилучшая эффективность классификации достигается, когда SNR тестовых данных почти соответствует SNR обучающих данных. Преимущество этого подхода заключается в том, что не требуется никаких изменений в процессе признания.
Наши нынешние усилия основаны на подходе i-vector разработанного в 2008 компанией JHU как упрощение Kenny’s Joint Factor Analysis model. Мы применяем методы, аналогичные нашим предыдущим попыткам собственных каналов SID, для улучшения производительности SID i-вектора, LID, GID и диаризации. В настоящих испытаниях, SID, GID, LID и диаризация были приложены к речи на уровнях SNR колебаясь от едва слышной речи (ОСШ 10 дБ) относительно шумов речи (с / ш 30 дБ). В отличие от наших собственных усилий, для моделей i-vector требуются три оценки SNR, и наилучшая производительность не возникает, когда три оценки SNR равны. Как и в нашей работе с собственным каналом, никаких модификаций процессов распознавания не требуется.
...