Google открыла код ИИ-алгоритма, распознающий голоса с точностью до 92%

13.11.2018

В новой научной работе и соответствующей публикации в блоге компании исследователи из ИИ-подразделения Google описали новую интеллектуальную систему, которая способна более эффективно использовать маркированные данные по каждому спикеру при контролируемом обучении.

Диаризация — процесс разделения потока речи на однородные сегменты в зависимости от принадлежности сказанного тому или иному говорящему, и этот процесс даётся непросто алгоритмам машинного обучения. Качественная система диаризации должна уметь соотносить с конкретными фрагментами речи новых людей, которых прежде не слышала.

По словам авторов работы, ключевые алгоритмы достигают достаточно низкого коэффициента ошибок при распознавании дикторов онлайн. 7,6%на тестовом датасете для оценки качества таких систем как NIST SRE 2000 CALLHOME, по сравнению с 8,8% у предыдущего метода Google.

Процесс диаризации аудиопотока. Каждый говорящий обозначен отдельным цветом.

Это позволяет использовать алгоритмы в приложениях, работающих в реальном времени. Их исходный код можно найти на GitHub.

Для моделирования «вставок» каждого спикера (математических представлений его слов и фраз) в новом подходе применяют рекуррентные нейросети, которые используют внутреннюю память для обработки последовательностей вводных данных. Нейросеть обновляется по мере поступления новых «вставок», что позволяет системе эффективно обучаться.

В будущем команда планирует усовершенствовать модель, чтобы она смогла интегрировать контекстуальную информацию для выполнения диаризации оффлайн — по мнению специалистов, это ещё больше снизит уровень ошибок, сообщает dev.by.

Предыдущая статья

Ввод в коммерческую эксплуатацию сетей 6G ожидается в 2030 году

Следующая статья

Quantum Compass обеспечивает навигацию без спутников

НОВОСТИ ПО ТЕМЕ

Пн	Вт	Ср	Чт	Пт	Сб	Вс
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Google открыла код ИИ-алгоритма, распознающий голоса с точностью до 92%

Mail.ru elektron ünvan parollarından imtina edəcək

Microsoft запустила бесплатные онлайн-курсы по искусственному интеллекту для бизнеса

Glitch и Mozilla выпустили видеокурс по A-Frame

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС

Google открыла код ИИ-алгоритма, распознающий голоса с точностью до 92%

Mail.ru elektron ünvan parollarından imtina edəcək

Microsoft запустила бесплатные онлайн-курсы по искусственному интеллекту для бизнеса

Glitch и Mozilla выпустили видеокурс по A-Frame

СОЦИАЛЬНЫЕ СЕТИ

О ЖУРНАЛЕ

ПОДПИШИТЕСЬ НА НАС