69,72 ↑ 100 JPY
10,58 ↑ 10 CNY
73,64 ↑ USD
62,11 ↑ 1000 KRW
Владивосток
Владивосток
+21° ветер 1 м/c
EN
08 августа
Суббота

Рекламные материалы

Google представил новые метрики для качества звука и видео

Код Python и TensorFlow для расчета FAD и FVD доступен на GitHub

Google ai Фото: Google

Исследователи Google AI опубликовали две новые метрики для измерения качества аудио и видео, генерируемых сетями с глубоким обучением основанные на искусственном интеллекте - Frechet Audio Distance (FAD) и Frechet Video Distance (FVD). Эти показатели имеют высокую корреляцию с человеческими оценками качества.

В своем блоге инженеры-программисты Кевин Килгур и Томас Унтертинер описали работу, которая основана на предыдущих исследованиях по измерению качества изображений, генерируемых нейронными сетями. Они показали, как новые метрики могут обнаруживать шум, добавленный к звуку или видео, соответственно, и насколько хорошо отслеживаются с помощью человеческой оценки качества звука или видео.

FAD оценивался путем ранжирования ряда пар искаженных аудиосэмплов, и его выбор имел соотношение 60% с выбором экспертов.

FVD оценивали аналогичным образом, оценивая пары видео, сгенерированных с помощью моделей глубокого обучения. FVD согласился с экспертами от 60% до 80%, в зависимости от используемых критериев генерации.

Эти метрики можно использовать как для измерения, так и для улучшения качества видео и звука.

Успех моделей глубокого обучения отчасти обусловлен наличием больших высококачественных наборов данных, таких как ImageNet. Эти наборы данных также предоставляют "основную правду", относительно которой можно оценивать качество. Недавнее популярное применение глубокого обучения для генерации новых изображений поставило новую проблему: как измерить качество?

Первоначальной метрикой, предложенной изобретателями GAN, была начальная оценка (IS). Этот показатель был рассчитан путем применения предварительно обученного классификатора начального изображения к изображениям и вычисления статистики по результатам. Однако метрика IS имеет некоторые недостатки; в частности, она чувствительна к изменениям в используемой начальной базовой модели.

Одним из преимуществ FID над IS является то, что FID увеличивается при добавлении шума к изображению по сравнению с IS, который может оставаться плоским или даже уменьшаться.

Новые метрики Google расширяют эту идею расчета вложений для сгенерированных данных и сравнения статистики c базовыми данных.

Для FAD команда использовала VGGish для расчета вложений, а для FVD - Inflated 3D Convnet .

Чтобы проверить полезность их метрик, исследователи рассчитали значение метрики для наборов данных, созданных путем добавления шума к их базовым показателям. Данные показали, что оценка будут увеличиваться по мере добавления шума. Группа также сравнила результаты своих метрик с оценками людей, обнаружив корреляцию между их метрикой и человеческим суждением, а также с тем, что их новая метрика согласовывалась с экспертами более последовательно, чем другие часто используемые метрики.

Поделиться:

Наверх