sovaai/sova-asr

File spectrogram

LuckyMO285 opened this issue · 6 comments

Здравствуйте!
Не могли бы вы объяснить, почему в спектрограммах аудиофайлов в вашем наборе данных (https://github.com/sovaai/sova-dataset/) есть вырезанные прямоугольные сегменты?
И почему эта данные выглядят как отраженные относительно оси, проходящей на частоте в 4кГц, но при этом с меньшей интенсивностью?
image

Добрый день! Это очень похоже на спектральную аугментацию, возможно, какая-то часть датасета была предобработана. Много таких файлов встретилось?

Я посмотрел не так много, но такой эффект был во всех присутствующих файлах.
И такой вопрос: разве аугментация не будет затрагивать всю полосу при ее применении? Т.е. если идет
применение аугментации "time masking" (на котору. больше всего и похожа аугментация на картинке выше), то она не должна идти по всей вертикали частоты от 0 до 8кГц?
Есть еще один вопрос: в статье (https://habr.com/ru/company/ashmanov_net/blog/523412/) указано, что файлы с телефонными звонками были записаны с частотой 8кГц, однако в вашем датасете они представлены в частоте 16кГц. Не означает ли это, что вы выложили не исходный датасет, а уже измененный по частоте дискретизации?
P.S. я примерно понимаю с чем связана картина отражения на верхней картинке по частоте в 4кГц, но хотелось бы попросить сначала вашего объяснения, что могло ее вызвать.

Да, обычно маскируют полосами, по вертикали или горизонтали. Но странно, что такое вообще оказалось в датасете, насколько я помню, мы не применяли аугментаций к выкладываемому датасету. Уточним этот вопрос.
По поводу частоты дискретизации - да, телефонная модель обучалась на аудио в 8 кГц, возможно, был выложен апсемпл, тоже уточним.

По поводу такого поведения с отражением, советую посмотреть в сторону библиотеки pydub и используемых функций из audio_segment.py.
Насколько я заметил, именно при изменении частоты дискретизации с 8кГц до 16кГц и проявляется такой эффект. Буду ожидать обновления по датасету!

Очень интересно, спасибо! Посмотрим

Вообще ожидайте ещё пополнения датасета в ближайший месяц, может, ещё и текущий перевыложим в исходной частоте дискретизации.

Добрый день!

Без новостей по переопубликованию датасета?
@sxdxfan