134-й конгресс AES – научные результаты
Ирина Алдошина
Очередной конгресс AES состоялся с 4 по 7 мая в необычном месте – в Риме. За последние несколько десятилетий такого случая, чтобы конгрессы проходили в Италии, не было, обычно это были Германия, Дания, Франция, Голландия.
На открытии конгресса 4 мая вступительную речь (keynote) произнес Стивен Веббер, автор книги "Искусство DJ", руководитель отдела инновационных технологий в колледже Беркли. Его речь называлась "Создание альбомов – 2025" и содержала прогноз развития техники и технологии звукозаписи к этому периоду.
Традиционная лекция, посвященная памяти Ричарда Хайзера, была поручена на этом конгрессе Вольфгангу Клиппелю – профессору Берлинского университета, руководителю фирмы Klippel GmbH.
В. Клиппель широко известен в научном мире своими работами по теории электродинамических громкоговорителей, по созданию методов и средств измерения параметров громкоговорителей и др. Его лекция была посвящена теории и принципам создания маленьких электродинамических громкоговорителей, которые широко применяются сейчас в мобильных устройствах. Он показал, что, опираясь на достижения процессорной техники, новых технологий и более глубокого понимания принципов работы таких громкоговорителей, можно получить очень убедительные результаты по улучшению их параметров и качества звучания.
На конгрессе работало 18 научных секций, где было представлено 140 докладов.
На секции "Образование и семантическое аудио" (Р-1) было четыре доклада. Из них можно выделить доклад преподавателей из Университета Гонконга "Альтернативные программы и педагогическая стратегия преподавания технологий для студентов, обучающейся классической музыке" (препринт 8809). В нем предлагается пакет программ (i-WAIL) для обучения студентов новым современным компьютерным технологиям с опорой на их опыт изучения классической музыки.
Доклад группы ученых из Гданьского Университета под рук. проф. Чижевского "Аудиовизуальный стимулятор внимания" (пр. 8810) был посвящен созданию программ, позволяющих в широких пределах менять визуальные параметры речи (цвет, шрифт и др.) и ее звуковое сопровождение, которые могут использоваться для детей 7-8 лет, имеющих затруднения в чтении и понимании письменной речи.
Доклад BBC Research and Development "Оценка акустических признаков для распознавания эмоций в музыке" (8811) был посвящен актуальной проблеме (по которой было ряд докладов на предыдущих конгрессах) – созданию интеллектуальных классификаторов, позволяющих автоматически различать и выделять музыкальные отрывки из больших баз данных по стилю, жанру и настроению, выражаемому в музыке. Было выявлено более 63 акустических характеристик на основе анализа 2389 музыкальных треков, которые используются для выбора музыкальных отрывков, выражающих определенные эмоции.
Наконец, последний доклад был представлен греческими учеными по теме "Исследование речевого взаимодействия человек – машина: анализ и классификация звуков обычно используемых в бытовых устройствах". (8812).
Три секции были посвящены теме "Процессорная обработка звуковых сигналов" (Р-2, Р-4, Р-8) всего было представлено 17 докладов. Очень интересная работа польских ученых "Компьютерная классификация звуков скрипки, основанная на экспертных оценках" (8815) была посвящена проблеме выделения акустических признаков в звуках скрипок и их сопоставлению с экспертными оценками. За основу были взяты данные по оценке качества скрипок на международном конкурсе скрипичных мастеров в 2011 г. в Познани. Прослушивания были произведены на одних и тех же музыкальных отрывках, звучание скрипок было записано и построено распределение энергии в различных частотных полосах, выбранных в соответствии с предыдущими работами Duennwald: 190-650 Гц (A), 650-1300 Гц (В), 1300-1640 Гц (С), 1640-2580 Гц (D), 2580-4200 Гц (Е), 4200-6400 Гц (F). Кроме того, использовалось для сравнения деление и по другим полосам, в частности, по шкале барков.
Результаты распределения энергии для разных скрипок показали, что у скрипок номер 1 и 10, распределение энергии очень близко к старинным скрипкам Амати (номер 0), они получили достаточно высокие экспертные оценки. Авторы предполагают продолжить работы по поиску корреляции акустических характеристик с экспертными оценками.
На этой же секции были также доклады "Измерения громкости для многоканального звукового контента с использованием модификации стандарта ITU-RBS.1770" (8813), "Применение конечно-разностных методов для создания цифровых моделей колебания струн" (8816), "Музыка аккордеона и ее автоматическая транскрипция в MIDI-формате" (8827), "Интерактивное управление параметрами аудиосигналов" (8823), "Новые приближения в процессорной обработке аудиосигналов" (8825).
Две секции работали по теме "Акустика помещений", на которых было представлено 13 докладов. Очень интересный доклад – "Археоакустика – введение.Новая ветвь старой науки" (8861). Акустика (наука о звуке) имеет очень длинную историю. К ХХ веку в ней сложилось более двадцати различных направлений, зачастую очень далеких друг от друга: гидроакустика, медицинская акустика, музыкальная акустика, электроакустика и др. В XXI веке появилось новое направление – археоакустика (археология + акустика), опирающееся на последние достижения компьютерных технологий: цифровые методы расчета структуры звуковых полей в помещениях любых конфигураций, методы расчета и измерения импульсных характеристик, выполнение операции свертки в реальном времени и др. Все это привело к появлению техники аурализации – созданию пространственных компьютерных моделей помещений с возможностью прослушивания музыки и речи в любой точке помещения. Эта техника уже нашла широкое применение не только при создании новых концертных залов, кинотеатров и др., но и при воссоздании звучания музыки в старинных зданиях. Например, греческий университет им. Аристотеля занимается компьютерной реконструкцией древнегреческих театров, расчетом звуковых полей в них, и воссозданием звучания хора и актеров с помощью бинауральных импульсных характеристик.
Эта же техника уже применяется к анализу других древних сооружений – храмов, дворцов и пр., что дает возможность восстановить звучание прошлого. Поскольку это требует совместной работы археологов, историков, акустиков, то это направление акустики, которое сейчас окончательно оформляется как самостоятельное и получило название археоакустики.
Доклад Такаюки Ватанабе, Yamaha Corp. (8859) "Различные варианты применения активного контроля звукового поля" был посвящен методам и средствам электронной архитектуры, т.е. способам управления акустическими параметрами в помещении (структурой отражений, временем реверберации и др.) с помощью распределенных акустических систем и методам их процессорного управления.
В докладе болгарских ученых (8860) "Сравнительные акустические измерения с использованием сферического источника и источника в форме додекаэдра" представлены результаты измерений различных концертных и оперных залов в Болгарии по полному комплексу принятых в настоящее время параметров с использованием различных видов звуковых источников (сферического и додекаэдра).
Показано, что в первом случае получаются более стабильные результаты.
В докладе известного британского акустика Питера Маппа "Некоторые практические аспекты STI измерений и предсказаний" (8864) анализируются методы измерений самого распространенного объективного критерия для оценки разборчивости речи – The Speech Transmission Index (STI).
Показано, как различные факторы – частотная коррекция, компрессия, структура спектров речевых отрывков и др. влияют на точность оценки с помощью STI (расчетные зоны распределения максимальных значений STI показаны на рисунке), предложен новый коэффициент STIPA для оценки разборчивости в помещениях с системами звукоусиления.
В докладе "Влияние систем воспроизведения на предпочитаемый уровень реверберации" (8886, Университет McGill, Канада), показано, как изменяется предпочитаемый уровень искусственной реверберации при прослушивании через наушники либо громкоговорители. Опыт адаптации большого выставочного зала для использования в качестве концертного был представлен в докладе итальянских специалистов на примере зала Palacongressi of Rimini (8887).
Две секции работали по теме "Преобразователи – громкоговорители" (Р-7) и "Преобразователи – микрофоны и массивы" (Р-9), всего11 докладов.
Доклад специалистов из Дании "Питание электростатических преобразователей" (8845) предлагает новый вариант усилителя, рассчитанного на емкостную нагрузку и предназначенную для работы с электростатическими преобразователями. Электростатические громкоговорители давно известны на рынке (особенно знамениты громкоговорители фирмы Quad), однако создание для них усилителей была всегда большой проблемой, поэтому появление данной работы очень актуально для их производства.
В докладе болгарских специалистов "Коаксиальный громкоговоритель с простым постоянным магнитом" (8847) предлагается новая конструкция коаксиального (совмещенного) громкоговорителя, построенного на одном магните, в отличие от обычной конструкции, запатентованной фирмой Tannoy с двумя отдельными магнитами для низко- и высокочастотного громкоговорителей.
Конструкция получилась более экономичной и не уступающей по параметрам.
Так же болгарские специалисты представили доклад "Конструкция совмещенных свернутых низкочастотных рупоров" (8848), в котором представлены результаты проектирования новых конструкций свернутых рупоров для воспроизведения низких частот, пример конструкции с одним громкоговорителем со сдвоенными диафрагмами показан на рисунке.
Кроме того, два доклада были посвящены вопросам "Уменьшение искажений в процессе электромеханических преобразований в громкоговорителе" (8844), "Метод граничных элементов для моделирования характеристик направленности рупорных громкоговорителей" (8846).
На второй секции, посвященной микрофонам и другим преобразователям, можно выделить следующие доклады.
Доклад фирмы Bose (USA) "Характеристики направленности линейных массивов с горизонтально асимметричными волноводами" (8865), в котором рассматриваются различные варианты линейных массивов, т.е. звуковых колонок, состоящих из набора активных акустических систем, расположенных по дуге в вертикальной плоскости.
Меняя структуру корпусов отдельных акустических систем, точнее, форму волноводов (щелей) в них, а также взаимное угловое расположение их в массиве можно управлять шириной и направлением диаграмм направленности, что очень важно для создания систем звукоусиления.
Очень важный для практики проектирования микрофонов доклад "Численное моделирование шума микрофонов, вызванного внешними потоками воздуха (ветром)" был представлен фирмой Nokia (8866). В нем показана расчетная модель распределения давления и скорости ветровых потоков (как стационарных, так и нестационарных – pop noise) вокруг микрофона, включая расчет дифракции на углах и изменение структуры распределения давления на поверхности мембраны в зависимости от скорости потока, при увеличении которой наблюдается переход к турбулентному движению. Показано также, что это распределение существенно влияет на градиент давления для направленных микрофонов, и предложена конструкция аэродинамически оптимальной формы микрофона.
Предполагается продолжение этой работы для анализа влияния различных видов шумов на распределение давления внутри корпуса.
Шон Олайв, специалист фирмы Harman International, уже на нескольких конгрессах представляет результаты своих работ по анализу оптимальных форм частотных характеристик для наушников "Слушательские предпочтения для различных форм частотных характеристик телефонов" (8867). В данном докладе представлены очень важные результаты субъективных экспертиз восьми различных типов АЧХ для двух моделей наушников. Они показывают, что формы АЧХ, предложенные в стандарте ISO 11904-2, не являются оптимальными, поскольку слушатели предпочитают более плоскую форму АЧХ, чем рекомендованную в стандарте.
В докладе корейских специалистов "Оптимальные условия для принимающего преобразователя в беспроводной передающей системе, использующей ультразвуковую резонансную технологию" (пр. 8868) предлагается новая система передачи информации для мобильных устройств, основанная на использовании ультразвуковых волн, в отличие от обычных систем, использующих электромагнитные волны.
Общая схема передачи энергии показана на рисунке, в ней используются два преобразователя – передающий (ТХ) и принимающий (RT), работающие на пьезоэлектрическом принципе преобразования электрической энергии в ультразвуковые волны и наоборот. Данная система имеет преимущества в помехозащищенности и безопасности для здоровья людей по сравнению с обычной системой, применяемой в мобильных телефонах, ноутбуках и др.
Две секции были посвящены проблемам психоакустики: "Восприятие" (Р-3) и "Восприятие и образование" (Р-9). На первой было сделано шесть докладов. В первом их них, "Отношения между воспринимаемой громкостью ТВ программ, размерами экрана и форматами дисплеев" (8817), было проведено достаточно много субъективных тестов, которые не показали прямой связи предпочитаемого уровня громкости с размером экрана. Опыты с 25 участниками на 12 видеоклипах показали, что средний предпочитаемый уровень для речи составляет 54 дБLL, для музыки 62,5 дБLL. Выяснилось также, что женщины предпочитают более низкие звуковые уровни, чем мужчины – в среднем на 5 дБ.
В докладе специалистов из Дрезденского Университета "Вибрации при восприятии музыки" (8819) представлены результаты анализа вибраций, которые испытывают слушатели во время рок-концертов. Были исследованы уровни и частотное распределение этих вибраций, и показано, что они оказывают существенное влияние на оценку слушателями восприятия музыки.
В докладе специалистов BBC "Оценка виртуальных Surround-систем 5.1 для прослушивания через телефоны" (8819) выполнен анализ 12 существующих процессорных систем, конвертирующих звук в формате 5.1 в двухканальное стерео для наушников. Поскольку в настоящее время много вещательных программ передается в формате 5.1, то при использовании слушателями наушников они должны иметь возможность конвертировать звук в стерео или воспроизводить его в виртуальном пространстве с 5.1 источниками.
В докладе "Восприятие маскирующих звуков и реверберации в 3D- и 2D-системах воспроизведения" (пр.8822) показано, что, чем шире источники распределены в пространстве, тем меньшее маскирующее влияние оказывает на них реверберация, т.е. в 3D-системах можно использовать более высокий уровень реверберации без потери разборчивости.
На второй секции было представлено 8 докладов. Доклад специалистов из Университета во Вроцлаве "Улучшение слуховых способностей с помощью электронных методов обучения" (пр. 8870) посвящен новым методам улучшения тембрового и звуковысотного слуха студентов-музыкантов с помощью специальных компьютерных технологий.
Очень полезным представляетсяучебный доклад "Руководство для изучения моделей громкости слуха, представленных Moore, Glasbergи Baer" (8873). Поскольку модели, предложенные этими учеными, широко используются в научных исследованиях и они достаточно сложны, то такое руководство может быть полезно специалистам и студентам, использующим их в практической работе.
Следующие доклады были посвящены двум очень интенсивно развивающимся в настоящее время направлениям. Первое – автоматическое распознавание эмоций в музыке, чему был посвящен доклад "Музыка и эмоции: сравнение измерительных методов" (пр. 8875), представленный Ilmenau University of Technology (Ильменау, Германия). Второе направление – создание методов анализа музыкальных баз данных, по нему был представлен доклад "Многомерное шкалирование применительно к распознаванию настроений в музыке" (пр. 8876). Эта работа выполняется под руководством проф. Божены Костек в Гданьском университете, и на предыдущих конгрессах они уже докладывали свои результаты по этому направлению.
Наконец, доклад греческих специалистов "Оптимизации акустики аудиторий: исследование распределенной системы звукоусиления для улучшения разборчивости речи" (8871) был посвящен разработке системы звукоусиления с целью существенного улучшения разборчивости речи в аудитории.
На секции "Запись и обработка звука" необходимо особо отметить доклад известного специалиста, автора книги по стереомикрофонам, неоднократно выступающего на конгрессах AES, М. Вильямса "Психоакустическое тестирование 3D-микрофонной решетки и особой конфигурации громкоговорителей" (8839).
В нем представлены результаты субъективных тестов по оценке локализации звука по высоте в случае использования специальной системы микрофонов ("Зонтик Вильямса") и специального расположения громкоговорителей в двух слоях в горизонтальной плоскости и по высоте.
Проводились прослушивания по оценке точности локализации в вертикальной плоскости при разном расстоянии между слоями громкоговорителей, на основании которых даны соответствующие практические рекомендации.
Несколько докладов было посвящено автоматическому управлению параметрами сигналов в процессе аудиомастеринга "Автоматическая установка тонального баланса в применении к аудиомастерингу" (8836), "Аудиомикширование с учетом слухового восприятия" (8840), "Контроль за выставлением уровней с помощью автоматического анализа движения фейдеров" (8842).
В докладе специалистов Университета McGill (Канада) "Анализ слушательских предпочтений по балансу в разных акустических условиях" приведены полезные для выбора параметров контрольных комнат данные, о том, как изменения акустических условий в помещении влияет на оценку баланса слушателями в музыкальном произведении.
На секции "Измерения и моделирование" (Р-17) два доклада были по проблемам слухового восприятия перегрузок в аудисигнале (8911) и методам уменьшения нелинейных искажений в мобильных устройствах (8816). Проблеме построения полярных диаграмм нелинейных искажений в громкоговорителях прямого излучения и рупорных с использованием синусоидального и многотонового сигналов был посвящен доклад итальянских специалистов (пр. 8815).
На секции "Процессорная обработка речи" было представлено 8 докладов, как например "Оценка качества речи в цифровом радиовещании" (8829), "Оценка объективного качества сильно искаженной речи" (8830), "Эффективность индекса передачи речи с учетом множественности прибытия сигналов" (8833) и др.
Самое большое количество докладов было посвящено проблемам развития систем пространственного звуковоспроизведения. Они были сгруппированы на четырех секциях "Пространственное аудио" (Р-15),"Пространственное Аудио-1 – бинауральные системы, HRTF"(Р-12), "Пространственное аудио-2 – 3D-микрофоны и громкоговорители" (Р-16), "Пространственное аудио-3 – Амбисоник, WFS" (Р-18).
На секции Р-16 было представлено 7 докладов, из них можно отметить японский доклад под руководством проф. Кимио Хамасаки "Влияние изменения расположения громкоговорителей в системе 22.2 на пространственное впечатление" (8810).
Несколько лет назад эти авторы предложили новую систему звуковоспроизведения, где 22 громкоговорителя располагаются в трех слоях (нижний – на полу, средний – на высоте ушей и верхний – под потолком). Все годы авторы продолжают публиковать результаты по анализу и дальнейшему совершенствованию этой системы. В данном докладе было исследовано допустимое смещение положения громкоговорителей от рекомендованного образца, в пределах которого не меняется пространственное впечатление. Полученные результаты могут быть полезны при практической установке этих систем.
Интересный доклад "Техника записи и воспроизведения, используемая в проекте "Звуки города" (8903) был представлен специалистами из Университета в г. Парма под руководством известного акустика Алессандро Фарина. В нем рассматривались результаты реализации проекта по записи звуков в разных частях города для сохранения их в архиве и для создания интерактивных музейных прогулок по городу с панорамным видео и трехмерным звуком.
Запись проводилась сферическим микрофоном с 32 капсюлями и после процессорной обработки воспроизводилась в системе WFS и Ambisonic.
В докладе "Многоканальный кольцевой upmix" (8908) предлагается новый алгоритм, позволяющий сформировать из стереозаписей заданное количество дискретных каналов.
В докладе "Эффекты пространственной глубины в комбинации 3D-видео и 7-канальное аудио с отдельными каналами для вертикальных громкоговорителей" (8899), представленном специалистами из Токийского Университета на секции Р-15, содержатся результаты субъективных экспертиз по оценке восприятия глубины при различном звуковом сопровождении (стерео, 5.1, 7.1). Как показали результаты, наилучшие результаты получаются при сочетании 3D-видео с семиканальным звуком.
На секции Р-18 был представлен доклад английских специалистов "Влияние низкочастотных отражений на стереообраз" (8919), где выполнен анализ отражений на частотах ниже 700 Гц и показано, что на локализацию стереообраза мало влияют отражения от пола и потолка, но очень сильно – отражения от боковых стен.
Продолжаются работы по совершенствованию системы WFS в IRCAM и других институтах. На этой секции был представлен доклад "Волновой синтез виртуальных источников с плоскими громкоговорителями с асимметричными характеристиками направленности" (8921).
На секции Р-12 можно отметить следующие доклады: "Управление движением головы в трехмерном пространстве" (8881), представленные результаты важны для развития бинауральной стереофонии; "Измерения характеристик направленности вставных записывающих устройств", где приведена методика измерения внутриушных контрольных устройств (earphone), которые сейчас широко применяются на студиях звукозаписи.
Доклад "Бинауральное декодирование для систем Амбисоник с улучшенной боковой локализацией" (8878) был посвящен пространственным системам Амбисоник, которые активно развиваются в настоящее время наряду с другими новыми системами (Амбифоник, системы волнового синтеза и др.) и поэтому результаты этих исследований очень важны для ее дальнейшего развития.
Как и на предыдущих конгрессах за последние несколько лет были организованы отдельные секции под общим названием "Инженерные записки". Всего на них было представлено 24 доклада по самым разным темам.
Доклад японских специалистов из Токийского Университета был посвящен теме "Влияние первых отражений на субъективные слушательские ощущения" (ЕВ1-5). В специальном помещении с варьируемой конфигурацией стен и потолка (изменялись форма и коэффициент поглощения) записывались импульсные характеристики, проводились субъективные экспертизы, в результате было показано, что первые отражения не очень влияют на восприятие тембра, но существенно меняют пространственное впечатление.
Поскольку при проведении различных исследований в помещении трудно и дорого менять его параметры, специалисты из Университета McGill (Канада) представили в своем докладе методику, по которой можно представлять исследуемое пространство как бинауральную виртуальную модель и в ней менять требуемые параметры. Была показана четкая связь изменения параметров с субъективными оценками, аналогичная реальному пространству.
Компания Sonic Emotion представила доклад (ЕВ3-1) "Пространственные системы звукоусиления с использованием системы Wave Field Synthesis", где показан опыт применения этой системы с двумя линейками громкоговорителей, расположенными на разной высоте, в озвучивании театров с учетом специфики микширования при движении актеров.
Опыт проектирования театра в Италии на основе новых технологий проектирования и с установкой пространственных систем звуковоспроизведения был представлен в докладе "Архитектурная акустика и электроакустика в ASISUM театре: интегрированная конструкторская работа" (ЕВ4-4).
Оптимальная конфигурация микрофонов для пространственных систем с учетом их распределения по высоте была представлена в докладе английских специалистов (EB4-3), где было показано влияние на пространственное впечатление расстояния микрофонов по базе и по высоте.
Интересный доклад "Обучение стереомикрофонной технике с использованием синтезированных виртуальных пространств" (EB4-2), был посвящен новым технологиям обучения студентов стереомикшированию в разных акустических условиях, которые можно менять в широких пределах на виртуальных компьютерных моделях.
В докладе "Экспрессивное физическое моделирование клавишных инструментов" (ЕВ4-5) были использованы различные алгоритмы физического моделирования для создания моделей фортепиано.
Наконец, доклад "Пространственный акустический синтез" (ЕВ4-1) был посвящен актуальной в настоящее время теме – бинауральному синтезу виртуальных пространств в наушниках, в нем предложен новый подход к синтезу отдельных музыкальных инструментов.
Как обычно на конгрессе было проведены учебные и научные семинары. Из 14 учебных семинаров три были посвящены микрофонам: "Технология микрофонов", "Параметры микрофонов", "Микрофоны; физика, метафизика и философия". Их вел Рон Страйкер – известный американский звукорежиссер, специалист в концертной звукозаписи, имеющий большой опыт работы с микрофонами. Кроме того, были семинары на тему "Искусство DJ", "Оптимизация и измерения разборчивости речи", "Создание музыки для фильмов" и др.
Было проведено также 9 научных семинаров, посвященных, в частности, следующим темам:
- создание пространственных систем, с помощью которых слушатель может в реальном времени менять "акустику" концертного зала, т.е. управлять процессами реверберации (за счет свертки с импульсными характеристиками различных залов);
- методы создания и управления 3-D звуком в автомобилях;
- опыт создания кинотеатра в Москве, оборудованного новой системой Dolby Atmos;
- различные форматы пространственного звука для кино и опыт их применения;
- пути развития электронной архитектуры;
- рассмотрение стандарта ITU BS.1116, касающегося методов оценки аудиоаппаратуры, требований к комнатам прослушивания и предложениям по его дальнейшему совершенствованию.
Как всегда, на конгрессе проходил большой комплекс мероприятий для студентов – студенческая ассамблея, встречи с мастерами, конкурсы звукозаписей. Последние проходили по четырем категориям – традиционные акустические записи, традиционные студийные записи, современные студийные звукозаписи, звук для мультимедиа.
В первой категории серебряные медали получили: В. Осадчев – Российская Академия музыки им. Гнесиных, Е. Федорова – Берлинский Университет искусств (вероятно, из России), а золотая медаль была вручена только в одной категории – звук для мультимедиа, ее получила студентка из Университета музыки Ф. Шопена в Варшаве Иоанна Каминьска.