132-й конгресс AES – научные результаты
Ирина Алдошина
132-й конгресс АЕS был впервые с момента основания AES, т.е. с 1948 года, проведен в Восточной Европе – в столице Венгрии Будапеште с 26 по 29 апреля 2012 г. Возможно, именно это определило его необычайную "камерность" – конгресс посетили всего 861 человек (на конгрессах в США число посетителей достигало 15 тысяч), в выставке приняло участие лишь восемь фирм (на предыдущих конгрессах их число составляло 350). Тем не менее, все необходимые мероприятия на конгрессе проходили в обычном порядке – научная сессия, научные и рабочие семинары, заседания технических комитетов, студенческие мероприятия и пр.
На открытии конгресса вступительную речь "Модели для успешного ведения музыкального бизнеса" произнес Джон Бэкмен.Он рассказал о своем опыте организации концертов артистов, фестивалей и др.
В качестве почетного докладчика для прочтения мемориальной Хайзеровской лекции был приглашен знаменитый органист Г. Блит (на каждом конгрессе он дает органные концерты). Помимо органа, он также основатель компании Soundcraft, производящей микшерные пульты. В настоящее время им создана новая компания Veritas Organ Company, которая занимается разработкой органов, в том числе цифровых. Г. Блит сделал доклад "В поисках элегантной простоты – жизнь, удача и обучение в музыке и аудио", в котором обобщил свой богатый жизненный опыт.
На научной сессии работало двадцать секций, на которых было представлено 99 докладов.
Секция "Преобразователи" содержала пять докладов. Среди них можно выделить японский доклад "Низкочастотный громкоговоритель, возбуждаемый четырьмя пьезоэлектрическими ультразвуковыми драйверами" (пр. 8670), в котором рассматривается принципиально новая конструкция громкоговорителя для низших частот (20...300 Гц). В нем для возбуждения движения диафрагмы используется не обычная магнитная система, а специальные пьезоэлектрические моторы, вращательное движение которых преобразуется в поступательное движение двух диафрагм.
Такая конструкция обеспечивает плоскую фазовую характеристику в области низких частот (поскольку отсутствуют резонансы в этой области), позволяет получать низкие линейные и нелинейные искажения в системе. Возможно, такая конструкция сможет найти себе применение для специальных задач.
В докладе датских специалистов (пр. 8672) представлена цифровая модель 4" компрессионного драйвера с фазосдвигающим вкладышем перед диафрагмой (тело Венте) для рупорного громкоговорителя.
Опираясь на последние достижения в области цифрового моделирования, была создана математическая модель излучения такого драйвера с учетом вязкотемпературных потерь в тонком слое воздуха между диафрагмой и вкладышем, что является, безусловно, шагом вперед в развитии теории громкоговорителей.
В докладе известного специалиста фирмы Nokia Юха Бакмана (пр. 8673) "Дизайн акустических систем с фазоинвертором с применением обратной связи"предлагается использовать схемы обратной связи (активные фильтры в цепи до усилителя) для снижения нелинейных искажений в области низких частот. Идея эта не новая, имелось много конструкций АС с различными вариантами реализации обратной связи, здесь представлена практическая реализация оригинальной схемы.
В докладе фирмы AKG (пр. 8671) рассматривался важный для практики использования направленных микрофонов вопрос – влияние дифракции на голове и туловище исполнителя на частотную характеристику суперкардиоидного микрофона. Постановка эксперимента представлена на рис. 4а,б.
Результаты измерений показывают,что характеристика направленности микрофона меняется очень значительно при отсутствии и при наличии искусственной головы что надо учитывать при расчете усиления в системах озвучивания.
На секции "Применение в аудио" был интересный доклад "Эффективное бинауральное воспроизведение, использующее моделирование ранних и поздних отражений"(пр. 8584), в котором предлагается использовать новый алгоритм для воссоздания бинауральных импульсных характеристик в любом заданном помещении путем моделирования ранних и поздних отражений в нем. Этот алгоритм можно использовать в стереотелефонах для мобильных устройств (смартфонах, нетбуках и пр), что позволяет воссоздать в них пространственный звук.
Во втором докладе (пр. 8585) был предложен упрощенный способ измерения времени реверберации и АЧХ помещения с использованием программы для смартфона, причем в качестве источника звука можно использовать просто хлопок в ладони.
На секции "Инновационное аудио" было представлено три доклада.
В первом рассматривалась идея создания виртуальных микрофонов с использованием ультразвуковой волны (пр. 8587). Схема устройства показана на рис.6
Излучатель генерирует ультразвуковую волну (например, с частотой 40 кГц), которая принимается ультразвуковым микрофоном. На распространяющуюся в пространстве ультразвуковую волну накладывается звуковая волна, которая модулирует несущую волну. В спектре принятого сигнала можно отчетливо выделить боковые составляющие, частоты которых определяются модулирующей звуковой волной (речевым сигналом, например). Если на микрофон подать ультразвуковую волну с противопоположной фазой, то несущая будет подавлена и на выходе можно выделить звуковой сигнал. Таким образом, получается как бы микрофон, не имеющей диафрагмы для приема обычной звуковой волны, поэтому он называется виртуальным. На пути реализации этой идеи имеются еше значительные технические трудности (необходимость обеспечить большой динамический диапазон устройства и др.).
Второй доклад был посвящен очень важной проблеме автоматического микширования многоканальных фонограмм (пр. 8588). Новый алгоритм позволяет в реальном времени автоматически контролировать положение фейдеров, используя современные модели субъективного определения громкости в каждом канале в реальном времени.
Учитывая, что в современных исследованиях проблеме автоматизации процесса микширования уделяется большое внимание, возможно уже недалеко время, когда всю техническую работу звукорежиссера возьмет на себя компьютер, человек будет заниматься только творческими проблемами, как это предсказывал Курцвайл.
И наконец последний доклад, представленный ВВС (пр. 8589), был посвящен созданию автоматического классификатора детских голосов.
На секции "Музыка и моделирование" интерес представляет шведский доклад "Физическое моделирование слайд-гитары" (пр. 8590), в котором представлена математическая модель инструмента, позволяющая создать его компьютерный образ. Это направление, физическое моделирование музыкальных инструментов, разрабатывается достаточно давно, созданы модели духовых инструментов, некоторых струнных и теперь появилась модель еще одного инструмента.
На секции "Звукоусиление и студийные технологии" были представлены следующие доклады "Добавление Z-микрофона к стерео и surround-микрофонным системам" (пр. 8595). С целью “схватывания” высоты предлагается к системам типа MS или Double MS добавить микрофон с характеристикой направленности "восьмерка", ориентированный вертикально, т.е. получить дополнительно систему MZ. В докладе приводятся результаты субъективных экспертиз, подтверждающих лучшее восприятие трехмерного пространства.
Второй доклад "Эквализация помещения на низких частотах с ассиметричным расположением низкочастотных громкоговорителей" (пр. 8593) был посвящен проблеме выравнивая АЧХ в различных точках помещения, поскольку АЧХ обладает большой неравномерностью за счет возбуждения стоячих волн в помещении. Проблемой этой занимаются достаточно давно: устанавливается низкочастотный громкоговоритель (subwoofer), измеряется АЧХ в различных точках и подбирается фильтр, который опитимизирует параметры громкоговорителя так, чтобы компенсировать неравномерность в помещении. В данной работе предлагается дальнейшее развитие этого метода, для чего используется несколько несимметрично расположенных громкоговорителей, с помощью которых можно выровнять (эквализировать) АЧХ в помещениях не только прямоугольной, но и несимметричной формы.
На секции "Оценка качества" среди представленных докладов можно отметить доклад специалистов из Fraunhofer Institute for Digital Media Technology"Оценка пространственной совместимости 3D аудио и видео объектов"(пр. 8679). Эта проблема давно рассматривается в литературе, но основное количество работ было посвящено совместимости двухмерных видео и аудиообразов в горизонтальной плоскости. В данной работе представлены результаты исследования совместимости трехмерных виртуальных аудиообразов, создаваемых с помощью пространственной системы Wave Field Synthesis и 3D видео (с возможностью перемещения видеообъектов по глубине)
Результаты субъективных оценок показывают, что порог восприятия угловых расхождений этих объектов составляет от 5 до 10 градусов. Выше 10 градусов они становятся заметны и вызывают чувство раздражения.
Уже на протяжении нескольких лет Шон Олив из JBL занимается исследованиями вопроса – как подростки и студенты оценивают качество воспроизведения музыки. Как на прошлом конгрессе, так и на этом им был представлен доклад"Новые доказательства – подростки и студенты колледжа предпочитают точное воспроизведение" (пр. 8683), где еще раз показано, что этот возрастной контингент слушателей при сравнительном прослушивании предпочитает более качественные акустические системы и звук без сжатия (по сравнению со звуком MP3), что еще раз доказывает, что они вполне похожи на всех людей (в смысле устройства слуховой системы).
В следующем докладе "Оценка пользователями гармонизации громкости на WEB" (пр. 8680) рассматривается важная проблема скачков громкости при приеме программ. Для радиовещания эта проблема была решена с помощью разработки специальных программных продуктов, обеспечивающих гармонизацию громкости, результаты этих работ отражены в рекомендациях ITU BS.1770-2 (2011г). Для передачи программ в Интернет-сетях эта проблема не менее актуальна. В докладе предлагается применить методы, используемые в радиовещании, для интернет-программ. Проведенные субъективные экспертизы (более 100 реципиентов) показали сходство оценок в обоих случаях.
На секции "Запись и воспроизведение" было представлено восемь докладов. Из них интересный доклад (пр. 8597) "Проявление эффекта рассеяния на восприятии звукового поля внутри сдвоенной круговой системы громкоговорителей"рассматривает круговую систему сдвоенных громкоговорителей.
Внутри этой системы можно создать звуковое поле, не выходящее за границу системы громкоговорителей. Это полезно, например, для того, чтобы звук не беспокоил людей за пределами границы или чтобы предотвратить отражения от стен помещения и др. Наличие слушателей внутри зоны приводит к дополнительному отражению звуковых волн и ухудшает работу системы. В данной работе предлагается метод для борьбы с этими погрешностями.
В докладе "Equidome – пространственная персональная система воспроизведения" (пр. 8598) представлена пространственная акустическая система, состоящая из шести горизонтальных громкоговорителей и шести громкоговорителей, находящихся в вертикальной плоскости.
С помощью такой системы и соответствующей процессорной обработки можно воспроизводить и сравнивать большинство известных в настоящее время пространственных систем(5.1, 7.1, 10.2 и др.)
Известный специалист в области микрофонной техники М Вильямс представил доклад "Дизайн микрофонных систем для локализации по высоте" (пр. 8601), в котором рассматриваются важные для практики проектирования пространственные системы с громкоговорителями, расположенными в вертикальной плоскости. В этом случае, если запись производится системой микрофонов, расположенных также в двух слоях (горизонтальном и вертикальном), возникают противоречия в передаче локализационных признаков, передаваемых на громкоговорители от разных слоев микрофонов. Анализ этих проблем и способы их устранения и рассматриваются в данном докладе.
Специалисты Университета McGill (Канада) под руководством проф. В. Вожчика представили доклад по теме, которой они занимаются уже несколько лет – создание виртуальных пространств концертных залов. В данном докладе (пр. 8603) представлены результаты субъективной оценки воссоздания пространства виртуальной сцены для музыкантов с помощью системы пространственно распределенных громковорителей.
Музыканты струнного квартета отмечали значительное улучшение свойств акустического пространства сцены.
На секции "Мультимодальное применение и радиовещание" можно выделить доклад финских специалистов под рук. В Пуикки (пр. 8604), также посвященный проблеме трехмерного аудиовизуального взаимодействия – "Аудиовизуальное окружение с 3-D аудио". В Университете Aalto был оборудован специальный экспериментальный комплекс, состоящий из акустически прозрачного экрана с углом разворота 226 градусов в горизонтальной плоскости и 57 градусов в вертикальной, а также из 29 активных акустических систем, расположенных по сферическому полупространству, трех контролируемых компьютером видеопроекторов и системы инфракрасного слежения за движением головы. С помощью этого оборудования проводится в настоящее время комплекс исследований по взаимодействию трехмерных аудио и видеообразов.
Интересный доклад был представлен специалистами из Гданьского Университета под руководством проф. Б Костек, посвященный созданию словаря из слов, ассоциирующихся с описанием настроения при восприятии музыки. Для этого был проведен комплекс субъективных тестов различных стилей и жанров музыки и составлен словарь на польском и английском языках. Полученные результаты нужны для создания систем автоматического распознавания стилей, жанров и настроения в музыке. Такие системы в настоящее время активно разрабатываются.
На секции "Аудиоэффекты" в докладе"Амплитудные манипуляции для восприятия движения в глубину" (пр. 8655) рассматривается процесс взаимодействия видеообраза в 3D- фильмах при движении его в глубину с соответствующим количественным изменением амплитуды звукового сигнала, необходимым для соответствующего удаления звукового образа. Авторы предполагают продолжить исследования для выяснения влияния других звуковых параметров, например,спектральных изменений, соотношения прямого и реверберирующего звука и др.
В докладе "Виртуальное воспроизведение многоканального аудио 5.1 в мобильных устройствах" (пр. 8656) предлагается новый метод микширования и панорамирования сигналов, основанный на отдельной передаче первичных и пространственных признаков в сигнале, к которым применяются операции перевода двухканального звука в пятиканальный (upmix) и добавления пространственных свойств с помощью свертки с передаточными функциями HRTF.
На секции "Образование и человеческий фактор" были представлены только стендовые доклады (постеры), которые по содержанию явно не соответствовали названию секции.
Один из них "Оптимизация акустики для аудиторий" (пр.8658) предлагает новый алгоритм для электронной коррекции акустических параметров в аудиториях. Показано, что с использованием этого алгоритма (Complex Smoothing), основанного на измерении импульсных характеристик и создании инверсных фильтров, можно снизить время реверберации и улучшить разборчивость речи.
Под руководством проф. Б. Костек (Гданьский Университет) была проведена секция "Восприятие" (Perception), на которой было представлено два доклада.
Один "Детектирование низкочастотных блоков" (subwoofers) (пр. 8609) приводит результаты сравнительного анализа использования одиночного и двойных НЧ-блоков в помещении. Показано, что для одиночного излучателя частота среза должна быть ниже 100 Гц, чтобы его нельзя было локализовать, а два излучателя труднее локализуются, поэтому частота среза может быть выше и, кроме того, их применение дает больше возможностей для эквализации (выравнивания) частотных характеристик в различных точках помещения на низких частотах.
Второй доклад известного специалиста в области психоакустики Д. Гризингера "Высота, тембр, разделение источников и мифы о воспроизведении звука через громкоговорители" (пр. 8610) содержал чрезвычайно интересные результаты его исследований. Как считает автор, стандартные модели, принятые в настоящее время в психоакустике для определения тембра и локализации звука, недостаточно точно работают в условиях, когда одновременно имеется несколько источников в реверберационном окружении. Он предлагает следующий порядок расшифровки звуковой информации в слуховой системе, а именно – сначала определяется звуковое давление и оно переводится в разряды нервных импульсов в периферической слуховой системе, затем нервные импульсы от звуковых событий отделяются от импульсов от шума и реверберации, каждое звуковое событие отделяется от другого, определяется тембр и направление каждого события, затем тембровые и локализационные признаки события от индивидуальных источников объединяются в независимые нейронные потоки, эти потоки распознаются (осмысляются) и затем записываются в долговременную память. В докладе изложены основные принципы реализации этих действий в нервной системе. В нем доказано, что чрезвычайно важное значение имеют фазовые соотношения верхних гармоник в спектре, а также утверждается, что при воспроизведении через громкоговорители в той или иной степени всегда нарушается структура амплитудного и фазового спектра, поэтому звучание всегда беднее по тембру, четкости, ясности и др., чем натуральный звук. Поскольку это чрезвычайно ценная информация, постараюсь подготовить по ней отдельную статью.
На секции "Образование" очень полезный доклад для практики преподавания был представлен Е. Лукасика (Технологический Университет Познани), посвященный созданию методических пособий в виде текстов и анимаций для изучения курса"Цифровая обработка сигналов в аудиотехнике" (пр. 8621). В пособии представлены такие темы, как определение энергии и RMS сигналов, теорема свертки, спектральный анализ и синтез, цифровые фильтры и др. Авторы обещают скоро представить это пособие на английском языке, что сделает его доступным для широкого круга преподавателей.
На секции "Аудиооборудование и инструменты" был представлен доклад венгерских специалистов "Численное моделирование и измерения преобразователя со стеклянной диафрагмой" (пр. 8675), в котором рассматривается конструкция излучателя, где в качестве диафрагмы используется тонкий стеклянный лист, который возбуждается двумя электродинамическими драйверами.
Параметры диафрагмы (форма, толщина, плотность и др) были отобраны в результате численного моделирования. Характеристики полученного излучателя следующие: диапазон 60...15000 Гц, импеданс 8 Ом, масса 500 г, мощность 100 Вт.
На секции "Анализ и синтез звука" было представлено одиннадцать докладов. Из них четыре посвящены современным проблемам автоматического распознавания речи (ASR) (пр. 8634, 8635, 8636). В них приведен обзор современного состояния вопроса распознавания речи в особых условиях речевого окружения, применение для распознавания речи классификаторов "неопределенной логики" (Fuzzy Logic) и др.
В немецком докладе "Фильтры для удаления гула: обзор и анализ" (пр. 8638) рассматривается новый тип фильтров, созданный для удаления низкочастотного гула (синусоидальной помехи) из аудиозаписей.
Оценке уровней громкости (LRA) в радиовещательных программах, уже внесенной в стандарт EBU R-128, был посвящен немецкий доклад (пр. 8616), в котором предложены пути дальнейшего усовершенствования методов ее измерений.
В докладе"Статистические свойства характеристик близко установленных микрофонов" (пр. 8617) представлены результаты измерений импульсных характеристик при различном положении микрофонов и сделан статистический анализ разброса их параметров. В докладе показано, что они довольно устойчивы при коротких дистанциях микрофона от источника и могут использоваться в процессах аурализации и др.
Доклад "Акустическое детектирование вокальных мод" (пр. 8620), представленный Институтом Вокала (Дания), содержит интересные результаты. Как было показано, в результате исследований этого института в певческом голосе можно выделить четыре основные вокальные формы: нейтральная (Neutral), мундштучная (Curb), перегрузочная (Overdrive) и угловая (Edge). Они характеризуются следующим образом: Neutral – неметаллический, мягкий звук, имеющий придыхательный характер, Curbing – полуметаллический, сдержанный звук; Overdrive – метталический, громкий звук. Edge – металлический, легкий, агрессивный звук, близкий к крику. В докладе приводятся акустические параметры этих видов вокала: спектральный состав, соотношение первых гармоник, уровень гармоник в области 2...4 кГц и 8...10 кГц и др. Пример спектра для этих видов пения показан на рис.14
Секция "Слушательские тесты" включала в себя семь докладов. Из них четыре были посвящены проблеме, которая рассматривалась и на других секциях – это определение громкости в вещательных программах. В двух итальянских докладах предлагался новый алгоритм для расчета громкости (пр. 8612), определение комфортной для прослушивания зоны с позиций максимальных уровней громкости в радиовещательных программах (пр. 8613).
В докладе "Относительная важность речевых и неречевых компонент для предпочтительных уровней громкости"(пр. 8614) были представлены результаты тестов прослушивания радиовещательных программ с целью установления влияния речевых (и неречевых) компонент на устанавливаемый уровень громкости во время прослушивания. Было показано, что на выставляемый уровень громкости влияет общий средний уровень программы, а не ее отдельные компоненты.
В докладе "Определение допустимых порогов для взаимодействующих аудиопрограмм" (пр. 8639) показано, как влияют на восприятие базовой радиовещательной программы помехи от соседних станций.
В венгерском докладе "Сравнение локализационных предпочтений слепых и зрячих субъектов в виртуальном и реальном окружении" (пр. 8611) представлены результаты тестирования с целью определения проблемы – существует ли разница в локализации объектов с помощью эхолокации у слепых и зрячих участников. Эксперименты показали, что в виртуальных условиях (прослушивание через телефоны, воссоздание виртуального пространства с помощью свертки с передаточными функциями и др.) точность локализации была примерно одинакова (слепые делали меньше ошибок в определении фронт-тыл), а в реальных условиях, когда нужно было определить по звуку с помощью белой трости, где заканчивается стена, слепые показали значительно лучшие результаты, чем зрячие с завязанными глазами.
На секции "Пространственный звук" было представлено 11 докладов.
Из них можно отметить доклад японских акустиков "Шкалируемое кодирование трехмерного многоканального звука" (пр. 8647), в котором предлагаются новые методы кодирования и передачи трехмерного многоканального звука (например в системе 22.2) и уменьшения ошибок квантования.
В докладе A. Хилла и M. Хоуксфорода (University of Essex, Великобритания) "Практическое применение видоизменяемых систем низкочастотных блоков (subwoofers)" (пр. 8665) анализируются различные конфигурации субвуферов в помещениях небольших размеров с позиций оптимальной эквализации (выравнивания) частотных характеристик.
В докладе "Устойчивость микрофонной системы для систем Амбисоник" (пр. 8645) предлагается новая сферическая микрофонная система с более плотным расположением микрофонов на экваторе (что соответствует лучшей способности слуха локализовать источник в горизонтальной плоскости), и анализируются ее преимущества при воспроизведении пространственного звука по системе Амбисоник.
В докладе Вилле Пулкки (Aalto University, Финляндия) "Локализация при бинауральном воспроизведении через вставные телефоны" (пр. 8666) рассматривается вопрос применения бинауральной стереофонии (запись на искусственной голове) для миниатюрных вставных микрофонов для мобильных устройств, поскольку обычно прослушивание бинауральных стереозаписей происходит через большие охватывающие стереотелефоны (headphone), поэтому оценки погрешностей и их коррекция разработаны именно для них. В данном докладе анализируется точность локализации во вставных телефонах (earphone) и предлагаются методы эквализации их характеристик.
В докладе испанских специалистов из Университета в Валенсии (пр. 8668) предлагается вероятностная модель автоматической локализации нескольких речевых истоxников, основанная на расчете максимумов функции кросс-корреляции.
Новый алгоритм для эффективного синтеза нескольких близко расположенных виртуальных источников в трехмерном виртуальном окружении предложен в докладе китайских специалистов (пр. 8646).
Несколько лет тому назад на конгрессах была введена новая форма передачи информации в виде коротких докладов по 10 минут или стендовых докладов, которая получила название "Инженерные заметки". Тексты этих докладов не печатаются, даются только краткие аннотации. На данном конгрессе было 12 таких докладов, из них наиболее интересная тематика была следующая: "Оптические микрофоны" (микрофоны с использованием ультразвуковой несущей, о них был доклад на научной сессии), "MS-мастеринг стереомикрофонных сигналов", "Новые визуальные принципы для микширования Surround Sound", "Теория систем волнового синтеза" и др.
Как обычно, на конгрессе работали научные и учебные семинары. Многие обсуждаемые на них проблемы представляют значительный интерес, но к сожалению, материалы также не публикуются. На научных семинарах (их было 16) наиболее интересные проблемы можно выделить следующие: "Что должен каждый звукоинженер знать о голосе? ", "Открытые вопросы пространственного звука", "Узконаправленные микрофоны в звукозаписи", "Пространственное воспроизведение с учетом высоты", "Слушать профессионально – как тренировать свои уши" и др.
На пятнадцати учебных семинарах обсуждалась следующая тематика: "Техника микширования для электронной музыки", "Слушательские тесты – методика эксперимента и статистический анализ", "Акустика больших и малых помещений", "Модель бинаурального слуха" и др.
Как и на всех конгрессах проходили студенческие мероприятия, включая соревнование звукозаписей и научных докладов.