133-й конгресс AES – научные результаты
Ирина Алдошина
С 26 по 29 октября 2012 года в Сан-Франциско прошел очередной 133 конгресс AES под лозунгом "Слушай, учись, общайся".
Конгресс открыл новый исполнительный директор Боб Мозес, который сменил на этом посту ушедшего в отставку многолетнего директора Роджера Фернеса.
На открытии конгресса выступил с лекций известный музыкальный продюсер Стив Лиллиуайт, сотрудничавший с такими ансамблями, как The Rolling Stones, Dave Matthews Band, и др.
В своей речи (keynote) под названием "Слушать надо ушами, а не глазами", он говорил о важности культуры звукозаписи, о том, что, понимая значение новых технологий, не нужно становится их рабами, постоянно сохраняя первостепенность творческих процессов.
Традиционную мемориальную лекцию, посвященную памяти Ричарда Хейзера, читал на этом конгрессе известный специалист Джеймс Д Джонсон. Она называлась "Аудио, Радио, Акустика и Процессорная обработка - путь вперед". В ней он указал, что прогресс в понимании слухового восприятия позволил сблизить два подхода в работе со звуком - художественный и технический, что дает основание надеяться на создание звуковой реальности, позволяющей перенести слушателя в те пространства, где он никогда не был, но хотел бы быть.
Конгресс собрал более 11 тысяч участников, а в выставке приняли участие почти 300 фирм. На конгрессе работали: научная сессия, научные и образовательные семинары, "живые" семинары, где звукорежиссеры делились своим опытом, а также проходили заседания технических комитетов, комитетов стандартов, студенческие конкурсы звукозаписей, студенческая ассамблея и др.
Основные доклады (всего их было 140) были сделаны на 17 научных секциях. Остановимся подробнее на некоторых из них.
На секции "Усилители, преобразователи и аппаратура" (Р-2) можно выделить два доклада.
Первый, предложенный японскими специалистами (проф. А. Андo и др.) "Гибкий акустический преобразователь из диэлектрической гибкой пленки" (пр.8725), рассматривает новые материалы для пъезопленочных громкоговорителей, конструкция которых показана на рисунке.
В докладе представлены результаты изучения различных вариантов пленок на полиуретановой основе, в которые добавлены порошковые диэлектрики типа оксида титана и др. Изучаются диэлектрические свойства пленок и акустические характеристики преобразователя, показано, в частности, что добавление TiO2 улучшает диэлектрические постоянные пленки и увеличивает уровень звукового давления на 6дБ.
Во втором докладе Э. Бенджамина "Микрофон второго порядка типа Soundfield с улучшенной диаграммой направленности" (пр.8728) предложена новая модификация микрофона Soundfield, который достаточно давно используется для пространственной звукозаписи. Он представляет собой комбинацию четырех микрофонов, расположенных на тетраэдре с кардиоидными характеристиками направленности. Из полученных на нем выходных данных методом матрицирования можно получить набор виртуальных микрофонов – один ненаправленный и три восьмерки. Однако такой микрофон работает до частоты 7,3 кГц, а выше его характеристики направленности сильно искажаются. В данной работе предлагается новая конструкция микрофона, состоящая из восьми кардиоидных микрофонов, расположенных на октаэдре.
Она обладает рядом преимуществ: расширяет полосу частот до 20 кГц, улучшает форму полярных диаграмм, снижает уровень шумов и обеспечивает получение гармоник второго порядка в горизонтальной плоскости, что важно при построении таких пространственных систем, как Ambisonic.
На секции "Анализ и синтез звука" (Р-3) можно отметить работу проф. Божены Костек "Изучение корреляции между темпом и настроением в музыке" (пр. 8800). Этот комплекс работ направлен на выявление связи между объективными параметрами звука, в данном случае темпом и ритмом, и эмоциональным восприятием музыки. Были проведены эксперименты, которые помогли установить высокие корреляционные связи между темпом (и ритмом) и такими параметрами восприятия, которые описываются терминами :агрессивный, радостный, печальный, холодный и др. Работы эти являются частью проекта по автоматизированному распознаванию стилей и жанров музыки.
На секции "Аудиоэффекты и физическое моделирование" (Р-4) следует отметить интересный доклад, посвященный физическому моделированию древнегреческого музыкального инструмента авлос (пр.8696). По сохранившимся фрагментам, рисункам и описанию была построена компьютерная математическая модель инструмента, выполнен расчет процессов звукообразования в нем и воссоздано его звучание. Эта методика может быть применима и к другим старинным инструментам, что имеет принципиальное значение для истории музыкальной культуры.
На секции "Звук в образовании" (Р-5) был представлен доклад Д. Уильямса (Университет Плимута, Великобритания) "Стратегия дистанционного обучения технологии звукозаписи" (пр.8703), в котором рассматривалась стратегия дистанционного обучения звукорежиссеров с использованием современных технологий, позволяющих создать "виртуальные" интерактивные студии с моделированием 3-D пространственных систем звуковоспроизведения. Эти новые технологии позволяют приблизить условия обучения студентов к методике передачи опыта мастера с помощью прямых контактов, как это происходит до настоящего времени.
На секции "Восприятие звука (Audio Perception)" (Р-6) было представлено шесть докладов.
Доклад "Эффект акустического окружения на предпочтительные уровни реверберации" (пр.8742) был посвящен важной для практики звукорежиссуры проблеме – оценке влияния уровня реверберации окружающего помещения на параметры микширования и обработки звука, выполняемого в нем. Поскольку в настоящее время обработка звука не всегда производится в контрольных комнатах со специально нормируемыми акустическими параметрами, то анализ того, как меняются выбираемые характеристики при обработке звука в зависимости от свойств окружающего помещения, является актуальным. В представленном докладе показано (с помощью измерений и субъективных оценок), что введение звукорежиссером дополнительной реверберации в сухой записанный звук в значительной степени зависит от того, в каком помещении (сильно отражающем или заглушенном) производится обработка. Полученные количественные соотношения показывают, насколько уменьшается уровень вводимой реверберации в зависимости от типа помещения. Авторы предполагают продолжить исследования, чтобы оценить влияние параметров помещения на спектральную обработку звука (с помощью эквалайзеров), то есть на его тембр.
В докладе немецких специалистов "Локализация виртуальных точечных источников в слушательской зоне для систем волнового синтеза (WFS)" (пр. 8743) были исследованы вопросы точности локализации виртуальных источников внутри слушательской зоны для различных расстояний между громкоговорителями. Одним из основных преимуществ пространственной системы звуковоспроизведения WFS (о которых уже было рассказано в предыдущих статьях по конгрессам) является возможность размещения виртуальных источников по всему помещению, не ограничиваясь узкой зоной стереоэффекта (sweet pot), как в системах матричной стереофонии. Однако точная локализация может быть достигнута только при очень близком размещении громкоговорителей относительно друг друга при воспроизведении звука, а оскольку на практике это невозможно, то возникают определенные погрешности. Как показали результаты данного исследования (для 16 различных расположений слушателя и трех вариантах размещения громкоговорителей) при расстоянии между громкоговорителями в 20 см ошибка локализации составляет 2 град, при 41 см - 3 град, разница между позициями слушателя дает погрешность до 5 град, если расстояние между громкоговорителями увеличивается, то виртуальные источники возникают только в ограниченной зоне и при увеличении расстояния совмещаются с ближайшим громкоговорителем. Полученные данные очень важны при проектировании системы воспроизведения для WFS.
В докладе "Идентификация и оценка эталонных кривых для наушников" (пр.8740) выполнен анализ современных предложений по выбору эталонных кривых для наушников на основе экспертных субъективных оценок. Показано, что вид АЧХ, рекомендованных в стандарте ITU-R BS.708; не является оптимальным и требует коррекции на основе слушательских тестов.
На секции "Слуховое восприятие и оценка" (Р-7) можно отметить важный для практики звукозаписи доклад "Применение в реальном времени модели определения громкости для изменяющихся во времени сигналов" (пр.8769). В 2002 г. Гласбергом и Муром была предложена модель для объективного определения громкости реальных сигналов. В данном докладе предлагается алгоритм, который позволяет рассчитывать громкость, достаточно хорошо коррелирующую с субъективной оценкой для музыки и речи. Это важная составляющая часть общих систем автоматического микширования сигналов, которая в настоящее время активно разрабатывается.
На секции "Новые аудиотехнологии" (Р-8) было представлено семь докладов, из них в докладе "Влияние 2D и 3D видео на качество восприятия пространственного звука в стереотелефонах" (пр.8735) рассматриваются результаты эксперимента по оценке качества звучания пространственного звука в трех ситуациях – прослушивание через стереотелефоны пространственного звука с пятью разными алгоритмами обработки, прослушивание в сопровождении 2D-видео (обычного) и в сопровождении 3D-видео. В эксперименте участвовали 45 слушателей. Результаты показали, что добавление к звуковому сопровождению 2D-видео значительно улучшало качество звукового восприятия, в то время как добавление 3D-видео такого улучшения не дало. Предполагается продолжить эксперименты по прослушиванию через громкоговорители.
В докладе "Автономные системы стереопанорамирования для многоканального сопровождения" (пр.8736) рассматриваются новые алгоритмы и программное обеспечение для автоматического панорамирования, анализирующие спектральный состав и громкость музыкального отрывка различных жанров и, моделирующие решения звукорежиссера. Вероятно, эта система – начало будущего перехода на полностью автоматизированные системы управления обработкой звука.
В докладе П. Мэйси (Англия) "Расчет акустики помещений, использующий приближение размерности 2.5" (пр.8732) предлагается новая техника расчета структуры звукового поля в помещении. Как известно, для точного расчета звукового поля в помещениях различной конфигурации используется волновая теория, использующая методы численного расчета волнового поля. При этом по мере повышения частоты возрастает потребность в вычислительных ресурсах. Поэтому на высоких частотах используются приближенные методы геометрической акустики. Предлагаемый в докладе смешанный метод, использующий как численные, так и аналитические решения, позволяет значительно расширить диапазон применимости волновой теории.
На секции "Измерения и модели" (Р-9) очень важный доклад для развития аудиотехники был представлен Стивом Темме и др. (США) "Измерения слышимости нелинейных искажений с использованием упрощенной психоакустической модели" (пр.8704). Проблема оценки нелинейных искажений в электроаппаратуре давно обсуждается в литературе, в настоящее время используется метод оценки гармонических и интермодуляционных искажений, мультимодальный метод и др. Однако все они далеки от реальной слышимости этих видов искажений. В данном докладе предлагается алгоритм, использующий методы нейронных сетей, что приближенно отражает механизмы обработки звука в слуховой системе. Это позволяет оценить степень слышимости различных искажений, а полученные результаты подтверждены экспериментами. Авторы предполагают продолжить эксперименты. В случае получения устойчивых результатов это будет большой шаг вперед в проектировании аппаратуры.
Обзор существующих цифровых методов измерения основных параметров аудиоаппаратуры, анализ их достоинств и недостатков был представлен в докладе "Обзор, сравнение и руководство для аудиоизмерений" (пр.8705).
Полезные результаты по калибровке широко применяемых микрофонов Soundfield для пространственной записи содержались в докладе американских специалистов, там сравнивалась точность калибровки в свободном и диффузном поле. (пр. 8711).
На секции " Пространственное аудио" (Р-13) (10 докладов) был представлен еще один доклад о системе пространственного звуковопроизведения 22.2 "Инструмент для создания 22.2-канального пространственного звука с учетом высоты" (пр.8753). Работа была выполнена в университете McGill (Канада) совместно с фирмой NHK Science (Япония) под руководством известного специалиста проф. Веслава Вожчика. Целью работы было создание специализированного автоматизированного микшера Space Builder, включающего в себя многоканальный цифровой процессор (ревербератор), позволяющий с помощью операции свертки с импульсными характеристиками помещений (из специальной базы данных) формировать 22.2 пространственных канала (включая передачу по высоте), принцип его действия показан на рисунке.
Система может быть использована и для формирования любого другого количества каналов, тем самым создается очень эффективное устройство для работы с пространственным звуком.
В докладе "Использование динамически варьируемого расположения громкоговорителей в системе WFS (волнового синтеза)" (пр. 8755) предлагается с целью уменьшения погрешностей (повышения частоты элайзинга – alias frequency) варьировать расположение громкоговорителей в зависимости от спектрального состава воспроизводимого музыкального сигнала за счет автоматического назначения веса в распределении напряжения сигналов.
В докладе "Использование контроля движения в системах волнового синтеза" (WFS) (пр. 8761) предлагается система Kinetic Tracker, позволяющая контролировать движение источников, создаваемых в пространстве с помощью системы WFS, что может оказаться полезным в ряде приложений.
Два доклада были посвящены проблемам выбора передаточных функций для стереотелефонов в решении проблем выноса 3D-образа из головы (пр. 8757 и 8760)
Секция " Пространственный звук через наушники" (Р-14) содержала пять докладов. Первый из них - "Техника контроля за движением головы (HeadTrackingTechniques) для систем виртуальной реальности" В. Гесса (пр. 8782). В современных системах пространственного звука, например, при воспроизведении бинауральных сигналов через наушники или громкоговорители, при создании систем виртуальной реальности и др. широко используются различные устройства для контроля поворотов головы различного типа: гироскопы, акселерометры, оптические камеры, инфракрасные и ультразвуковые устройста и др. (Нead Tracker фирмы Beyerdynamic показан на рисунке).
В докладе выполнен анализ применяемых в настоящее время устройств и показаны их достоинства и недостатки для различных областей применения.
Очень полезный для практики обучения вокалистов и ораторов доклад "Моделирование аутофонии с аурализацией импульсных характеристик помещения" (пр. 8781) представил Сиднейский университет. Проблема состоит в том, что вокалисты и ораторы неправильно воспринимают свой голос посредством своей слуховой системы (это называется аутофонией), так как из-за обострения характеристики направленности высокие частоты в свой слуховой аппарат попадают только за счет отражений и кроме того, добавляется низкочастотная часть за счет костной проводимости, поэтому голос кажется более низким и глухим, особенно в больших или сильно заглушенных помещениях. Между тем для постановки голоса и стабильности пения очень важно научиться его правильно, то есть объективно оценивать. В представленном докладе предлагается система, когда голос вокалиста записывается в заглушенном помещении, а затем делается его свертка с импульсными характеристиками помещения и подается на стереотелефоны, таким образом вокалист может послушать и оценить, как реально будет звучать его голос в помещениях разных размеров и с разной степенью обработки поверхностей.
В секции "Пространственный звук через громкоговорители" (Р-15) было представлено восемь докладов, из них можно выделить доклад упоминавшегося выше японского ученого А. Андо и др. "Метод воспроизведения фронтального звукового поля системы 22.2 с использованием рамки из громкоговорителей" (пр. 8714). Японская национальная телекорпорация NHK создала в 2008 году совместно с британской телекорпорацией ВВС новое поколение телевизионных систем высокой четкости SUPER Hi-VISION (SHV), обладающих разрешением в 16 раз лучше, чем HDTV. Для них была разработана пространственная двадцатичетырехканальная система звуковоспроизведения 22.2 состоящая из трех слоев громкоговорителей: 3+2 (2 субвуферa) - нижний слой на уровне пола, 10 громкоговорителей на среднем уровне и 9 громкоговорителей на верхнем (у потолка).
О принципах построения и результатах субъективных экспертиз этой системы было сделано несколько докладов на предыдущих конгрессах, результаты подтверждают высокое качество воспроизведения пространственного звука в них. В данном докладе предлагается метод трансформации этой системы в систему, пригодную для домашнего воспроизведения. Для этого предлагается в раму плоского телевизора (например, размером 2,2 м х 1,3 м х 6 см ) вмонтировать 116 маленьких громкоговорителей (диаметром 2.5 см) на расстоянии друг от друга 6 см, по 37 громкоговорителей установить в верхнюю и нижнюю рамы и по 21 в боковые.
В работе был использован принцип формирования сферической звуковой волны с помощью процессорной обработки, используемой в системе WFS (системы волнового синтеза), о ней уже неоднократно было написано в предыдущих статьях по конгрессам. С помощью этой программы было воссоздано 11 мнимых источников, соответствующих фронтальным каналам системы 22.2, что уже обеспечило достаточно хорошее пространственное восприятие звуковой картины. Дальнейшая работа предполагает создание процессорного обеспечения для воссоздания виртуальных боковых каналов из системы 22.2. Таким образом, предполагается воссоздание виртуальной системы 22.2 для использования ее в домашних помещениях небольших размеров.
В докладе Ф. Фольк и Х. Фастл (Технический Университет в Мюнхене) "Система волнового синтеза (WFS): теория, результаты моделирования, сравнение с предыдущими приближениями" (пр. 8717) представлены результаты дальнейшего развития теории WFS-системы пространственного воспроизведения. Хотя теоретическое обоснование системы было дано в 80-годах в трудах проф. A. Дж. Беркхаута (Дельфтский технологический университет, Нидерланды), тем не менее остаются вопросы, связанные с воспроизведением реальных источников с погрешностью из-за конечного числа громкоговорителей и определенного расстояния между ними. В данном докладе предлагается теория, позволяющая уменьшить ошибки в распределении вторичных источников во всей зоне слушательских мест.
На секции "Процессорная обработка в пространственном звуке" (Р-16) можно отметить японский доклад "Новый алгоритм для расчета трехмерной реверберации методом мнимых источников" (пр8803), в котором предлагается новый метод расчета трехмерного реверберационного процесса в помещениях любой сложности (конфигурации, размещения поглотителей и др.)
На секции "Преобразователи" (Р-17) под председательством А. Войшвилло (нашего бывшего коллеги, а теперь ведущего специалиста фирмы JBL) было представлено восемь докладов.
Очень полезная информация содержалась в докладе С. Оливе "Отношения между измерениями и восприятием качества звука в телефонах" (пр.8744). В стандарте IEC 60268-7 рекомендована типовая форма АЧХ для телефонов с подъемом до 12 дБ на средних частотах при измерениях на искусственной голове или искусственном ухе.
Однако результаты прослушивания семи моделей наушников ведущих фирм показывают, что слушатели предпочитают по качеству звучания модели с более нейтральным балансом, то есть более плоской АЧХ. Требуется проведение дополнительных исследований для окончательной коррекции стандартизованной типовой кривой.
Доклад Т. Велти (фирма Harman) назывался "Оптимальное расположение субвуферов для уменьшения разброса параметров и увеличения излучения на низких частотах" (пр. 8748). На пространственных компьютерных моделях помещений различных форм и размеров было исследовано влияние расположения низкочастотных блоков на изменение формы АЧХ в области низких частот при разных расположениях слушательских мест. Показано, что наилучшие результаты из всех исследованных конфигураций расположения блоков, в смысле максимального уровня низких частот, однородности и стабильности распределения звукового поля по площади слушательских мест получены для конфигурации LRQ.
В докладе "Расширение полосы частот для микрофонных конфигураций" (пр. 8751, Технический университет, Берлин) рассмотрена важная для практики задача - для пространственных систем звукозаписи часто используются различные микрофонные линейки, одним из ограничений для их применения является ограниченная область верхних частот, так как из-за конечного расстояния между микрофонами возникают элайзинговые частоты (искажения). В данной работе предлагается метод восстановления высокочастотной зоны, который может быть использован при решении практических задач при записи.
Очень интересная работа (которая получила премию как лучший доклад на данном конгрессе) была представлена японскими учеными – "Изучение ионного микрофона" (пр. 8745). Попытки создания электроакустических преобразователей с использованием модуляции плазменного облака были начаты еще в конце XIX века. В 1900г Дудель демонстрировал "поющую электрическую дугу". В 1946 году французский изобретатель Зигфрид Кляйн предложил ограничить электрическую дугу, поместив ее внутрь маленькой кварцевой трубки, и соединить ее с рупором. Он предположил, что такое устройство можно использовать для создания звуковых волн и применить его как излучатель в ультразвуковом диапазоне частот или как высокочастотный громкоговоритель. Кляйн придумал для него название "ионофон". Температура плазмы при этом достигала 1700 град. Однако проблемы с высоким уровнем шумов и трудности работы с высокотемпературной плазмой привели к тому что излучатель не получил широкого распространения. Позднее в 80-х годах был создан излучатель на холодной плазме "Плазмотрон", созданием высокочастотных громкоговорителей такого типа занимается сейчас фирма Acapella в Германии. В Японии на протяжении нескольких лет ведутся работы по созданию микрофона на горячей плазме. Принцип его работы показан на рисунке – между остроконечным и плоским электродом создается ионное облако при подведении к ним постоянного тока высокого уровня.
При падении звуковой волны объем воздуха начинает пульсировать, создавая переменное напряжение. Пока работы находятся на стадии лабораторных исследований, поскольку возникает много проблем: нестабильность работы, высокий уровень шума и др.
Известный специалист Вольфганг Клиппель представил доклад "Моделирование нелинейных процессов в микрогромкоговорителях" (пр. 8749), в котором с помощью разработанных им методов контроля анализируются причины возникновения нелинейных искажений в маленьких громкоговорителях, используемых в сотовых телефонах, планшетах и пр. при больших уровнях сигнала. Полученная информация является очень полезной для проектирования таких излучателей.
На этом конгрессе, как и на нескольких предыдущих, продолжала работать новая форма представления докладов – Engineering Brief. На четырех заседаниях были представлены короткие заметки в виде стендовых или прочитанных докладов. Всего таких коротких заметок, касающихся совершенно разных задач, не связанных общей тематикой, было двадцать пять.
Из них можно выделить два сообщения специалистов из Университета McGill (Канада), первое – "Сравнение техники записи, передачи и воспроизведения для многоканального пространственного аудио", в котором сравнивалась техника записи с помощью центральной конфигурации микрофонов (левый – центральный – правый) плюс задняя конфигурация из четырех микрофонов (система Hamasaki) и запись с помощью точечных микрофонов у инструментов с последующим сведением, панорамированием и созданием "виртуальной" системы микрофонов. Воспроизведение производилось через систему 5.1 или через 12.2, где использовалось 12 передних громкоговорителей с формированием сферического фронта волны (как в системе Волнового синтеза WFS). Результаты прослушивания показали, что запись с первой конфигурацией микрофонов дает более реалистические результаты в передаче пространственных характеристик.
Второе сообщение “Микрофонная техника для улучшения стереообраза – STAAG” содержало предложение использовать новую конфигурацию стереомикрофонов, состоящую из двух пар микрофонов: одна пара (с расстоянием между собой 17-30 мм) "схватывает" переднее полупространство, вторая (там же расположенная) – заднее. Было проведено сравнение с обычной техникой (ORTF, NOS, DIN), показано, что такая стереозапись дает определенные преимущества в передаче пространства.
Интересно отметить еще одно сообщение из этого же Университета, посвященное проблеме оценки качества звучания при изменении частоты дискретизации (эта проблема давно волнует специалистов). Были проведены субъективные экспертизы звучания одних и тех же инструментов при частотах дискретизации 44,1, 96 и 192 кГц. Оказалось, что никакой статистически значимой разницы в оценках не обнаружено. Авторы предлагают продолжить дискуссию по этому вопросу, в частности, по возможности более тонкой организации эксперимента. Кроме того, были сообщения, касающиеся online-ресурса для прослушивания вокальных микрофонов, проблем восприятия нелинейных искажений, влияние ЗD-видео на восприятие дистанции до звукового источника и др.
Как обычно, на конгрессе были организованы учебные и научные семинары (к сожалению материалы по ним по-прежнему не публикуются). Учебных семинаров было 13, тематика их охватывала широкий круг вопросов, например, "Повреждение слуха" (под руководством П. Крум из лаборатории Dolby), "Акустика малых помещений", "Практическая акустика оголовий", "Магия аналоговых магнитофонов", "Акустика больших помещений", "Бинауральные модели слуха", "Разборчивость в системах озвучивания", " Мастеринг для винила - современные изменения" и др.
На одиннадцати научных семинарах обсуждались такие темы, как "Оценка пространственного слуха", "Что должен каждый инженер знать о голосе", "Инструменты звукового дизайна для пространственного звука с учетом высоты", "Запись музыки в системе 9.1", "Акустика и аудио в применении к iPhone" и др.
Традиционно на конгрессе прошли конкурсы студенческих звукозаписей и студенческих научных работ.