Surround Sound-формат 22.2 и Super Hi-Vision

Анатолий Вейценфельд

Последние годы время от времени в прессе (в том числе в рассказах И.А. Алдошиной о конгрессах AES) упоминается звуковой формат 22.2. Из этих упоминаний можно в общих чертах представить себе, о чем идет речь, но мало кому удалось послушать его звучание. Поскольку мне довелосьприсутствовать на демонстрации этого формата, хочу поделиться впечатлениями и некоторой технической информацией.

Система новой технологии видеопоказа Super Hi-Vision создана инновационной группой BTF (Broadcast Technology Futures), в которую, кроме играющих ведущую роль японских специалистов из компании NHK и британцев из BBC, входят также немецкий исследовательский центр IRT и исследовательский центр CRIT итальянской вещательной компании RAI. Технология эта называется SHV (Super Hi-Vision). Она включает визуальный ряд в формате 7680 х 4320 (то есть 33 мегапиксела!) и звуковое сопровождение в формате 22.2. Мне довелось побывать на демонстрационном показе, и надо сказать, оно оставило потрясающее впечатление.

Демонстрация формата 22.2

Демонстрационные ролики шли на экране размером примерно 6 х 3,5 метра, причем зрители первого ряда сидели на расстоянии около 3 м и не испытывали никакого дискомфорта от близкого расположения, напротив, все мельчайшие детали изображения были отчетливо видны. Можно уверенно сказать, что по разрешению качество изображения превосходило не только все известные цифровые форматы, но и аналоговый проекционный кадр Kodak Supervision. Аудитории показывали демонстрационный записанный ролик, прямую трансляцию из Лондона по сверхширокополосному кабельному IP-каналу и из Турина по спутнику Atlantic Bird.

Объем передаваемой информации, естественно, гигантский – в несжатом виде минута занимает… 194 ГБ! При передаче по IP-каналу поток 24 Гбит/с сжимается до 640 Мбит/с с помощью MPEG-2, а многоканальное аудио передается в несжатом виде. При передаче SHV-сигнала через спутник используется более плотная компрессия – до 140 Мбит/с, при этом видеопоток кодируется с помощью MPEG-4 AVC, а многоканальное аудио кодируется в ААС.

Эта великолепная картинка сопровождалась аудиорядом в формате 22.2. Создатели системы решили дать звуку третье измерение, то есть распределить его еще и по высоте. Хотя известно, что по вертикали разрешение человеческого слуха существенно хуже, чем по горизонтали, но оно все же есть, и мы в состоянии в значительной части диапазона определить, идет звук сверху или снизу. Поэтому в системе 22.2 акустические системы расположены в три ряда вокруг слушателей: верхний ряд, включающий 9 каналов – выше головы слушателя, в том числе один по центру потолка, средний ряд из 10 каналов – на уровне головы и нижний ряд из трех каналов находится на полу. Плюс к ним еще два НЧ-канала. (Схему расположения акустических систем можно увидеть на рисунке).

Схема звуковоспроизведения формата 22.2

Впечатление от звучания – превосходное. Это действительно окружающий звук, без разрывов в панораме – оно и понятно, откуда им взяться при таком количестве каналов! Несравнима ни с чем ранее слышанным и локализация виртуальных источников звука – она абсолютно реальна, можно указать на источник с точностью до нескольких градусов. К тому же можно указать на этот источник еще и по вертикали! В самом деле, особенно впечатляет вот это совершенно новое и непривычное ощущение организованного вертикального звучания, когда звук отдельных источников идет снизу или сверху – и не потому, что акустические системы смонтированы под потолком, как в обычных кинотеатрах, а потому что таков микс, таково сознательное звукорежиссерское решение.

И это – самое интересное в данной технологии: какие творческие возможности может дать многоканальное микширование не в ставшем уже распространенным формате 5.1, а в следующих по сложности и потенциалу форматах. Правда, надо сказать, что мне удалось зайти в зал одним из первых и занять выгодное место в центре, тот самый sweet spot, когда слушатель находится на равном расстоянии от всех источников звука. В кинотеатрах с системой Dolby Surround на эти места самые дорогие билеты, потому что на местах с краю, особенно в последних рядах, получается совсем не та звуковая картинка, которую хочет создать режиссер и звукорежиссер – слушатель оказывается ближе к тыловым громкоговорителям, чем к фронтальным. Эта проблема так и не решена в кинематографе до сих пор.

Ради чистоты эксперимента и полноты представления я решил остаться на повторную демонстрацию и пересел на "дешевые места". И это оказалось очень познавательным – тот нежелательный эффект нахождения не в "лучшем месте", который наблюдается в кинотеатрах с системой 7.1, был заметен гораздо меньше! Да, звучание было немного иным, но все то впечатление сферического звукового окружения и точной локализации источников сохранилось практически полностью. Очевидно, что проблему неравноценности качества звучания зрительских мест в зале формат 22.2 решает превосходно.

В перерыве удалось немного поговорить о звуке с одним из японских инженеров, проводивших демонстрацию. Правда, он больше говорил о самой системе звуковоспроизведения 22.2: как правильно инсталлировать эту систему в помещении, где можно такую систему разместить, а где это не даст желаемых результатов и т.п. Все это важно, но практиков звукозаписи по понятным причинам больше интересует, как производится запись фонограмм для столь многоканального воспроизведения, и особенно как осуществляется микширование, в общем, детали студийного процесса.

Здесь мой собеседник, к сожалению, был лаконичен, но все же сообщил, что параметры для каждого из 24 выходных каналов (а это частотная, динамическая и пространственная обработки) прописываются в программе-редакторе с помощью кривых автоматизации, аналогично тому, как это делается для обычных стерео или 5.1 миксов. А само микширование, т.е. фактически маршрутизация записанных треков по 24 выходным каналам, записывается в установках консоли, которые можно экспортировать. (Кстати, воспроизведение во время демонстрации производилось через цифровую консоль Yamaha PM5D).

Поскольку создание маршрут-микса очень трудоемкий процесс, в будущем, когда технология распространится и станет на коммерческие рельсы, это будет делать "робот", т.е. специально созданный алгоритм, а звукорежиссер будет лишь задавать общую идею-"партитуру" звучания. В самом деле, живой человек не может динамически управлять 24 выходными каналами, это и втроем невозможно... Подобные работы уже ведутся, например, в университете McGill (Канада) совместно с научным подразделением NHK был разработан программный автоматизированный микшер Space Builder. Это многоканальный процессор временной обработки, который, используя сверточно-импульсную реверберацию, формирует 24 канала. Будет любопытно со временем увидеть эту функцию в популярном звуковом редакторе, например Pro Tools, Logic, Pyramix, Nuendo и др.

Алгоритм Space Builder

С сожалением приходится отмечать, что все публикации на тему технологии Super Hi-Vision основной упор делают на "картинку", в них рассматриваются формат кадра, особенности алгоритма компрессии видеоданных, конструкция оптики и структура матрицы специальных видеокамер для этого формата, схема организации передачи данных по спутнику и оптоволоконной сети… А вот звуку, тем самым 22+2 каналам, уделяется гораздо меньше внимания! Хотя, вне всякого сомнения, трехмерный звук не менее революционен, чем видео сверхвысокого разрешения. А уж работа звукорежиссера с таким количеством каналов будет посложнее, чем работа видеооператора, пусть даже и с камерой Super Hi-Vision. Впрочем, это неудивительно – мировая телевизионная индустрия находится в бешеной погоне за двумя идолами: первого из них зовут Пиксел, второго – Мегабит-В-Секунду. Все прочее находится где-то на периферии внимания.

Система Super Hi-Vision уже работала на публике: ВВС установила несколько таких экранов в Лондоне на прошедших в 2012 году Олимпийских играх. Это были специально оборудованные клубы для просмотров футбольных, легкоатлетических и пр. матчей. Консорциум разработчиков обещает выпуск SHV-совместимых домашних телевизоров и начало соответствующего вещания в течение 5…10 лет. Конечно, пока трудно себе представить телевизор с длинной стороной около 2 м и при этом имеющий разрешение, как у компьютерного монитора (то есть сидеть перед ним можно будет на расстоянии в полметра), – но мало ли существует вещей, которые было трудно себе представить еще недавно – а сейчас вот они, перед нами…

А вот если что действительно трудно себе представить в домашних условиях, так это звуковая система в 22+2 канала! Хотя кто сказал, что это обязательно должны быть привычные колонки? Может, это будут какие-нибудь плоские излучатели, не занимающие места и невидимые в интерьере? И в этой области тоже есть экспериментальные разработки, например, формирование сферической звуковой волны с помощью системы волнового синтеза (WFS). В этой системе телевизор окружается огромным количеством миниатюрных громкоговорителей (более 100), к которым подводятся сигналы после соответствующей обработки. Пока эта система выглядит не слишком перспективной, но исследования продолжаются…