Интервью с Алексеем Лукиным, iZotope

Alexey Lukin

Нам представилась возможность взять интервью у Алексея Лукина. Многие знают его как главного разработчика программы RMAA, а в профессиональной среде как ведущего разработчика американской компании iZotope, известной своими плагинами для обработки звука iZotope Ozone, iZotope RX.

Краткая справка: Алексей Лукин, к.ф.-м.н., младший научный сотрудник ф-та ВМиК МГУ им. М. В. Ломоносова, разработчик алгоритмов в компании iZotope, Inc.

 

  1. Привет, Алексей! Мы с тобой давно знакомы, уже практически 10 лет. Следим за твоей карьерой и очень за тебя рады. Три раза сплюнем. Очень здорово видеть успешную историю признания и востребованности специалиста мирового уровня, применения научных знаний на практике с пользой для дела. Расскажи, пожалуйста, в двух словах: чем ты занимался, учась в университете? В каких проектах участвовал? Для каких компаний?

Спасибо за столь многозначительное представление, но «мировой уровень» я бы примерять к себе пока не стал. Я, скорее, отношусь к специалистам «широко известным в узких кругах».

Когда я поступал в университет, на рынке появлялись первые доступные компьютерные звуковые карты, формат MP3, трекерная музыка. Компьютеры становились мультимедийными. Помню, что меня тогда очень интересовал вопрос качества звучания таких дешёвых звуковых карт. Это подтолкнуло к изучению цифровой обработки сигналов и преобразования Фурье. Я снова и снова брал в библиотеке книгу Рабинера и Голда, излагающую соответствующую теорию. К сожалению, на нашем факультете изучением звука и радиоэлектроникой мало кто занимается. Зато у нас хорошие возможности по изучению программирования.

Моей первой, своего рода учебной программой по работе со звуком стал гитарный тюнер. Далее я переключился на вопросы измерения качества звуковых карт и приступил к разработке проекта Sound Card Analyzer — программы для автоматического измерения АЧХ, уровня шумов и искажений звуковых карт. Вскоре после публикации Sound Card Analyzer в Cети мы познакомились с Максимом Лядовым из iXBT. Максим специализировался на обзорах звуковой аппаратуры и предложил совместно развивать проект под именем RightMark Audio Analyzer. Так началось наше длительное сотрудничество.

В университете я распределился в лабораторию компьютерной графики и мультимедиа. Там я участвовал в научно-исследовательских проектах для компании Samsung по обработке изображений. Мы разрабатывали высококачественные алгоритмы для обработки видеосигнала: масштабирования, преобразования чересстрочной развёртки, шумоподавления и т. п. Спустя некоторое время часть разработанных алгоритмов была запатентована. В лаборатории ко мне стало приходить понимание того, что многие методы обработки изображений и звуковых сигналов схожи. И там, и там применяются спектральный анализ, фильтрация, шумоподавление, учитываются особенности человеческого восприятия. Впоследствии это наблюдение помогло мне определиться с темой диссертации.

  1. Вопрос про твой фирменный алгоритм нойз-шейпинга MegaBitMax, который встречается во многих продуктах. Расскажи вкратце, как ты его разработал, что он даёт, когда его надо применять?

Например, при конвертации 24-битного студийного мастера к 16-битному формату Audio CD. Подробнее об этом можно прочитать в моей статье в журнале «Звукорежиссёр»: «Системы понижения разрядности в мастеринге».

Поскольку в лаборатории мы активно занимались преобразованием форматов изображений, я заинтересовался преобразованием разрядности и для аудиосигналов. Главной целью при разработке алгоритма было предоставление пользователю широких возможностей по настройке нойз-шейпинга, в первую очередь — его агрессивности. При каждом заданном уровне агрессивности (т. е. максимально допустимом уровне ВЧ-шума) я стремился добиться наилучшего подавления слышимого шума квантования. Большинство существующих на тот момент систем нойз-шейпинга использовали фильтры невысокого порядка, в результате чего АЧХ шума получалась пульсирующей и неточно приближающей требуемую форму спектра. В MegaBitMax я использовал фильтры более высокого порядка (до 50-го) и несколько специальных трюков для снижения пиковых выбросов ВЧ-шума.

Алгоритмом заинтересовалась компания TC Works (подразделение TC Electronic, позднее они объединились), они купили лицензию на встраивание алгоритма в свой аудиоредактор Spark XL. Кстати, именно TC Works придумали название MegaBitMax. Изначально я называл алгоритм ExtraBit — он как бы добавляет биты к воспринимаемому динамическому диапазону.

После того, как лицензия TC Works истекла, я передал алгоритм компании iZotope, и его встроили под названием MBIT+ в звуковой модуль Ozone 3, а также пролицензировали для использования в некоторых аудиоредакторах других производителей, например Sound Forge 10, Audiofile Engineering Wave Editor.

  1. Расскажи, как ты попал в компанию iZotope? Ты постоянно живёшь и работаешь в Штатах?

iZotope заинтересовались моей веб-страничкой с описанием MegaBitMax и предложили сотрудничать. Нашим первым совместным проектом был процессор эффектов Spectron. Далее появились и другие направления. Долгое время я работал в компании удалённо — из Москвы. Но сейчас график работ требует частых «командировок» в штаты.

  1. Чем ты занимаешься в компании? Как идёт разработка?

Я стал в iZotope разработчиком алгоритмов. Началось всё, как я уже отметил, с процессора эффектов Spectron, основанного на вокодере. Далее я реализовывал отдельные модули для мастерингового процессора Ozone 3 — кроссовер и эквалайзер с линейной фазой, обновлённая динамическая обработка, максимайзер с алгоритмом «умного времени восстановления» (Intelligent Release Control).

Ещё один наш крупный проект — алгоритм Radius для изменения тональности и хронометража аудиозаписей. Его разработка и совершенствование продолжались несколько лет. Оценив высокое качество алгоритма, Radius пролицензировали многие производители для использования в своих аудиоредакторах: Cakewalk Sonar, Adobe Audition, Digidesign Pro Tools, SADiE, Minnetonka…

Последние пять лет большую часть своего времени в iZotope я посвящаю разработке алгоритмов реставрации аудиосигналов. Наш реставрационный продукт RX состоит из отдельного приложения и набора плагинов, реализующих различные виды шумоподавления и анализа аудиосигнала. Я отвечаю за математику этого продукта и могу с гордостью сказать, что многие алгоритмы RX являются продолжением моей научной работы и представлены в публикациях на таких профильных конференциях, как AES.

  1. Вопрос о продуктах компании iZotope. Сначала был только Ozone, теперь целый спектр продуктов. Есть даже железный прибор реального времени. Впечатляет! Расскажи нам о компании.

Компания была основана в 2001 году в Бостоне выпускниками Массачусетского технологического института (MIT). Когда я начинал сотрудничать с iZotope (в 2002 году), в её штате было всего несколько человек, но определённое имя компания уже имела благодаря своему продукту Ozone. Любопытно, что в начале существования у компании была парочка небольших продуктов по работе с изображениями, однако позже мы полностью переключились на работу со звуком.


Офис компании iZotope, Бостон, США

Первые несколько лет iZotope была известна исключительно плагинами — подключаемыми программными модулями для обработки звука. Однако со временем сфера нашей деятельности расширилась. Мы разработали «железный» прибор ANR-B для подавления шума в реальном времени. Значительную часть нашей работы также составляют совместные проекты с другими компаниями и лицензирование наших технологий для таких программ, как Audition, Sound Forge, Pro Tools.

Конечно, такое расширение сферы деятельности привело к увеличению штата компании. Сейчас в iZotope работает несколько десятков специалистов: разработчиков, тестировщиков, дизайнеров, маркетологов. Однако компанию нельзя назвать интернациональной: единственный офис iZotope находится в Бостоне, США, и практически все её сотрудники — американцы.

  1. Мы сами давно используем обработку iZotope и всем советуем. Есть ли информация, кто из именитых людей использует ваши продукты?

Интервью с наиболее известными из наших пользователей можно посмотреть на страничке www.izotope.com/artists. К сожалению, бо́льшая часть имён там принадлежит американским продюсерам, и они мало что скажут российскому слушателю. Мне легче назвать, в каких проектах участвовали продукты нашей компании. Прибор ANR-B применялся при телетрансляциях церемоний Grammy и Oscar в 2010 году. Также он установлен на ряде крупнейших американских стадионов. Гитарный процессор Trash активно используется Бутчем Вигом, продюсером групп «Нирвана» и Garbage. RX применяется для очистки диалогов на многих американских телешоу. Наши алгоритмы изменения тональности — в популярной видеоигре Rock Band.

  1. Подчас удивляет, например, плагин эквалайзера или компрессора, где только имитация трёх ручек аппаратного прибора, даже без пикметра сигнала, не говоря о спектре, то есть вообще не использующий возможности компьютера! А как ты оцениваешь современную ситуацию с плагинами обработки?

Малое число ручек — это не всегда плохо. Например, в наиболее уважаемых реставрационных приборах Cedar зачастую имеется только одна ручка: «больше-меньше». Всё дело в умелой реализации алгоритмов. В iZotope мы часто идём в сторону предоставления большого числа регулировок и средств визуализации. Однако стараемся, чтобы даже неподготовленный пользователь мог быстро освоить наш продукт. Интересный подход выбран в новом вокальном процессоре iZotope Nectar: по умолчанию на дисплее выводятся лишь самые необходимые настройки, но у продвинутых пользователей имеется возможность открыть «закладки» с детальными параметрами каждого модуля.

Современная ситуация с плагинами такова, что плагинов становится всё больше, а доля хороших плагинов — всё меньше. Когда средства разработки стали доступны практически каждому, вполне логично, что многие плагины стали создаваться непрофессионалами, с соответствующими результатами. В качестве примера приведу наделавший много шума в своё время плагин ReLife, якобы восстанавливающий динамику перекомпрессированных либо клиппированных записей. При внимательном изучении оказалось, что этот плагин является всего лишь всепропускающим фильтром, т. е. он изменяет ФЧХ сигнала некоторым фиксированным образом. Пиковые уровни лимитированных записей при этом действительно повышаются, но говорить о каком-либо изменении динамики и вообще об изменении в звучании — глупо.

  1. iZotope RX. Об истории этого продукта. С чего всё началось, как к этому пришли? В чём основная идея продукта, в чём преимущества перед конкурентами? Как удалось преодолеть внутреннее противоречие преобразования Фурье — высокое разрешение либо по времени, либо по частоте? Каково было твоё участие в разработке? Как продукт приняли в профессиональном сообществе?

Идея создания реставрационного продукта появилась у нас ещё примерно в 2003 году, когда я активно занимался алгоритмами подавления шума на изображениях. Был сделан прототип плагина для звукового шумоподавления. Однако вскоре стало понятно, что для эффективной реставрационной работы необходимы средства визуализации и навигации, которые невозможно сделать в плагине. Так началась работа над отдельным приложением для реставрации, которое в 2007 году было выпущено под названием RX.


iZotope RX 2, окно программы в автономном (standalone) режиме

Основная идея продукта — сделать работу со звуком по-настоящему визуальной. И, конечно, главную роль в этом играет спектрограмма. В RX она очень гибкая: быстро перерисовывается, подстраивает масштаб под текущее окно, имеет множество настроек, в том числе уникальных. Впервые стало возможным отображать форму волны поверх спектрограммы и работать с обеими. В нашей спектрограмме есть несколько специальных режимов повышения чёткости изображения, превосходящих по возможностям традиционное преобразование Фурье. Один из них называется Reassignment и позволяет абсолютно точно увидеть частоту тона, даже если она меняется во времени. Другой называется Adaptively sparse — он автоматически подстраивает размер окна FFT под сигнал для наибольшей чёткости спектрограммы как по частоте, так и по времени. Этим специальным режимам спектрального анализа была посвящена моя диссертация.

Кстати, данные методы спектрального анализа применяются не только при визуализации спектрограммы, но и при обработке сигнала, позволяя достичь более высокого качества шумоподавления, чем конкурирующие продукты. Должен сказать, что шумоподавление — наша сильная сторона. У iZotope имеется несколько публикаций по реставрации на AES, а пару лет назад нас даже пригласили прочитать двухчасовую обучающую лекцию по этой теме на Нью-Йоркской конвенции.


iZotope RX 2 Advanced, продвинутые настройки скрыты

Я принимаю самое активное участие в разработке RX, фактически отвечая за всю алгоритмическую начинку, обрабатывающую и анализирующую звук. Вместе со мной над продуктом работают специалисты по архитектуре приложения и интерфейсу, и должен сказать, что их вклад тоже огромен. Будучи независимым приложением, RX включает в себя модули работы с файлами, со звуковой картой, визуализации, рисования выделений, а также несколько реставрационных модулей и более простые компоненты для редактирования. Кроме того, основные реставрационные модули были выпущены также в виде плагинов.

В профессиональном сообществе RX приняли очень тепло. Ведь мы сделали качественные алгоритмы доступными даже небольшим студиям. Стандартная версия RX содержит те же алгоритмы реставрации, что и расширенная (Advanced) версия, но с меньшим числом настроек. Поэтому даже со стандартной версией можно достичь полного качества обработки.

  1. Вопрос про автоматическое удаление немузыкальных звуков из сигнала — взятие дыхания, причмокивания, свисты и т. п. Расскажи про iZotope Nectar.

Nectar задумывался как аналог продуктов Ozone или Alloy для работы с вокальными дорожками — своеобразный комбайн, позволяющий быстро достичь желаемого звука. По одной из задумок, Nectar должен был содержать некоторые базовые реставрационные функции для вокала: подавление причмокиваний, взятия дыхания, «задуваний» микрофона и т. п. К сожалению, в процессе работы мы поняли, что полноценная реставрация на лету потребует слишком больших вычислительных мощностей, и продукт станет малоприменим при трекинге в реальном времени. Поэтому было решено ограничиться подавлением дыхания. Алгоритм довольно интересен: это не просто гейт, а анализатор спектра сигнала, пытающийся отделить звуки дыхания от полезных согласных звуков. Конечно, это трудная задача, требующая элементов искусственного интеллекта, но в первом приближении разработанный алгоритм можно считать успешным. Он идентифицирует моменты взятия дыхания и позволяет ограничить их по громкости.


iZotope Nectar
  1. Нет ли желания/планов сделать полноценный standalone-редактор или интегрироваться в Adobe Audition? (В Adobe Audition очень неплохие инструменты хирургического вмешательства в часть сигнала, этого явно не хватает в RX.)

Вообще, Audition остаётся моим любимым редактором. Для детального анализа сигнала и реставрации я уже перешёл на RX, а вот простейшие операции над звуковыми файлами предпочитаю делать в Audition. В нём есть удобные инструменты для редактирования почти на все случаи жизни, но в RX 2 у нас была значительно расширена палитра инструментов для спектрального редактирования, и в этой части мы догнали Audition. Несмотря на то, что Audition уже содержит множество алгоритмов от iZotope (например, многополосный компрессор, алгоритм time/pitch, некоторые другие виды эффектов), думаю, Audition и RX будут развиваться параллельно как общий и специализированный инструменты.

  1. Что нового в последней версии iZotope RX 2? Что бы ты советовал опробовать?

В новой версии RX 2, вышедшей в октябре 2010 года, мы добавили множество инструментов для выделения объектов произвольной формы на спектрограмме: лассо, кисть, волшебная палочка. Многие операции теперь выполняются гораздо удобнее: можно выделить несколько объектов одновременно и запустить обработку сразу для всех. Появилась поддержка плагинов сторонних производителей в форматах DirectX, VST, AU — их тоже можно применять к областям на спектрограмме!

С моей точки зрения, самое главное улучшение RX 2 — новые алгоритмы для подавления шума (Denoiser D) и виниловых щелчков (Declicker/Decrackler и Deconstruct). Могу порекомендовать следующую цепочку обработок, дающую хорошие результаты при реставрации винила:

  1. Declicker (два прохода в режиме Multiband),
  2. Decrackler,
  3. ручное подавление оставшихся щелчков модулем Interpolate или Spectral Repair,
  4. Denoiser,
  5. Deconstruct.

Ещё один фирменный секрет: для подавления электрического гула не спешите воспользоваться режекторными фильтрами из модуля Hum. Во многих случаях более аккуратных результатов можно добиться модулем Denoiser в режимах D или C — он меньше затронет полезный сигнал на частотах гула.

В расширенной версии RX Advanced, кроме поддержки плагинов, теперь есть алгоритм iZotope Radius для высококачественного изменения хронометража и тональности (time/pitch), а также специальный модуль азимут-коррекции для реставрации записей с магнитной ленты.

  1. Расскажи об онлайн-проекте сравнения разных алгоритмов SRC. Чем там дело закончилось? Кто победил? Не дошло до сопоставления субъективной оценки с объективной?

Идея сделать такой сайт со сравнением алгоритмов SRC (преобразования частоты дискретизации) витала в воздухе довольно давно. Однако первым её воплотил не я, а Дейв Хоррокс — мастеринг-инженер канадской студии Infinite Wave. Он использовал программу RMAA для отображения спектров синусоиды 1 кГц после пропускания её через различные SRC-конвертеры. Через некоторое время я набрёл на сайт Дейва и предложил расширить тест, дополнив его результатами для «плавающего синуса» и импульсов. Так родился сегодняшний набор тестов. Я не буду здесь подробно рассказывать о нём, так как уже написал на эту тему статью в «Звукорежиссёре»: «Тест конвертеров частоты дискретизации».

Скажу только, что, на мой взгляд, большинство протестированных конвертеров вполне хороши. Мы намеренно используем широкий динамической диапазон спектрограммы для подсвечивания их различий. На деле же лучшую половину этих конвертеров я вряд ли способен различить на слух.

В тесте на Infinitewave не дошло до субъективных сравнений. Но я слышу от звукорежиссёров, что объективные оценки на Infinitewave в целом хорошо отражают их субъективные предпочтения. Так, часто отмечается качество алгоритма iZotope SRC и конвертера Weiss. Среди бесплатных программ высоко оцениваются SoX и r8brain.

  1. Заходишь ли ты на сайт iXBT в свободное время? Твоё пожелание читателям сайта.

Да, на сайт iXBT захожу. Традиционно интересуюсь обзорами полупрофессиональных звуковых карт и мониторов для домашних студий. Иногда с интересом просматриваю на форуме темы про улучшение звучания какой-нибудь звуковой карты путём замены компонент. Радуюсь, если вижу, как на помощь описательным характеристикам в этом случае приходят графики RMAA. Желаю читателям iXBT успехов в поиске совершенного звучания!

  1. Алексей, большое спасибо за интервью, и пожелаем тебе дальнейших успехов!

2 февраля 2011 г.