
После детального разбора разнохарактерных звуков, придающих анимации уникальное впечатление, можно перейти к более техническому аспекту — к созданию анимации на основе аудио в редакторе трёхмерной графики Autodesk Maya.
Скрипт — технический помощник аниматора
Для автоматизации однообразных задач в Autodesk Maya существуют скрипты. Это программы на языках Python или MEL, созданные для оптимизации времени и труда на проектирование и коррекции объектов, создание скелета персонажа и его анимации, редактирование сцен. Некоторые из скриптов позволяют синхронизировать звуковую дорожку и анимацию, преобразуя аудио в амплитуду и частоты, которые затем станут ключевыми кадрами будущего движения персонажа.
Скрипт для липсинка
Липсинк — происходит от английских слов «lips» — губы, и «sync» — синхронно — это соответствие звуковой дорожки и записанной речи с движением губ персонажа.
Для создания липсинка обычно пользуются системой Престона Блэра. Он соединил звуки извлекаемые в подобных друг другу позициях рта в одну фонему. Например звуки /п/, /б/, /м/ образуют одну фонему «М/Б/П», которая выглядит как плотно сжатые вытянутые губы. Этот способ позволяет довольно быстро анимировать речь, создав всего десять позиций артикуляции. Так же необходима начальная позиция рта, чтобы анимировать паузы, когда губы естественно смыкаются.

Трехмерная визуализация системы Престона Блэра, сделанная Гэри С. Мартином, первая половина XXI века
Например, существует скрипт, который способствует созданию артикуляции персонажа на основе аудиодорожки и её транскрипции. «Automated lip sync tool for Maya» — один из таких скриптов, с которым можно ознакомиться по ссылке ниже.
Принцип работы этого скрипта заключается в его загрузке в программу, его активации, создании серии фонем Престона Блэра из десяти артикуляционных позиций губ и их записи в библиотеку скрипта. Затем добавляются трек определенной фразы и текстовый файл с расшифровкой, после чего скрипт генерирует ключевые кадры, сопоставляя фонемы из созданной библиотеки с данными, полученными из аудио и текста. Данная анимация была выполнена на
Итак, в ролике использован трехмерный персонаж Mukuru — character rig for maya от Ramon Arango для изучения возможностей данного скрипта. Скрипт справился с анимацией трех фраз на английском языке, взятых с FreeSound.com, в которых присутствовали ясные слова из трех букв и более. Одним из плюсов можно также отметить доведение арок и мягкое соединение одной фонемы с другой. Приятным бонусом стало задействование ближайших контролов щёк к основным контролам, которые относятся к челюсти, губам и языку.
Однако имеется ряд определенных недочетов. Один из них связан с излишней точностью анимации каждой фонемы. Чаще всего при ручной анимации некоторые промежуточные позиции губ смазываются или пропускаются, так же, как и в реальной речи слова не проговариваются по слогам. Это также помогает избежать визуального шума и эффекта зловещей долины. Следующим упущением можно выделить то, что открытие губ начиналось намного раньше основного звучания фразы. В некоторых случаях это выглядит приемлемо, словно реплика начинается с придыхания. В других вариантах это выглядит недоработанным, когда в промежутке тишины персонаж находится с полуоткрытым ртом в подготовительной позиции к будущей фонеме. Одним из значимых недостатков можно отметить то, что скрипт не справился с анимацией междометий и фоновых шумов, которые создают тот неуловимый эффект живого, дышащего героя.
Скрипт для извлечения ритма из аудио в амплитуду анимации
Существуют так же скрипты основанные на анализе звуковой волны аудио, которые преобразуют полученные данные в ключевые кадры анимации. Так из трека можно получить информацию о количестве высокочастотных скачков. В последствие это значение будет спроецировано на движение выбранных контролов персонажа.
Это специализированный Python-скрипт, выполняющий частотный анализ аудиофайлов, выделяя амплитудные характеристики в заданном диапазоне, которые затем трансформируются в ключевые кадры. Полученные значения применяются к трансформациям выбранных объектов — их положению и вращению. С помощью него можно достичь полного соответствия аудио с визуалом, когда ритм заданный звук проецируется на анимацию.
В отрывках из видео, созданного автором данного скрипта, Олегом Мокаренко, можно видеть, как персонажи становятся визуализацией нарастания и затихания звуковой волны, её ритмичного развития, а также проецированием разных высот аудио на разных героев, что в сочетании даёт интересный по композиции клип. К сожалению, это сложно назвать анимацией, раскрывающей персонажа. Простое подёргивание и небольшие повороты могут способствовать созданию референса для танца персонажа, где будет важно попадать в ритм песни ключевыми позами. Однако для такой доработки в любом случае необходимы руки специалиста по анимации, который подправит невыразительные позы. Так же смягчив амплитуду движения всего персонажа и оставив её на акцентных частях тела, аниматор сможет управлять вниманием зрителя.