Стаття просторове звучання (3d-звук)

Ч то таке тривимірний звук і чому з цього приводу виникає так багато суперечок? Як співвідноситься поняття "тривимірне, просторове звучання" зі здатністю людини сприймати звук двома вухами? Ці питання часто задають собі як користувачі так і професіонали. Справа в тому, що повсюдне використання понять 3D (3D графіка, 3D звук) вносять сум'яття і плутанину в голови простих користувачів. Найчастіше ці поняття використовуються, м'яко кажучи, не зовсім доречно, що вносить додатковий розбрат у їх вживання і правильне розуміння. 3D графіка - тема не цієї статті. Тут же ми зупинимося на тривимірному звуці.

В цілому можна позначити три основних способи реалізації просторового звучання:

розширення стерео бази (Stereo Expansion) - спеціальна обробка вже наявного стерео сигналу і, таким чином, розширення удаваного звукового поля (імітація розширення відстані між джерелами);

позиціонування звучання (Positional 3D Audio) - оперування з безліччю окремих звукових потоків і розташування кожного з них в просторі навколо слухача;

віртуальний (уявний) навколишній звук (Virtual Surround Sound) - використання певної кількості звукових потоків з метою відтворення дійсного звучання за допомогою обмеженого числа фізичних джерел звуку.

Що це все означає на практиці? На практиці це означає, що метод розширення стерео бази відносно простий в реалізації і дуже часто знаходить застосування в стерео фонічній побутової техніки. Однак, в тій же мірі, на скільки проста його реалізація, сам метод не дає відчуття "тривимірного звучання" в тому розумінні, в якому ми його собі уявляємо, через забезпечення звучання лише в одній площині. Мало також і застосування так званого панорамування. Панорамування (panning) - це управління рівнем сигналу в каналах, в не залежності від частоти сигналу. Панорамування дозволяє створювати ілюзію переміщення мнимого джерела сигналу десь між фізичними джерелами (зрозуміло, в одній з ними площині).

Для створення більш-менш реалістичного об'ємного звучання необхідно щось принципово інше. Спробуємо в цьому розібратися.

Як не дивно, але вся проблема в пристрої слухового апарату людини. Виявляється, що він на стільки не досконалий, що навіть в реальному житті ми можемо зіткнутися з труднощами, пов'язаними з неточністю сприйняття звукових сигналів і визначення їх просторового розташування. Вся справа в тому, що всі ми живемо на планеті Земля і весь час існування людини його основна їжа і вороги знаходилися в площині, паралельній землі. Тому, два вуха, розташовані по обидва боки голови, дозволяють нам визначати розташування джерел звуку тільки в горизонтальній площині (локалізація звуку). При цьому ми дуже погано розрізняємо звук йде попереду і ззаду. Здатність оцінки людським вухом (слуховим апаратом) розташування джерел звуку в вертикальної площині також вкрай обмежена. Крім того, тіло слухача, зокрема, голова, вуха і тулуб, є, як відомо, перешкодою на шляху поширення звукових коливань. Взаємодіючи з тілом звук відбивається, загасає і спотворюється, що призводить до сприйняття слухачів не вихідного, а зміненого звучання. Все це створює труднощі імітації просторового звучання.

Що ж відбувається всередині нас? Приймачем сигналу в людині є барабанна перетинка, прихована вушної раковиною. При сприйнятті звуку, мозок як би декодує отриманий від барабанної перетинки сигнал, інтерпретуючи його певним чином для правильного визначення просторового розташування джерела / ков звуку. І саме це міркування взято в основу всіх існуючих на сьогодні технологій створення просторового звучання.

Виявляється, якщо зробити спеціальну обробку звукового потоку з урахуванням максимального числа особливостей сприйняття звуку слуховим апаратом, то, можливо, вдасться імітувати просторове звучання навіть з використанням всього двох джерел (колонок або навушників). Необхідно підкреслити, що будь-який алгоритм створення 3D звуку реалізовується за допомогою алгоритмів фільтрації (що оперують з амплітудою і частотою звукового сигналу) тієї чи іншої складності, які певним чином "обманюють" слуховий апарат, "примушуючи його вважати", що те, що він чує, розташоване в тривимірному просторі навколо слухача.

Одним з таких алгоритмів (способів) є HRTF - Head Related Transfer Function. За допомогою цього алгоритму звук можна перетворити спеціальним чином, що забезпечить прекрасне 3D звучання, розраховане на прослуховування в навушниках (пояснення цьому можна знайти трохи нижче). Слід зазначити, що HRTF (в тому чи іншому вигляді) є основою створення безлічі існуючих на сьогодні методів створення об'ємного звучання. Однак ми не дарма заговорили про HRTF як про один з алгоритмів, так як цей алгоритм в чистому вигляді (втім, як і всі інші) не є єдиним і досконалим. Вся справа в тому, що HRTF неоднаковий для різного слухача і, тим більше, для різних положень голови (якщо мова йде про час відтворення не через навушники). Безумовно, є способи знайти збалансований HRTF для всіх слухачів, але такий підхід не забезпечує високочітке сприйняття звуку для кожного, і вже тим більше не вирішує проблему з поворотами голови. Напевно, саме тому стандарт на HRTF не існує до цих пір.

Звичайно, якщо в якості джерел звуку виступатимуть навушники, закріплені на голові слухача, то їх розташування відносно голови слухача не буде змінюватися, які б повороти голови не проводилися. У цьому випадку, як ми сказали, з використанням HRTF може бути досягнуто високоякісне просторове звучання. У разі ж, якщо джерелами є, наприклад, дві колонки, то, крім усього іншого, для створення природного просторового звучання необхідно, зокрема, точно відстежувати повороти слухачем голови для відповідного корегування сигналів від кожного фізичного джерела. Крім того, при відтворенні звуку через навушники, сигнал від кожного каналу потрапляє тільки в відповідне вухо, а при відтворенні через колонки сигнали можуть змішуватися, в результаті чого з'являються перехресні спотворення. Цей недолік частково усувається за допомогою спеціального пристрою - біфоніческого процесора.

Отже, як ми сказали вище, при використанні в якості джерел звуку колонок, виникає проблема необхідності розташування слухача строго в певній області простору між джерелами звуку. Ця область називається Sweet Spot. При відсутності можливості контролювати стан слухача в просторі щодо джерел звуку при інших рівних умовах, Sweet Spot накладає суворі обмеження на розташування слухача. Це означає, що як тільки слухач залишає область Sweet Spot, звучання, створюване джерелами, перестає сприйматися слухачем як просторове. Тому, при створенні технологій об'ємного звучання перед розробниками виникає проблема розширення області Sweet Spot.

Однак поряд з проблемами реалізації тривимірного звучання за допомогою HRTF, у будь-якої системи звуковідтворення є проблеми іншого плану. Так, наприклад, навушники слабо справляються з відтворенням фронтальних сигналів. При використанні навушників також виникає проблема локалізації звукового сигналу всередині голови слухача, а також ефект нескінченного розширення стерео бази. Звичайно, існують способи боротьби з цими ефектами, проте всіх проблем це не вирішує. Двоканальні системи погано забезпечують сприйняття слухачем звучання ззаду. У реалізації багатоканальних систем слабким місцем є необхідність досить точного розташування джерел сигналу, тому що як раз це часто зробити важко. Крім того, тут також існує проблема звучання в одній площині.

Таким чином, створення справжнього якісного просторового звучання утруднено як необхідністю враховувати всі особливості слухового апарату людини, так і необхідністю динамічного відстеження положення слухача щодо джерел звуку, а також врахування особливостей звукопередачи останніх. З цього, складно сказати, яка схема створення 3D звуку більш досконала. Набагато легше сказати, що всі існуючі схеми далекі від досконалості, і всі технології 3D звуку, побудовані на використанні HRTF або інших алгоритмів, мають масу недоліків, так як просто неможливо створити універсальну схему, що враховує всі перераховані вище особливості слуху, джерел звуку і їх розташування щодо слухача.

Як довідки зазначимо, що для створення бібліотек HRTF використовується штучний манекен KEMAR (Knowles Electronics Manikin for Auditory Research) або спеціальне "цифрове вухо". У разі використання манекена суть вимірювань полягає в наступному. У вуха манекена вбудовуються мікрофони. Звук відтворюється джерелами, розташованими навколо манекена, а запис проводиться з мікрофонів. В результаті, запис від кожного мікрофона є звук, "прослуханий" відповідним вухом манекена з урахуванням всіх змін, які звук зазнав на шляху до вуха. Розрахунок HRTF проводиться з урахуванням вихідного звуку і звуку, "почутого" манекеном.

Слід сказати також, що ми розглянули лише одну сторону реалізації повноцінного просторового звучання. Справа в тому, що на ряду зі складнощами, пов'язаними з "правильної" передачею об'ємності звучання, при створенні ігор виникають також проблеми коректної імітації різних фізичних властивостей звуку (ефектів відбиття від різних поверхонь, поглинання і спотворення звуку). Грамотна реалізація цих властивостей також корінним чином впливає на відчуття слухачем просторовості звучання. Однак, ця проблема в основному стосується акуратності механізмів, які закладаються розробниками в ігри. Що ж стосується розглянутої нами вище проблеми <донесения> тривимірного звуку до користувача (а вірніше, до його нервової системи), то вона залишається не вирішеною, так як ідеальні моделі реалізації тривимірного звучання ще не знайдені.