Як «намалювати» і «прочитати» звук

Занурення в історію: розшифровка записів минулого

Патрік використовує сучасні технології (в даному випадку - не дуже сучасні, так як спектрограму винайшли досить давно) для того, щоб перетворити візуальні об'єкти в звукові. Однак людство не завжди йшло цим шляхом і намагалося, навпаки, «зафіксувати» звук в образах.

Довгий час (до створення фонографа Томасом Едісоном) людей хвилювало питання: як придумати такий спосіб фіксації музики, який допоміг би дивиться на запис відтворювати мелодію у себе в голові так само легко, як це роблять професійні музиканти, дивлячись на партитуру. На жаль, на думку доктора Фістера, таке завдання недосяжна в принципі, оскільки наш мозок в більшості випадків недостатньо хороший в перетворенні візуальної інформації в звукову.

У Лабораторії Лоуренса розроблялися технології вилучення звуків з високоякісних фотографій, на яких були зображені образи тендітних воскових носіїв або зламаних дисків. Скориставшись даними технологіями, вчені отримали з фоноавтограмми запис пісеньки «Місячне сяйво» ( «Au Clair de la Lune»), зроблений в 1860 році. Вважається, що це перший запис, на якій помітний людський голос.

Однак вирішення цього завдання Фістера виявилося недостатньо: згодом він не тільки зафіксував звук з більш ніж 50 фоноавтограмм, а й досліджував більш ранні спроби «запису звуку». В цьому вченому, як не дивно, допоміг сервіс Google Books. Використовуючи його, Фістер записував символи з книг, які постійно ігнорувалися, зважаючи історичними примхами.

Найстарішу хвилеподібну лінію він знайшов в книзі 1806 року. За допомогою інших технік йому вдалося розшифрувати мелодію 1677 року, яка була записана безліччю точок. Ще одна була виявлена в записах 10 століття, де лініями було показано, в якій тональності слід співати. Приклади таких записів можна знайти на його сайті Phonozoic.

інший підхід

Звичайно, при думці про використання таких розробок, в голову приходять «шпигунські історії», проте самі дослідники називають свій проект можливістю відкрити нові грані в зображенні предметів і вивчити їх раніше недосліджені властивості. І якщо сотні років назад люди намагалися придумати спосіб «запису звуку», то тепер така «запис» стає побічним ефектом, який, в свою чергу, допомагає розкрити нові властивості звичних об'єктів.

Зроби сам

Як вже говорилося, першу фоноавтограмму вдалося розшифрувати завдяки технології відтворення звуку по фотографіях старих платівок (про цю технологію ми вже писали в одному з наших матеріалів - в ньому ж наводяться і посилання на розшифровані аудіозаписи). Однак Патрік Фістер підкреслює, що з цим завданням може впоратися будь-який бажаючий - якщо знає, що робити.

Докладний процес описаний в цьому матеріалі. Від себе зауважимо, що для вирішення завдання вам знадобиться якісне фото, базові навички володіння Photoshop (хвилю, прокреслені на вінілі, треба оцифрувати, «розпрямити» - борозенка на платівці закручується по спіралі - прибрати всілякі шуми і зміщення), а також відносно потужний комп'ютер з великим об'ємом оперативної пам'яті.

Для того, щоб перетворити отримане зображення в WAV-файл, Патрік використовує досить екзотичне ПО: це програма ImageToSound. Вона безкоштовна, але, незважаючи на це, її досить складно знайти в мережі (Патрік поділився джерелом).

Останній етап - регулювання швидкості відтворення. Тут на допомогу приходить проста математика. Для початку потрібно дізнатися швидкість відтворення на оригінальній платівці, довжину одного обороту оцифрованої хвилі (після «деспіралізаціі») в пікселях і частоту дискретизації кінцевого файлу.

Якщо зображення було змінено в аудіофайл з частотою дискретизації 44.1 кГц, то це означає, що секунда аудіофайлу буде дорівнює 44 100 пікселям зображення. Якщо, наприклад, швидкість пісні на вініловій платівці дорівнювала 50 оборотам в хвилину, а після оцифровки і деспіралізаціі один оборот пластинки зайняв 30 000 пікселів, ми отримуємо 1 500 000 пікселів в хвилину (50х30 000).

Якщо поділити цю кількість на 60, ми отримаємо кількість пікселів в секунду (1 500 000/60 = 25 000). Ділимо частоту дискретизації на кількість пікселів в секунду (44 100/25 000 = 1.764). Отримане число множимо на довжину аудіофайлу (час програвання пісні) і отримуємо час, з яким спочатку був записаний цей файл. Якщо швидкість відтворення оригінального запису невідома, Патрік радить підібрати підсумкову швидкість на слух.

Патрік Фістер попереджає - це досить кропітка праця, яка вимагає часу і терпіння, але при цьому дає часом дивовижні результати: особливо коли справа стосується голосів минулого, які, здавалося б, були назавжди втрачені.

P.S. Більше матеріалів по темі аудіотехніки - в нашому блозі "Світ Hi-Fi".