zpět

Digitální záznam zvuku

Digitální záznam zvuku je metoda kdysi používaná jen profesionály a dnes se již bez ní neobejdeme, pokud chceme něco kvalitně nahrát třeba i doma. Zatímco u analogového záznamu je kvalita záznamu daná souhrnem nedokonalostí celého přenosového řetězce (např. šum a zkreslení magnetofonů a pásků použitých pro prvotní záznam a kopírování), u digitálního záznamu bez komprese dat je kvalita záznamu daná převážně nastavením parametrů záznamu. Při standardní vzorkovací rychlosti 44,1 KHz a 16 bitovém kódování je kvalita omezena zpravidla pouze vlastnostmi mikrofonu a nežádoucími hluky v místnosti, kde nahráváme.

Princip digitalizace zvuku

Signálové napětí je v pravidelných časových intervalech vzorkováno a převáděno na odpovídající číslo. Zatím co signálové napětí má libovolnou hodnotu, převodem na celé číslo dochází k zaokrouhlování. To se projeví jako kvantizační zkreslení, nebo též kvantizační hluk. Poměr maximálního signálového napětí a kvantizačního hluku je dán maximálním číslem, které je možno převodníkem vytvořit a zaznamenat. Pro kvalitní záznam zvuku se používá 16 bitové kódování, kde maximální číslo 65535 znamená, že převodník rozliší 65535 napěťových úrovní a to odpovídá rozsahu zaznamenaných úrovní 96 dB. Pro méně náročné účely, např. při telefonním spojení v pevné síti, se používá 8 bitové kódování. Rozsah úrovní je pouze 48 dB, ale množství přenášených dat je poloviční. Skutečný rozsah je cca o 3 dB menší, protože kvantizační hluk se v dekodéru záměrně překrývá šumem.

Maximální přenášený kmitočet je dán rychlostí vzorkování převodníku. Pro nejvyšší přenášený kmitočet se musí přenést minimálně dva vzorky na periodu signálu. Vzorkovací kmitočet 44,1 KHz použitý u CD dává frekvenční rozsah do 20 KHz, ale pro běžnou rozhlasovou kvalitu s frekvenčním rozsahem do 15 KHz se používá též vzorkování 32 KHz. Naopak pro dosažení ještě vyšší kvality záznamu se používá vzorkování 48 KHz. Některé moderní systémy podporují též 32 bitové kódování a vzorkovací kmitočet až do 192 KHz. Kvalitativně to ale není podstatný přínos a záznam pouze zabírá nesrovnatelně větší místo na záznamovém médiu. Pro porovnání, v telefonech pevné sítě se používá vzorkování pouze 8 KHz a 8 bitové kódování.

Kvalita převodníků - aneb svět chce být klamán

Pokud by převodníky fungovaly tak jak bychom očekávali, tedy při vzorkovací frekvenci 44,1 KHz by převodník udělal 44100 samostatných převodů např. s 16 bitovým rozlišením, byla by digitální technika opravdu kvalitní. Takové převodníky se běžně používají v měřící technice, kde obvykle buď nejde o rychlost, nebo je nižší rozlišení. Audio převodníky obvykle pracují na principu sigma-delta, protože je to jednoduché. Komparátor má výstup připojený na integrační článek a podle toho, jestli napětí na jeho výstupu je menší nebo větší než vstupní, komparátor se v pravidelných intervalech překlápí na 0 nebo na jedničku. Pak už se jen spočítá poměr jedniček a nul a převede se na číslo. Problém je ta vynucená pravidelnost, dochází tam proti vstupnímu signálu k malým rozdílům (kvantizační šum).

Pokud chceme rozlišit na vzorkovací frekvenci 44,1 KHz 65000 úrovní, museli bychom v rámci jednoho převodu vytvořit 65000 časových intervalů a z nich počítat onen průměr. Vzorkovací kmitočet by vyšel 2,87 GHz a komparátor by při tom musel mít požadovanou přesnost, aby dokázal rozlišit 65000 úrovní (těch 16 bitů). Tohle je když už snad né nereálné, tak alespoň hodně drahé. A tak se spokojíme s podstatně (100x až 1000x) nižším kmitočtem a s tím, že se integruje přes více vzorků a zavádějí se různé zpětné vazby vyšších řádů. Na vyšších kmitočtech podstatně stoupá šum a zavádějí se různá opatření, aby převodník neprodukoval příliš rušivé hluky. A tak máme převodníky levné a kvalitnější a nejsou úplně mimo mísu ani názory, že kvalitní studiový analogový magnetofon není až tak úplně špatný. U kvalitních převodníků je sice určitá možnost zlepšení při vyšším vzorkovacím kmitočtu a vyšším počtu bitů, ale není to o tolik lepší, jak bychom čekali.

Kvalita zvuku a objem dat

Zatímco kvalitní analogový magnetofon zaznamená maximální frekvenci 15 až 20 KHz, u kvalitního digitálního záznamu s 16 bitovým kódováním a vzorkováním 44,1 KHz potřebujeme přenést 44100 x 16 = 705600 bitů za vteřinu při mono a 1411200 bitů za vteřinu při stereo záznamu. K tomu je zapotřebí šířka pásma alespoň 800 KHz. Na rozdíl od analogového záznamu zde stačí rozlišit pouze logickou jedničku a nulu a na to stačí poměr signálu k šumu jen 15 až 20 dB. Proto se pro digitální záznam používají magnetofony s rotační hlavou, které zaznamenávají vysokou rychlostí do velmi úzké stopy. Existovaly převodníky, které lze připojit k videorekordéru a zvukový signál se zaznamenával místo obrazu. Videorekordéry s HIFI stereo zvukem zaznamenávaly zvuk digitálně do šikmé stopy společně s obrazem. Zmenšením, zjednodušením a zdokonalením tohoto systému vznikl systém DAT (Digital Audio Tape) používaný pro digitální záznam zvuku na kazety.

Tyto systémy, stejně jako minidisk s magnetooptickým záznamem a s kompresí Atrac, jsou již minulost. V současné době se používá záznam do flash paměti a využívají se paměťové karty používané také ve foťákách. Je to malé, levné a praktické. Kvalitní přístroje umožňují i záznam bez komprese, diktafony používají kompresi MP3. Záznamník bez pohyblivých částí je nehlučný a proto nahrává kvalitně i přes vestavěný mikrofon. Data se jednoduše přepíšou do počítače přes USB.

Na co si dát pozor

Při digitálním zpracování zvuku můžeme záznam snadno znehodnotit. Digitální záznam můžeme na rozdíl od analogového kopírovat neomezeně a bez ztráty kvality. Musí se však jednat o digitální kopírování a musi být zachován formát záznamu. Pokud např. záznam z CD se vzorkovací frekvencí 44,1 KHz převzorkujeme na "kvalitnější" frekvenci 48 KHz, záznam tím můžeme znehodnotit, protože rozdíl vzorkovacích frekvencí (v tomto případě 3,9 KHz) se v převzorkovaném zvuku může projevit jako nežádoucí interference. Výsledná kvalita snímku závisí na kvalitě přepočítacího algoritmu.

Dalším problémem je analogové kopírování. Běžná CD mechanika v počítači má analogový převodník a ve starších počítačích je se zvukovou kartou spojena analogově. Při kopírování CD na disk je takto získaný analogový signál zvukovou kartou opět digitalizován, čímž se snižuje jeho kvalita. Pro získání původní kvality je nutné použít grabovací program, který čte data z audio CD přímo a ukládá je na disk. Novější systémy už používají grabování automaticky, protože pod Windows XP hraje CD mechanika přes zvukovou kartu, i když jsem zapomněl zapojit propojku.

Komprese dat

Poměrně velkou šířku pásma potřebnou pro digitální záznam je možné snížit vhodnou kompresí dat. V zásadě je možné použít bezztrátovou kompresi používanou pro počítačová data. Výhodou je možnost obnovení původního obsahu dat, tedy komprese nesnižuje kvalitu záznamu. Nevýhodou je malý dosažitelný poměr komprese, proto se tato metoda nepoužívá.

Radikální snížení objemu dat, běžně 1:10, se dosahuje ztrátovou kompresí. Ta vychází z principu, že je potřeba přenést jen významné složky zvuku, které nejsou jinými zvuky maskovány. Nejrozšířenější metoda komprese dat MP3 vychází z komprese MPEG používané též u digitálního zpracování obrazu. Jiná, ale principem podobná komprese ATRAC se používá u minidisků. Proto dosahují o něco nižší kvalitu zvuku, než CD a magnetofony DAT.

Při kódování MP3 kvalita výsledného snímku silně závislá na použitém kodéru, zatímco všechny dekodéry pracují stejně a při bezchybné funkci nemají na kvalitu vliv. Tato jednotnost datového formátu nejvíce přispěla k jeho rozšíření. Zajímavý projekt je kodér LAME. Zatímco většina kódovacích programů je šířena za peníze, LAME je dnes již kolektivní práce převážně různých univerzit. Bylo to umožněno zveřejněním zdrojového kódu a šířením programu podle licence GNU. Podle této licence program může každý používat bezplatně a má přístup k jeho zdrojovému kódu. Pokud na základě tohoto zdrojového kódu vytvoří novou verzi, musí zveřejnit též zdrojový kód nové verze. Stejným způsobem je též šířen a vyvíjen operační systém LINUX.

Komprese MP3 ve spojení s technikou modemů využívajících maximálně rychlost telefonní linky dokáže téměř nemožné. Zvuk s frekvenčním rozsahem 15 KHz zakódovaný do MP3 s bitovou rychlostí 48000 bitů/sec lze při rychlosti připojení na internet 56000 Bd s rezervou přenést v reálném čase po telefonu. Při tom šířka pásma telefonu je pouze 3 KHz.

Originální způsob komprese dat je používán v mobilních telefonech GSM. Jedná se v podstatě o napodobení lidského hlasu, který má vždy pouze jeden základní kmitočet a jeho násobky. Proto když si u mobilu necháme hrát rádio, na druhé straně z toho vylezou neuvěřitelné zvuky, které se těm původním ani trochu nepodobají.