Audiokompression [audio compression]

Skip to main content
Du befindest dich hier:
Drucken

Überblick: Durch Audiokompressionsverfahren verkleinert man unkomprimierte Audioinformationen (zumeist im PCM-Format, unter Windows als Wave-Dateien vorliegend) auf für verschiedene Anwendungsbereiche passende Größen (z.B. Streaming im Internet oder Musikarchivierung auf dem PC). Die dabei verwendeten üblichen Standards sind unter Audioformate erläutert. Hier werden die zugrunde liegenden Kompressionsverfahren beschrieben. Das Problematische an den Kompression digitaler Musikstücke ist, dass sie im Gegensatz zu Texten, Grafiken oder Videos nur wenig Redundanzen enthalten. Auf deren Entfernung (Redundanz Eliminierung) beruhen aber klassische Kompressionsverfahren. Versucht man Audiodateien per ZIP-Kompression zu verkleinern, erreicht man i. d. R. nur etwa 10%. Das entspricht nicht mal einer Kompressionsrate von 1:2, während Audioformate wie MP3 ca 1:10 (und mehr) ermöglichen.

Details: Neben dem neuen, unter Audioformate beschriebenen „lossless WMA“-Format von Microsoft gibt es aber dennoch schon länger Programme, die auf eine verlustfreie Kompression von Musik spezialisiert sind. Ihre Effizienz hängt aber stark von der Art der Songs ab und erreicht meist höchstens 75% (Faktor 1:3 bis 1:4). Am bekanntesten dürfte Monkey’s Audio sein (www.monkeysaudio.com) Es schützt die Daten durch Prüfsummen vor Datenverlust bei der Kompression, verfügt über eine eigene Wiedergabesoftware oder lässt sich per Plug-in mit dem bekannten Abspielprogramm Winamp oder dem Media Player von Microsoft wiedergeben. Zur Kompression und v. a. Dekompression der resultierenden Dateien ist zudem nur wenig Rechenaufwand notwendig. Monkey’s Audio ist leicht zu bedienen und unterstützt ID3-Tags von MP3-Dateien, sodass man die erzeugten „APE“-Dateien nicht nur mit MP3-Playern abspielen, sondern auch mit MP3-Katalogprogrammen verwalten kann. Ob man die „lossless“-Variante von WMA 9 oder Monkey’s Audio vorzieht, bleibt letztendlich eine Geschmackssache (durch das Handling und die Player-Unterstützung)

Hinweis: Damit Anwendungsprogramme auf die Encoder und insbesondere Decoder zugreifen können, gibt es standardisierte Schnittstellen. Audiocodecs sind dabei in die beiden gängigen Standards für Videoanwendungen integriert, nämlich das ältere Video-für-Windows und die neuere DirectShow-Schnittstelle. Codecs, die über die DirectShow-Schnittstelle für andere Programme zur Verfügung gestellt werden, nennt man DirectShow-Filter. Im Audioformate-Artikel ist ein solcher für den Ogg-Vorbis-Standard angegeben. Codecs, die über die alten Video-für-Windows-Schnittstellen systemweit entsprechenden Programmen zur Verfügung gestellt werden sollen, benötigen dagegen einen ACM (Audio Compression Manager, manchmal auch Audio Codec Manager übersetzt).

Die ansonsten üblichen Audioformate wie MP3, AAC, WMA, Ogg Vorbis etc. verwenden verlustbehaftete, asymmetrische Kompressionsverfahren. Sie beruhen auf der Verwendung eines spezifischen Codecs, da die Kompression aufwendiger als die Dekompression ist, wird sie von einem eigenständigen Encoder übernommen. Zum Entpacken bzw. Abspielen wird wiederum ein eigenständiger, entsprechender Decoder verwendet, normalerweise als Plug-in in einer Wiedergabesoftware (z.B. Media Player oder Winamp).

Das beliebte Videoprogramm VirtualDub (www.virtualdub.org) benötigt ACMs, um die Tonspuren von Videos zu komprimieren. In dieser Liste aufgeführte Codecs stehen also nur zur Verfügung, weil es dafür einen ACM gibt. Unter Windows laufen viele früheren ACMs und auch VCMs (Gegenstück bei Video) ohne Anpassung nicht mehr, weil die Video-für-Windows-Schnittstelle nicht mehr offiziell unterstützt wird. Welche laufen und welche nicht, muss man von Fall zu Fall ausprobieren.

Da die Programmierung solcher Codecs aufwendig ist, sind die Techniken bzw. Algorithmen in den meisten Fällen patentrechtlich geschützt. Dritthersteller müssen daher i. d. R. Lizenzgebühren zahlen, wenn sie den Encoder in ihre Programme integrieren wollen. Die Decoder (für die Player) sind hingegen meist kostenlos. Die Lizenzierungspraxis unterscheidet sich zwischen den Audioformaten erheblich – was sich dann auch auf die Kosten und Möglichkeiten für den praktischen Einsatz beim Endkunden auswirkt.

Grundlage aller modernen, verlustbehafteten Audiocodecs ist eine komplizierte Mischung aus Programmierkünsten, höherer Mathematik sowie v. a. guter Kenntnis der menschlichen Hörpsychologie bzw. Psychoakustik. Ziel eines Codecs ist es, einen Kompromiss zwischen Verringerung der Datenrate des Ausgangsmaterials (meist eine unkomprimierte Wave-Datei mit PCM-Datenstrom) und dem hörbaren Verlust der Klangqualität zu finden. Dazu werden folgende Mechanismen verwendet:

– Irrelevanzreduzierung bzw. psychoakustische Verfahren: Die grössten Kompressionseffekte erzielt man, wenn man beachtet, dass das menschliche Ohr kein perfektes akustisches Messinstrument ist, sonder wir Musik subjektiv wahrnehmen. Die Besonderheiten unseres Ohrs und Gehirns beeinflussen unser Hören. Dieses auch als Wahrnehmungskodierung [perdeptual coding] bezeichnete Verfahren filtert aus der Musik nicht oder kaum wahrnehmbare Anteile heraus. Dazu gehören z.B. leise Töne, die von direkt nachfolgenden, aber lauteren überdeckt werden, weil diese eine ähnliche Frequenz haben. Da wir nicht über den gesamten Frequenzbereich gleich gut hören, wird dieser in viele Abschnitte (Subbänder) unterteilt und jedem nach seiner Wichtigkeit (für das Klangempfinden) ein entsprechender Anteil (Bits) an der Gesamt Datenrate zugewiesen. Grundsätzlich nimmt unser Ohr Unterschiede in der Laufzeit genauer wahr (zur räumlichen Ortung) als Schwankungen in der Tonhöhe. Da die Auswirkung dieser Verfahren subjektiv sind, können sie umgekehrt auch nicht objektiv bzw. messtechnisch ohne Weiteres überprüft werden. Daher tastet man sich durch aufwendige Hörtests mit Personen an das beste Ergebnis heran. Das Resultat ist ein möglichst genaues, durch ein Programm simuliertes Modell des menschlichen Gehörs, das bei der Enkodierung abschätzt, wo und wie stark Musikinformationen entfernt werden dürfen, sodass es möglichst wenig hörbar ist. Da die Kompressions-Intensität i. d. R. einstellbar ist, ist dies folglich (und reziprok) auch die Klangqualität der resultierenden Audiodatei (ähnlich wie beim bekannten JPEG-Grafikformat). Außerdem hängt der Kompressionseffekt bzw. die Klangqualität stark von Typ der Musik ab. Die meisten Encoder haben mit einzelnen Tönen bzw. Soloinstrumenten Probleme. Mit komplexer Popmusik fühlen sie sich dagegen wohl(er). Typische „Kompressionsartefakte“ sind Frequenzbeschneidungen, Aufrauschen (Quantisierungsrauschen), Tonhöhenschwankungen und andere Störgeräusche. 

– Reduktion von Abtastrate und Abtasttiefe: Eine weitere Möglichkeit zur Datenreduktion ist das Herabsetzen der Abtastrate, z.B. von 44,1 kHz auf 22 kHz. Außerdem kann auch der maximale (oft nicht voll genutzte) Dynamikumfang durch Reduzierung der Abtasttiefe (z.B. von 16 Bit auf 12 Bit) verringert werden.
– Reduzierung des Frequenzumfangs: Eine Beschneidung des Frequenzgangs auf meistens 15 kHz ist bei vielen Encodern üblich, da das menschliche Ohr bekanntermaßen mit zunehmendem Alter schlechter hohe Töne hören kann.
– Entfernung überflüssiger Stereo Informationen [joint stereo encoding]: In den Bereich der Redundanzelimination gehört das Herausfiltern überflüssiger Informationen aus dem rechten und linken Stereokanal. Denn die Musik ist hier oft ähnlich bis identisch, sodass die Daten zu einem kombinierten „Monokanal“ zusammengerechnet werden können. Meist wird das Stereobild hierdurch höchstens leicht beeinflusst.

Kommentar hinterlassen