Zurück zur Startseite Forum Kontakt zum Team Impressum
 
Grundlagen
Empfang
Receiver / HTPC
TV-Karten
TV-Software
Linux
digital-Recording
Fernbedienung
Download-Center
Hilfe / Glossar
Links
Werbung / Banner
Literatur
Impressum
Suche


modVES.de

Partnershop: DVBShop.net

>> DVBmagic.de >> digital-Recording >> Grundlagen

Audiocodecs

Neben dem Schwerpunkt der Videokodierung bzw. Videokompression, möchte ich ebenso kurz auf die Kodierung und Kompression von Audio-Dateien eingehen.

Die Audiokompression ist im größten Fall eine Datenreduktion beziehungsweise Audioreduktion, bei deren vernachlässigbare Informationen nicht mit kodiert werden. Im seltensten Falle ist die Audiokompression eine echte Datenkompression. Wie auch im Bereich der Videokodierung, ist es das Ziel, eine die Audio-Daten effektiv in ihrer Größe zu reduzieren. Da eine, uns allen bekannte, Audio-CD sehr groß ist, mit einer Datenrate von ungefähr 1 MB pro 6 Sekunden. Somit würde ein vierminütiges Musikstück zirka 40 MB umfassen, das wiederum würde bedeuten, dass der Nutzer nur 2000 Musiktitel auf einer, heut typischen, 80 GB - Festplatte speichern könnte. Ebenfalls wäre diese hohe Datenrate ein enormer Nachteil bei der Internetübertragung von Musik-Dateien und Livestreams, welche zum Beispiel von Radiosender und anderen Streamingdiensten zur Verfügung gestellt werden. Für einen 128kbps-ISDN-User würde dies bedeuten, dass er zirka 45 Minuten für einen vierminütigen Titel benötigen würde und somit auch kein Livestreaming möglich wäre.
Um die Größe eines solchen Titels in Zahlen zufassen, folgt eine Beispiel-Rechnung.

44100-mal pro Sekunde werden 16 Bit gespeichert:
44 100 1/s * 16 Bit = 705 600 Bit/s

Ein Byte besteht aus 8 Bit:
705 600 Bit/s : 8 = 88 200 Byte/s

Da eine Audio-CD zwei Kanäle (Stereo) besitzt, muss verdoppelt werden:
88 200 Byte/s * 2 = 176 400 Byte/s

Momentanes Ergebnis entspricht der Größe einer Audioinformation pro Sekunde. Da aber bei einer Audio-CD die Kapazität meist in Minuten angeben wird, stellt sich die Frage "Wie viele Sekunden entsprechen 1MB?"
1 048 567 Byte : 176 400 Byte/s = 5,94 s/MB

Aus dem zu letzt berechneten Wert kann nun mit folgender Formel die Abspieldauer einer 700MB -CD ganz leicht berechnet werden.
5,94 s/MB * 700 MB = 4 158 s = 69, 3 min

Das stimmt nicht ganzeine 700MB AudioCD hat 80min Abspielzeit! (Auf den meisten gekauften 700 MB Rohlingen ist allerdings die Angabe "80 Minuten" zu finden, statt unseren rund 70 Minuten. Dies kommt Zustande, da sich die 700 MB nur auf die Daten beziehen. Da bei der Nutzung des Rohlings als Daten-Medium noch viele Bytes für Verwaltungsinformationen anfallen. Diese Verwaltungsinformationen sind bei einer Audio-CD nicht nötig, also können diese Bytes noch für Musik genutzt werden.) siehe auch Datenmode1 und 2
Nach diesem Beispiel dürfte klar sein, dass diese Datenrate sehr unrentabel ist. Die Folgerung aus dieser Erkenntnis ist, dass man die Informationen komprimieren muss! Auch auf diesem Gebiet gibt es zwei Möglichkeiten, die Informationen zu kodieren beziehungsweise zu komprimieren, einerseits wäre es die verlustfreie Komprimierung oder die verlustbehaftete Komprimierung.

Verlustfreie Komprimierung von Audio-Informationen

Verglichen mit der Bild- oder auch Videokomprimierung werden verlustfreie Komprimierungsverfahren nur selten bei Audio-Informationen angewandt, lediglich von Toningenieuren und im Musikstudio werden sie benutzt, da diese Zweige der Musikindustrie auch jeden kleinsten Qualitätsverlust in der Produktion und Bearbeitung von Tönen vermeiden wollen. Dabei ist das Ursprungssignal nach der Kodierung wieder eindeutig herstellbar, ohne jene, schon benannte, qualitätsmindernde Effekte. Das Prinzip, auf welches dieses Komprimierungsverfahren zurückgreift, ist die Differenzkodierung mit linearer Prediktion. Bei der Differenzkodierung werden nur die Unterschiede (Differenzen) der aufeinander folgenden Abtastwerte gespeichert und nicht die absoluten Abtastwerte. Diese Methode ist sehr sinnvoll, da die Differenzen solcher Abtastwerte meist sehr gering sind und somit gibt es keinen Verlust von Werten. Wie ebenfalls aus der Videokodierung bekannt ist, werden in vordefinierten Abständen so genannte Referenzpunkte gesetzt, bei denen der tatsächliche Abtastwert kodiert wird. Das Datenvolumen von solchen Referenzpunkten ist natürlich größer, als das der Differenzen. Bei der linearen Prediktion, mit welcher die Differenzkodierung ergänzt wird, nutzt man das Wissen über das zeitlich vorhergehende kodierte Signal und folgert daraus das zukünftig kommende Signal. Auch bei dieser Methode werden wieder nur die Differenzen zwischen den Referenzpunkten und denen, durch die lineare Prediktion hervorgesagten Signalen, gespeichert. Wendet man nach dieser Kodierung noch die Hufmann-Kodierung an, so kann man eine ungefährere Komprimierungsrate von 1:2 erreichen, ohne irgendeinen Qualitätsverlust in Kauf zu nehmen müssen.
Die bekanntesten Vertreter solcher verlustfreien Codec's sind der Wave-Pack, Apple LossLess, Meridian LossLess Packaging und auch der Monkey's Audio Codec.

Die schon genannte Komprimierungsrate von 1:2 ist relativ betrachtet schon sehr gut, wenn man bedenkt, dass man hier von einer Komprimierung ohne Verlustbehaftung spricht. Aber für die heutigen Anwendungen, wie zum Beispiel Audio-Streaming oder Internet Übertragung, eher unbrauchbar, da die zu übertragenden Dateien viel zu groß wären.

Verlustbehaftete Kompression von Audio-Informationen

Aus den eben schon genannten Problemen, im speziellen bei der Anwendung von solchen Audio-Daten, welche mit einer verlustfreien Kodierung komprimiert wurden, ist es nicht schwer zu erkennen, dass es eine noch effektivere Variante der Komprimierung geben muss - dies ist die Irrelevanzreduktion.Wie von der Bild- und Videokomprimierung bekannt, stützt sich diese Art der Audiokodierung auch auf die begrenzte Wahrnehmung der menschlichen Sinnesorgane, in diesem Fall das Ohr.
Das Ziel der Irrelevanzreduktion ist es, die Qualität und somit die Datenmenge gezielt zu reduzieren und somit höhere Kompressionsraten zu erreichen. Die Grundlage ist hier, wie schon angesprochen, die begrenzte Wahrnehmung des menschlichen Ohres von Tönen bestimmter Frequenzen. Somit können alle nicht hörbaren Anteile einer Audio-Datei getrost weggelassen werden. Dies können einerseits alle hohen Töne über 20 000 oder 25 000 Hertz (variiert nach Alter) sein, sowie aber auch alle Töne unterhalb von zirka 20 Hertz (diese "Schwelle" ist ebenfalls altersabhängig). Außerdem spielt die Lautstärke eine gewisse Rolle, der Mensch kann nur Töne aus dem Bereich von 0 dB bis 120 dB wahrnehmen. Falls ein leiser Ton und ein lauter Ton sich überdecken, muss der leise Ton ebenfalls nicht mehr kodiert werden, da er neben dem lauteren Ton nicht mehr wahrnehmbar ist.

Bei der Überlagerung von Tönen gibt es zwei verschiedene Arten, die simultane Verdeckung und die temporäre Verdeckung. Bei der simultanen Verdeckung wird ein Signal mit einem niedrigen Pegel von einem zeitgleich auftretenden Signal mit höherem Pegel direkt verdeckt beziehungsweise maskiert. Einfacher gesagt, beim zeitgleichen Auftreten zweier Töne wird das leisere Signal von dem Lauteren übertont. Die temporäre Verdeckung beschreibt eine Überlagerung, bei welcher ein Signal mit niedrigem Pegel nicht zeitgleich auf das Signal mit dem höheren Pegel auftritt. Sondern entweder bis maximal 50 ms vor dem lauten Geräusch oder maximal 200 ms nach dem lauten Geräusch. Wie bei der ersten Art, ist auch dieses leisere Geräusch nun nicht mehr zuhören. Begründen lässt sich dieses "Phänomen" mit Hilfe einer einfachen physikalischen Betrachtung, der Ton ist im eigentlichem Sinne Schall, dieser Schall ist wiederum eine Schwingung von Molekülen, welche sich wellenförmig ausbreiten. Wie bekannt ist fällt diese physikalische Betrachtung in das Kapitel der Mechanik und wie alle mechanischen Körper besitzt auch der Schall ein gewisse Trägheit, bevor er bei uns im Ohr und später auch verzögert im Gehirn ankommt.
Diese Grundlagen für solche Effekte, die die Ohr-Gehirn-Verbindung des Menschen verursacht, wird psychoakustisches Modell genannt, dies gibt die Grenzen der akustischen Wahrnehmung des Menschen wieder. Das Model greift auf die schon erwähnte Hörbereichsgrenze, Maskierungseffekte oder auch auf die Signalverbreitung des Innenohrs zurück.
Um aber die verlustbehaftete Audiokodierung noch besser zu verstehen, ist es notwendig wesentliche Eigenschaften, oder auch Parameter genannt, eines Audiosignals kennen zu lernen, da diese Parameter später bei der Komprimierung reduziert werden können. Als erste Eigenschaft wäre die Samplerate, diese bestimmt wie oft das Signal pro Sekunde abgetastet wird. Die Abtastrate muss laut dem Nyquist-Theorem doppelt so hoch sein, wie die höchste hörbare Frequenz. Diese Frequenz liegt ungefähr bei 20 000 Hertz bis 25 000 Hertz, wenn wir diese Spanne verdoppeln, so wie es die Theorie von Claude Elwood Shannon voraussetzt, ergibt sich die für die Audio-CD typische Sampling-Rate von 44 100 Hertz. Eine weitere Eigenschaft ist die Auflösung bzw. Quantifizierung, diese gibt an, mit welcher Genauigkeit ein Ton eines Signal umgewandelt wird. Bei einer gewöhnlichen Audio-CD wird eine Quantifizierung in 16 Bit, also in 65536 Werte, vorgenommen. Die Anzahl der Kanäle, welches der letzte wichtige Parameter ist, gibt an wie viel Kanäle die Audio-Datei besitzt, eine obere Grenze gibt es rein theoretisch dabei nicht. Ein Monosignal entspricht dabei einem Kanal und ein Stereosignal besteht aus zwei Kanälen.
Wie schon erwähnt, beruht die verlustbehaftete Komprimierung meist auf der Reduzierung der ebengenannten Eigenschaften. Die einfachste Lösung wäre, die Sampling-Rate zu reduzieren. Der Nachteil bei einer enormen Reduktion ist die Beschneidung des Obertongehaltes, welches bei einer reinen Sprach-Datei nicht weiter auffällt. Bei Musik oder anderen Tönen, ist dies allerdings ungeeignet, man würde sofort einen Unterschied hören. Theoretisch ist die Sampling-Rate bis auf ungefähr 40 Hertz herabsetzbar. Zustande kommt diese Frequenz, in dem die Hörschwelle des Menschen (20 Hertz) einfach verdoppelt wurde.

Eine andere Lösungsmöglichkeit für die Komprimierung ist die Reduzierung der Auflösung. Der Standardwert von 16 Bit ist theoretisch bis auf 1 Bit herabsetzbar. Aber schon die Halbierung auf 8 Bit würde einen 256-fachen Verlust hervorrufen, bei gerade mal einer Hälfte der Einsparung des Datenvolumens und ist somit nicht wirklich lohnenswert! Die Reduzierung der Kanäle bei Sprachsignalen ist selbstverständlich, es wird ein Monosignal verwendet. Bei Musik hingegen wird es weniger bis übernicht nicht verwendet.
Bei einer maximalen Reduzierung von alle 3 Parametern, 11 kHz / 8 Bit / Mono, hat man eine 16-fache Komprimierung gegenüber der Audio-CD, allerdings eine recht bescheidene Qualität. Neben diesen Methoden werden zusätzlich noch weitere Verfahren angewandt, um die Audioinformationen noch kleiner zukodieren, allerdings würde es den Rahmen sprengen, alle zu erklären. Diesbezüglich folgen nur Beispiele solcher Verfahren. Die bekanntesten Möglichkeiten sind das ?-Law-Verfahren und ADPCM-Verfahren. Die verbreitesten Vertreter der verlustfreien Codec's sind AC-3 (oder auch Dolby Digital), ATRAC, MP3, OggVorbis und WMA. Den wohl populärsten Codec, MPEG-AudioLayer3, werde ich im nächsten Kapitel etwas näher erläutern.

MP3-Audiocodec

Seit ungefähr sieben Jahren ist MP3 der Audiokompressionsstandard für die große Masse der PC-Anwender, Profis sowie Laien begegnen diesem Audiocodec jeden Tag in der Welt der "digitalen Musik". Seine Beliebtheit ist nach fast einem Jahrzehnt immer noch kontinuierlich am steigen. Begründet wird dies vor allem durch die sehr hohe Komprimierungsrate, bei nahezu keinem Qualitätsverlust - je nach eingestellter Bitrate. So kann der Endanwender die MP3-Files aus dem Internet herunterladen und abspeichern, oder sogar auf einen portablen MP3-Player kopieren und den Musikgenuss überall genießen. Im Internet ist sozusagen ein wahrer MP3-Boom ausgebrochen. Der Begriff MP3 führt seit Jahren die Hitlisten der meist gesuchtesten Begriffe bei renommierten Suchmaschinen an, außerdem werden Encoder sowie Decoder teils kostenlos im Internet zum Download angeboten, so dass jeder Benutzer beispielsweise seine Lieblings-CD in MP3's umwandeln kann. Eine andere Anwendung bei der MP3 eine große Rolle spielt sind die so genannten Peer-To-Peer-Netzwerke (P2P), bei diesen speziellen Netzwerken hat der Anwender eine große Auswahl an Musikstücken, welche größtenteils mit dem MPEG-Audio Layer 3 kodiert sind. Jedoch muss ich darauf hinweisen, dass die Benutzung dieser Netzwerke teils illegal ist.

Entstehung:

MP3 ist eigentlich die Abkürzung für MPEG-Audio Layer 3, entwickelt wurde der verwendete Komprimierungsalgorithmus von dem Frauenhofer Institut in Erlangen, im Jahr 1987. Bei der Entwicklung des MPEG-1 Standards wurde dieser hervorragende Algorithmus eingebunden und erhielt den uns bekannten Namen. Das Ziel war es die Datenmenge von Audio-Informationen drastisch zu reduzieren, ohne dabei merkliche Qualitätsverluste in Kauf nehmen zu müssen. Dies sollte dann so weit optimiert werden, dass es für die Übertragung in Systemen mit begrenzter Bandbreite nutzbar ist, wie zum Beispiel in Netzwerken oder für ISDN-Leitungen. Ebenfalls war es in frühster Entwicklungsphase für das digitale Fernsehen (DVB) und für Videokonferenzen im Internet gedacht.

Funktion:

Wie schon aus dem vorherigen Kapitel bekannt, nutzt der MP3-Algorithmus ebenfalls die psychoakustischen Phänomene zur Datenreduktion, maßgeblich wird hierbei der Verdeckungseffekt ausgenutzt.
Im ersten Schritt wird das originale Audio-Signal eingelesen und analysiert. Danach folgt die Teilung des Tracks in verschiedene Frames. Mit Hilfe der Fast Fourier Transformation (FFT) oder auch mit der Modified Discrete Cosinus Transformation (MDCT) wird jeder einzelne Frame in Einzeltöne zerlegt und dabei wird das psychoakustische Modell angewandt. Das heißt, verdeckte Töne und unhörbare Frequenzen werden gefiltert und nicht mit kodiert. Am Ende werden die kodierten Frames noch mit einer Art der Hufmann-Kodierung kodiert, danach werden die Frames wieder zu einem Track zusammengefügt.
Anhand diesem, vereinfacht dargestellten, Kodieralgorithmus ist eine 10- bis 14-fache Komprimierung möglich, je nach Intensität des angewandten Algorithmus.


Leistung:

Die MPEG-1 Layer X Kompression - wobei X für 1,2 oder 3 steht - lässt sich mit drei wesentlichen Faktoren beschreiben, die Bitrate, die Bandbreite und die Anzahl der benutzten Kanäle. Die Bitrate der späteren MPX legt der Anwender am Anfang der Kodierung fest, gemessen wird diese in KiloBit pro Sekunde (kbps). Dieser Faktor bestimmt im wesentlich die Intensivität der Kodierung sowie die daraus entstehende Qualität der MPX. Je höher die Bitrate festgelegt wird, desto mehr Bits hat der Encoder zum Kodieren von 1 Sekunde des Audiosignals. Bei steigender Bitrate, erhöht sich auch die Qualität sowie die Größe der späteren Audio-Datei. Der MPEG1 - Standard unterstützt Bitraten von 32 kbps bis zu 320 kbps. Für den Anwender im Heimbereich dürfte allerdings schon eine Bitrate von 128 bis 192 kbps ausreichen.
Die höchste kodierbare Frequenz gibt die Grenzfrequenz der Bandbreite an und stellt somit einen weiteren wichtigen Faktor dar. Somit wird die Bandbreite in der Maßeinheit Hertz angegeben. Der MPEG 1-Standard unterstützt folgende Abtastfrequenzen von 32 Hz; 44,1 Hz sowie 48 Hz, wobei sich die Bandbreite aus unterer und oberer Grenzfrequenz berechnet.
Außerdem legt man vor dem Beginn der Kodierung die Anzahl der verwendeten Kanäle fest. Bei dem MP3-Standard kann man zwischen einem Monosignal oder einem Stereosignal wählen, das heißt, entweder zwischen einem oder zwei Kanälen. Dabei können zweisignalige Audiodateien entweder das bekannte Stereosignal enthalten oder aber auch zwei unterschiedliche Signale, wie zum Beispiel zwei verschiedene Sprachen.
Der MPEG Layer 3 wurde mitte der neunziger Jahre mit Hilfe des MPEG-2-Algorithmus verbessert. Es ist nun auch möglich geringere Samplingfrequenzen zu kodieren, die Grenze liegt nicht mehr bei 32Hz sondern erst bei 16 Hz. Außerdem unterstützt diese Erweiterung 22 Hz - sowie 24,4 Hz-Frequenzen. Ebenfalls wurde die Bitrate auf bis zu 16 kbps herabgesetzt und nun unterstützt die MP3 auch mehr wie zwei Kanäle, zum Beispiel ein 5.1 Kanalverfahren. Allerdings wird ein 5.1 Kanalverfahren bei der MP3 nicht häufig angewendet, da der Vorteil der geringen Größe nicht mehr zutrifft.

In der folgenden Tabelle sind typische Daten für einen MPEG-Layer 3 dargestellt.

Qualität Bandbreite Kanalmodus Bitrate Reduktionsfaktor
Telefon 2,5 kHz mono 8 kbps 96:1
"Besser als Kurzwelle" 4,5 kHz mono 16 kbps 48:1
"Besser als AM-Radio" 7,5 kHz mono 32 kbps 24:1
"Besser als FM-Radio" 11 kHz stereo 56-64 kbps 24:1 - 16:1
"Fast-CD" 15 kHz stereo 96 kbps 16:1
CD >15 kHz stereo 112 - 192 kbps 14:1 - 10:1


Anhand dieser Tabelle kann man sehen, dass der Algorithmus des MPEG Layer 3 in vielen Gebieten Anwendung findet, nicht nur in der schon angesprochenen Welt der "digitalen Musik".

Seite drucken    DVBmagic News als RSS Feed    DVBmagic News als ATOM Feed







www.dvbmagic.de   (0.0121s) Copyright 2001 - 2011 by Stefan Pratsch und Andreas Erbe


DVB und MHP sind eingetragene Marken der DVB Project