Längst geben sich Computer-Benutzer mit stehenden Bildern nicht mehr zufrieden. Das Format MPEG ist ein standardisiertes Format, das neben Videos auch die Aufzeichnung und Wiedergabe von Audiodaten in CD-Qualität ermöglicht. Es zeichnet sich unter anderem durch ausgefeilte Komprimierungstechniken aus. Für fast alle Funktionen stehen Programme zur Verfügung, die ohne teure Spezialhardware auskommen (js).
Bild 1:
Der frei verfügbare MPEG-Player xmpeg bietet alle
Abspielfunktionen eines Videorecorders.
MPEG läßt sich schon heute nicht mehr aus der multimedialen Welt der Computer wegdenken. Zu verdanken ist dies dem Umstand, daß das Videokompressionsformat MPEG frühzeitig in Einklang mit Wissenschaftlern und Wirtschaft international standardisiert wurde. Dank MPEG ist die Darstellung von synchronisierten, qualitativ hochwertigem Video und Audio zur Normalität geworden.
MPEG heißt »Motion Picture Expert Group« und ist die Gruppe der ISO, die sich mit der Standardisierung im Videobereich beschäftigt. Bereits im Dezember 1992 wurde ein Draft International Standard mit dem übersetzten Titel »Codierung von Bewegtbildern und assoziierten Audio für digitale Speichermedien mit bis zu 1,5 MBit/s« (also für die CD-ROM) vorgelegt, wenig später wurde das Verfahren international standardisiert (ISO 11172). Der durch die WorkGroup 11 vorgelegte Standard besteht aus drei Teilen: System, Video und Audio.
Da die digitale Darstellung eines Studio-TV-Signals eine Nettodatenrate von
166 Mbit/s erfordert und keines der bereitstehenden digitalen Medien eine
solche Datenrate bieten kann, war Kompression oberstes Gebot. Video und Audio
sind zeitabhänge Medien, was es ermöglicht z.B. statt der einzelnen Bilder nur
die Unterschiede zwischen aufeinanderfolgenden Bildern abzuspeichern. Außerdem
kann eine Verringerung des Informationsgehaltes pro Bild durch die schnelle
Bildfolge (also die teilweis Wiederholung von Bildteilen) wettgemacht werden.
Deshalb besteht keine Notwendigkeit, alle digitalen Informationen zu codieren
und MPEG ist als verlustbehaftete Codierung konzipiert.
MPEG wurde durch die Wahl der Codierung auf asymetrische Anwendungen (Fernseh-
Technik, Multimedia-Mail, etc.) zugeschnitten, das heißt die Herstellung des
digitalen Datenstroms erfordert wesentlich mehr Ressourcen als dessen
Konsumierung. Im Gegensatz dazu ist z.B. der ISDN-Bildtelefonstandard H.261 ein
synchrones Verfahren; sowohl auf Sender- als auch auf Empfängerseite wird die
gleiche Hard- oder Software vorausgesetzt.
MPEG ist nicht die optimale Videocodierung, allerdings ist sie der einzig
internationale Konsens in diesem Bereich und findet, auch dank seiner
Verwandschaft mit den Telekommunikations-Standards (H.261, S-VHS) sowie seiner
Kompatibilität zu allen CD-ROM-Formaten (CD-Interactive, CD-Video, ISO-9660)
weite Verbreitung.
Bei einem zu erzielenden Datendurchsatz von 1,5 Mbit/s werden maximal 1.2Mbit/s
für den Video- und 386 Kbit/s für den Audiobereich verwendet. Durch das
Codierungverfahren, sind Einzelbildzugriff, schnelles suchen (Positionierung
auf I-Frames), rückwärts spielen und die Editierbarkeit des Datenstroms
gegeben. Ein MPEG-Stream läßt sich in mindestens 32 Video- und Audio-Spuren
und 2 Systemspuren zur Synchronisation codieren. Zur Synchronisation werden
die Video- und Audiospuren in sog. Frames zerlegt und im Systemstream
entsprechend der gewünschten Datenrate verschachtelt (multiplexing). Die Größe
der Frames kann hierbei für die verschiedenen CD-Rom Formate variiert werden
(siehe Bild 2).
Im Gegensatz zum Festbildformat JPEG werden in MPEG feste Quantisier- und
Huffmann-Tabellen verwendet. Diese sind zwar nicht für jede Video-Übertragung
optimal, können dann jedoch auch in Hardware codiert werden. Quantisierung
steht hier für die Anzahl der möglichen Bits, die zur Codierung eines
Bildpunktes verwendet werden können. Die Huffmann-Codierung reduziert sich
wiederholende Bitfolgen auf Einträge in Symboltabellen, wobei sich häufig
wiederholende Bitfolgen durch möglichst kurze Symbole ersetzt werden.
Feststehende Tabellen sind zwar nie optimal, jedoch unerläßlich für die
Fernsehtechnik und Hardware-Integration. Die Bildgröße ist variabel (in
16-Pixel-Schritten) und kann maximal horizontal 720 Pixel und vertikal 576
Pixel betragen, dies ist die Auflösung eines normalen S-VHS Signals.
Ein MPEG-Video-Stream wird durch Aneinanderreihung von Intra- (I), Predicted-
(P), und Bidirectional-Frames (B) beschrieben. I-Frames sind komplett im JPEG-
Format abgelegt, in P-Frames werden nur die Differenzen zu einem I-Frame
codiert, ein B-Frame codiert die mittleren Differenzen eines I- und eines
P-Frames (siehe Bild 3). Dieses Verfahren nennt man Intra/Delta-Frame-
Codierung. Jeder Frame wird wiederum in drei Planes, eine Luminanz-Plane
(Grauwerte, Y) und zwei Chrominanz-Planes (Farbwerte, Cr und Cb), zerlegt.
einem MPEG-Film Audio- und Videopakete ineinander gescahchtelt werden.
Da sich gezeigt hat, daß das menschliche Auge Farbwerte in einer geringeren
Auflösung als Helligkeitswerte wahrnimmt, wird der gängige RBG-Farbraum (Rot-
Grün-Blau) bei den digitalen Bildstandards in drei Planes umgewandelt, eine
Luminanz-Plane (Grauwerte, Y) und zwei Chrominanz-Planes (Farbwerte U/V,
manchmal auch Cr/Cb). Die Farbwert-Planes können dann von ihrer Kantenlänge
halbiert werden (das ist dann ein Viertel der Fläche !). Dies reduziert die
Datenmenge enorm, ist jedoch ein Datenverlust. Diese Art der Codierung nennt
man den 4:1:1 YUV-Farbraum.
Alle Planes werden in 8x8 Pixel-Blöcke aufgeteilt. Jeder dieser Blöcke wird
mittels einer Discrete-Cosine-Transformation (DCT) codiert, dabei wird der
erste Wert jedes Blocks als DC-Koeffizient (DC) bezeichnet; die restlichen
Differenzwerte als AC-Koeffizienten. DC's werden untereinander auch als
Differenzen gespeichert.
Von den zur Verfügung stehenden Transformationen hat sich die DCT, die von der
diskreten Fourier Transformation abgeleitet ist, als besonders effizient
erwiesen. Eine auf einen 8x8 Pixelblock angewendete DCT ergibt wiederum einen
8x8 Pixelblock. Die Koeffizienten der DCT lassen sich als Spektrum des 8x8
Eingabeblock interpretieren. Während die Energie des Bildsignals zufällig
verteilt sein kann, konzentriert sich die Energie des korrespondierenden
DCT-Blocks vorzugsweise auf Koeffizienten mit niedrigen Frequenzen. Werden
die Koeffizienten im Zick-Zack durchnummeriert, ergeben sich als zu
speichernde Werte ein DC-Koeffizient, dann wenige niedrige AC-Koeffizienten
und viele AC-Koeffizienten nahe Null. Die DCT ist ein verlustfreies Verfahren,
da die Codierung komplett umkehrbar ist und komprimiert selber nicht. Die DCT-
Werte eignen sich jedoch optimal, um sie einer Entropie-Codierung zuzuführen.
Die Entropie-Codierung (oder Lauflängen-Codierung) speichert bei
aufeinanderfolgenden gleichen Werten einmal den Wert und dann die Anzahl der
Werte. Kommt im Datenstrom also hintereinander siebenmal die 2, wird nur die
7 und die 2 codiert. Die Entropie-Codierung generiert wiederum sich
wiederholende Byte-Folgen, die mit dem Huffman-Verfahren, optimal
weiterkomprimiert werden können. Häufige Byte-Folgen werden durch kurze
Bit-Sequenzen ersetzt. Entropie- und Huffman-Codierung sind ebenfalls
verlustfrei und beide Verfahren werden auch bei allen normalen
Kompressionsmethoden (compress, zip) eingesetzt. Wie sich gezeigt hat,
ergibt bei Videoinformationen jedoch erst die Kompression der mit einer
DCT umgewandelten Daten eine optimale Kompressionsrate.
Zusätzlich können Frames auch als Verweise der Macroblöcke auf gleiche, in
vorherigen Frames gespeicherten Blöcken codiert werden (hier bezieht man sich
jedoch auf 16x16 Pixel-Blöcke). Dieses Verfahren nennt man Motion-Compensation.
Die hohe Kompressionsrate von um die 80:1 (VHS-Video nach MPEG-1
Systemdatenstrom) ergibt sich erst durch die Kombination aller aufeinander
abgestimmter Kompressiontechniken: 4:1:1 YUV-Farbraum, Intra/Delta-Frame-
Codierung, DCT, Motion Compensation, Entropie- und Huffmann-Codierung.
Der Audio-Teil des MPEG-Draft beschreibt Mechanismen und Algorithmen, mit
denen die digitale Speicherung von Audiosignalen auf kostengünstigen
Speichermedien auf der einen Seite und die digitale Übertragung von
Audiosignalen auf Kanälen mit begrenzter Kapazität auf der anderen Seite
ermöglicht wird. Bei all dem Zielstreben steht jedoch die Erhaltung der
Qualität in einem bestimmten Bereich im Vordergrund. Im Audio-Bereich wird
eine der Compact Disc nahekommende Qualität erreicht. Viele lassen sich immer
noch durch das stetige Flimmern der Videobilder blenden und haben völlig
übersehen, daß die eigentliche Multimedia-Revolution soeben im Audiobereich
stattgefunden hat. Die Übertragung von Musik und Sprache über z.B.
Ethernetnetze und die Speicherung von mehr als 10 Stunden Audio auf einer
CD-Rom, und das alles in CD-Qualität, kann nicht hoch genug eingeschätzt
werden. Selbst die Übertragung übers Internet ist bereits möglich und
realisiert.
Layer II ist im
Verhältnis zum Layer I komplexer aber im Bezug auf die Codierung auch
effizienter.
MPEG-2 ist die Erweiterung von MPEG-1, die Rücksicht auf die
hardwaretechnischen Neuerungen und Erfordernisse nimmt. MPEG-2 ist nicht mehr
zugeschnitten auf die Datenraten der CD-ROM und speziell für den Einsatz in
der professionellen Videotechnik gedacht. Besonders ist hierbei die neu
hinzugefügte Funktionalität der Scalability zu nennen. Sie soll eine
Anpassung der Ausgabequalität an die zur Verfügung stehende Hardware
ermöglichen. Der Decoder hat dazu die Fähigkeit, Teile des Datenstroms zu
ignorieren und mit dem decodierten Teil eine »brauchbare« Video und Audio-
Ausgabe zu produzieren. Insbesondere wird dadurch bei einem HDTV-codierten
16:9-Bild die Abwärtskompatibilität zu einem »normalem« 4:3 Fernsehbild
garantiert. Weitere Features von MPEG-2 sind: angepaßte Bandbreite bis 10
MBit/s für Satelliten-Broadcasts, Electronic Cinema und Digital Home
Television, MPEG-1 and H.261 Abwärtskompatibilität, Multi-Channel-Mode,
Dolby Surround, intelligente Schachtelung von Video und Audio zur Vermeidung
von Synchronisationsverlusten (auto-sync.) und Verschlüsselung.
Digital Video Interactive (DVI) ist ein früher Versuch der Firma Intel
(in Zusammenarbeit mit IBM) einen Standard in der Kompression von
kontinuierlichen Medien durchzusetzen. Intel kaufte 1988 die Rechte an DVI
vom David Sarnoff Research Center. Ein Jahr später stellte man das erste
Produkt vor. Es war ein 386er PC mit sieben Steckkarten. Zwei
Kompressionsformate werden von DVI unterstützt: RTV (Real Time Video) wurde
vom Benutzer mittels seiner lokalen Hardware gebraucht; PLV (Production
Level Video) erreichte Kompressionsraten von 160:1, konnte jedoch nur von
authorisierten Firmen erzeugt werden und erforderte teure Spezialhardware.
Bis jetzt ist DVI weder auf anderen Rechnerwelten noch ohne extreme
Hardwareunterstützung denkbar. Außerdem scheint sich Intel mit dem neuen
Verfahren »Indeo« mittlerweile gegen das eigene DVI gestellt zu haben.
Trotzdem hat die Firma Fast kuerzlich ein DVI-Board produziert (eigentlich
handelt es sich um die sogenannte Screen Machine von Fast mit einer neuen
Software unter Windows 3.1 und einem DVI-Kompressionschip).
Das in das Apple Betriebssystem integrierte, zeitbasierte Format Quicktime
wird oft als Konkurrenz zu MPEG gesehen, der Vergleich hinkt jedoch stark.
Quicktime ist ein Format, um digitale Daten und deren zeitabhängige
Präsentation zu codieren und zu synchonisieren. In Quicktime können sowohl
Video, als auch Ton, Text oder Programme und Geräte gesteuert, Effekte
definiert und verschiedene Spuren synchonisiert werden. Quicktime selber
ist kein Komprimierungsformat, innerhalb eines Quicktime-Datenstromes werden
jedoch die verschiedensten (auch komprimierten) Datenformate genutzt: z.B.
das Videokomprimierungsverfahren Cinepak, welches auch für AVI lizensiert
wurde. Außerdem ist ein MPEG-Codec zur Einbettung in Quicktime erhältlich.
Hier sollte also eher Cinepak mit MPEG verglichen werden.
AVI (Audio-Video-Interlaced) scheint Microsofts Antwort auf Apple's Quicktime
zu sein, kann dies jedoch nicht leisten. AVI stellt unter der
Benutzeroberfläche MS-Windows 3.1 mehrere Utilities und Driver zu
Verfügung, die es erlauben, kleinste Video-Sequenzen (20 Sekunden 160x120
Pixel bei 8 Bit Farbe nehmen immerhin 2
MB Daten ein) per Hardware zu digitalisieren, zu editieren, komplett in die
Windows-Umgebung zu integrieren, mit von Hardware gesampeltem Audio zu
synchonisieren und natürlich auch alles zusammen abzuspielen. Insbesondere
wird hier ein Kompressionverfahren der Firma Intel (Indeo) eingesetzt, das
ein zweidimensionales »scaling« des Video-Filmes erlaubt. Entsprechend der
Microsoft-Philosophie sind die Softwarecodecs austausch- und einfach in das
AVI-Format integrierbar. Das große Manko von AVI ist die noch ungenügende
Kompression. Da AVI bis jetzt auch nur auf einer Hardware-Platform
implementiert ist (und AVI kein internationaler Standard ist) wird sich
AVI zwar einer großen Verbreitung in der Intel/Microsoft-Welt erfreuen,
jedoch wohl kaum in den Bereich der Telekommunikation vordringen können.
Mittlerweile werden die meisten hochwertigen PC-Videokarten bereits mit
Hardunterstützung für AVI und MPEG geliefert, außerdem ist auch ein MPEG-
Codec zur Integration in AVI-Videos erhältlich.
Das Datenkompressionformat MPEG-1 ist entwickelt worden, um mit Hilfe von
zusätzlichen, preiswerten Spezial-Chips den Datenstrom in Echtzeit zu
decodieren. Mittlerweile sind diese MPEG-Karten im PC-Bereich weit verbreitet,
andere Plattformen ziehen langsam nach. Vorreiter waren hier die Firma Sigma
Designs und Phillips, die die ersten MPEG-Decoder-Chips herstellten, letztere
insbesondere für ihre CD-I-Player.
Zusätzlich zu den Hardwarelösungen existiert für fast alle Aufgaben Software,
die meist als Quelltext in C bzw. C++ zur Verfügung steht und auf fast allen
Unix-Plattformen lauffähig ist. So gibt es Tools für das Komprimieren,
Abspielen, Multi- und Demultiplexen. Wichtig sind die Encoder-/Decoder-
Lösungen der Universitäten Berkeley und Stanford. Der unter der GPL
(GNU Public Licence) verbreitete Code beider Pakete ist in Dutzende Player
anderer Systeme eingebaut worden. In der neuesten Version des Berkeley-
Toolkits sind nicht nur Encoder und Decoder sondern auch diverse Analysetools
und das Statistiktool mpegstat der TU-Berlin enthalten
(ftp://ftp.cs.berkeley.edu/multimedia/mpeg). Der Stanford-Encoder glänzt
durch die Möglichkeit der Verteilung auf mehrere Maschinen im Netz, was bei
ausreichender Anzahl Echtzeit-Encoding ermöglicht.
Weite Verbreitung hat xmplay von Jürgen Meyer und Frank Gadegast (TU-Berlin)
gefunden, ein X11-Frontend auf Basis des Berkeley-Decoders mit zusätzlichen
Features wie schneller Suchlauf, Vor- und Zurückspulen. (Source-Code und
weitere Infos unter http://www.mpeg1.de/xmplay.html). Für Stanford-Encoder glänzt
Windows empfiehlt sich vmpeg Version 1.7 von Stefan Eckhard (TU München),
das auf den meisten Mailboxen und FTP-Servern gefunden werden kann. Es
unterstützt den kompletten MPEG-Datenstrom (Video, Audio und System), sowie
das direkte Abspielen von CD-Is und Video-CDs.
Die im MPEG-Bereich sehr aktive Firma Xing Technologies hat sowohl für
Windows als auch für SunOS und Solaris ein Client/Server-Paket namens
StreamsWorks (
http://www.xingtech.com/) herausgebracht.
Hiermit werden
bereits heute über »normale« Internet-Leitungen Programme von Radiostationen,
Life-Musik oder Konferenzen in Echtzeit und CD-Qualität übertragen. Die
Server passen sich dabei bei der Codierung in Echtzeit der reellen
Übertragungsleistung an, um Aussetzer und Verzögerungen zu vermeiden. Die
Videoübertragung mittels MPEG ist zwar bereits in StreamWorks integriert,
erfordert jedoch mehrere ISDN-B-Kanäle, die Übertragung ist hier nicht mehr
über das Internet möglich.
Alle hier genannten Utilities und deren Source-Code, sowie Beispiel-Streams
(Audio und Video) sind z.B. auf der CD »The Internet MPEG CD-ROM«
zusammengestellt.
Zum Schluß beibt festzustellen, daß das MPEG-Kompressionverfahren dank
seiner Standardisierung sowohl im Computer- als auch im Consumer-Markt
(digitales Fernsehen, CD-I und nicht zu vergessen die Spieleconsolen von
Amiga und Sony) bereits eine feststehende Größe ist. Die Codierung anderer
Verfahren mag zwar noch effizienter sein und auch mehr Funktionalität bieten,
in Zeiten der globalen Vernetzung ist jedoch Platformunabhängigkeit und
Kompatibilität der stärkere Trumpf. (Frank Gadegast /js)
»The Internet MPEG CD-Rom«
»StreamWorks«
Bild 3: Nur die I-Frames eines Video-Streams sind als JPEG-Bilder abgelegt,
während in P- und B-Frames nur Differenzen gespeichert sind.
Die Darstellung eines stereophonen Audiosignals im Studioformat erfordert
eine Abtastfrequenz von 48 KHz und eine gleichförmige Quantisierung von 16
Bit pro Abtastwert. Daraus ergibt sich eine Datenrate von 768 KBit/s für
ein Monosignal, als Produkt der Multiplikation der 48 KHz mit den 16 Bit
pro Abtastwert. Daraus resultierend ergibt sich für ein Stereosignal eine
Datenrate von 2x768 KBit/s, also ca. 1,5 MBit/s. Als Vergleich dazu wird auf
einer Compact Disc mit einer Abtastfrequenz von 44,1 KHz bei der gleichen
Quantisierung von 16Bit pro Abtastwert gearbeitet, wodurch sich eine
Datenrate von circa 706 KBit/s (Mono) ergibt.
Im MPEG-Audio-Standard werden drei Abtastfrequenzen verwendet, 32 KHz, 44.1
KHz und 48 KHz. Aber im Gegensatz zu den oben beschriebenen Fällen ergeben
sich hier im Endeffekt Datenraten zwischen 32 KBit/s und 192 KBit/s für ein
Monosignal. Für ein Stereosignal liegen sie zwischen 128 KBit/s und 384 KBit/s.
Mit einer Datenrate unter 128 KBit/s (mono 64 KBit/s) können leider noch keine
zufriedenstellende Ergebnisse erzielt werden.
Das Ziel des Standards ist es, mit einer von 1,5 MBit/s im Studioformat auf
256 KBit/s reduzierten Datenrate eine der Compact Disc ebenbürtige Qualität
zu erreichen, wobei auch bei niedrigeren Datenraten wie 192 KBit/s bis
hinunter zu 128 KBit/s noch akzeptable Qualitäten erzielt werden sollen.
Das menschliche Gehör ist im allgemeinen bei Störungen im Audio-Bereich
empfindsamer als im visuellen Bereich, d.h. kurzzeitiges Rauschen und
Knacken ist störender als z.B. Flimmern im visuellen Bereich, daher wird
eine der CD vergleichbare Qualität angestrebt.
Innerhalb der Codierung sind vier Modi zu unterscheiden. Single Channel
Coding für Monosignale, Dual Channel Coding zur Codierung von z.B.
bilingualen Monosignalen (wie z.B. Zweikanalton im Bereich des TV),
Stereo Coding zur Codierung eines Stereosignals, bei dem die beiden Kanäle
separat codiert werden. Zusätzlich ist das Joint Stereo Coding zu nennen,
das ebenso wie das Stereo Coding zur Codierung eines Stereosignals benutzt
wird. Bei diesem Verfahren wird die Datenredundanz und -irrelevanz zwischen
den beiden Kanälen ausgenutzt und somit eine Datenverminderung erreicht.
Das digitale Eingangssignal wird in 32 gleichförmige Spektralkomponenten
(Frequenzgruppen, Teilbänder) zerlegt, dieses Grundprinzip entspricht dem
Vorgang im menschlichen Gehör (Psychoakustik). Der Vorgang wird als Zeit-
Frequenzbereichs-Umsetzung bezeichnet. Die Spektralkomponenten werden dann
in Abstimmung auf die Wahrnehmungseigenschaften des menschlichen Gehörs
codiert. Diese Codierung wird von einem der drei definierten Layer
durchgeführt.
Sowohl Quantisierung als auch Codierung werden unter Einbeziehung einer
Maskierungsschwelle realisiert. Diese Maskierungsschwelle wird vom
Psychoakustischen Modell für jede Komponente individuell nach einer diskreten
Fourier Transformation berechnet und gibt die maximal erlaubte
Quantisierungsfehlerleistung an, mit der noch codiert werden darf, ohne daß
eine Wahrnehmung dieses Fehlers durch das menschliche Gehör befürchtet werden
muß. Die oben erwähnten drei Layer des MPEG-Audio-Standard arbeiten alle nach
dem beschriebenen Grundprinzip. Die Zerlegung des Eingangssignals und der
Codierung unterscheidet sich jedoch sowohl in der benötigten Rechenleistung
als auch in der erreichten Kompressionsrate (siehe
Bild 4).
Bild 4: Das psychoakustische Modell erlaubt eine verlustbehaftete
Komprimierung, die sich am menschlichen Gehör orientiert.
Der Layer III besitzt die größte Komplexität und zugleich die höchste
Effizienz. Er kann mittlerweile auf hochwertigen Computern (Pentium oder
Workstations) auch in Echtzeit in Software decodiert werden. Im Unterschied
zu Layer I und II verwendet dieser Layer analog zur Umsetzung im Videoteil
eine Modified Discrete Cosine Transformation (MDCT), die es erlaubt die
Anzahl der notwendigen Quantisierungwerte optimal zu errechnen. Laute,
niederfrequente Signale überdecken dabei leise, hochfrequente, die letzeren
müssen dann also nicht mit der vollen Bit-Tiefe, sprich Quantisierung,
codiert werden. Die Art der Generierung der Quantisierungswerte mit Hilfe
der MDCT wird Psychoakustisches Modell genannt und wurde durch langwieriger
Hörtests von Musikern, Tontechniker und anderen Spezialisten optimiert.
Wie im Videoteil wird zusätzlich eine Entropie- und Huffmann-Codierung
vorgenommen, die die Werte nach der Umsetzung durch die MDCT optimal
komprimieren. Die CD-Qualität wird hierbei mit der selben Datenrate wie in
Layer II erreicht (256 KBit/s). Seine Stärke zeigt die Codierung nach Layer
III erst bei niedrigeren Datenraten, bei denen immer noch eine beeindruckende
Qualität erzielt werden kann.
Insgesamt erhält man bei der MPEG-Audiokomprimierung als sehr nützlichen
Nebeneffekt die Rauschfreiheit, d.h. es sind keine zusätzlichen Verfahren
zur Geräuschminderung wie z.B. das Dolby-System nötig.
Die Layer I und II sind bereits vollständig als integrierte Schaltungen
realisiert. Die Layer I Codierung wurde bereits seit den DCC-Recordern
(Digital-Compact-Cassette) verwendet. Die Layer II Codierung wird vom
europäischen DAB (Digital Audio Broadcasting) System verwendet werden.
Zukünftiges Ziel dürfte es sein, mit dem Layer III die CD-Qualität schon
bei einer Datenrate von 2x64kbit/s zu erreichen, hierzu wird eine ideale
Realisierung des Joint Stereo Coding notwendig sein. Dies ist in naher Zukunft
zu erwarten.
Die Echtzeitcodierung ist, da sich MPEG durch ein asynchrones
Codierungsverhalten auszeichnet, extrem aufwendig und nur durch mehrere
hochspezialisierte Bausteine realisierbar. Die Firma OptiBase stellte die
ersten Codierer-Lösungen für den PC vor. Sun hat die SunVideo-Karte
entwickelt, eine generelle Grabber-Karte, die den von der Kamera oder
Videorecorder eintreffenden Bilderstrom in wenigen festen Auflösungsstufen
digitalisiert und in Echtzeit unkomprimiert, mit der Sun typischen
Komprimierung CellB oder mit MPEG komprimiert ablegen kann. Diese preisgünstige
Variante erzeugt jedoch keine Systemdatenströme. Audio kann nur im
Sun-Audio-Format µlaw aufgenommen und synchronisiert werden.
Als Audio-Encoder steht die Beispielimplementierung der CCITT namens musicio
zur Verfügung die jedoch nicht geschwindigkeitsoptimiert ist. Als Player hat
maplay -- ein Echtzeitdekoder für fast jedes Unixderivat -- große Verbreitung
gefunden. Die C++-Implementierung glänzt durch Echtzeitdekodierung eines
Stereo-MPEG-Audio Signals auf Sun- und SGI-Rechnern, sowie auf Pentium-PCs.
Für neue Audio-Hardware kann der Code recht einfach um neue Audio-Interface-
Klassen erweitert werden. Portierungen auf Mac und PC sind vorhanden. Ein
TclTk-basiertes Interface dafür ist soeben in Arbeit (Binaries und Quelltext
bekommt man unter ftp://ftp.cs.tu-berlin.de/incoming/maplay/). Für Windows
sollte man sich als Audio-Player mpgaudio von Xing Technologies,
für den Mac das Programm MPEG/CD besorgen.
Die wohl größte Sammlung freier MPEG-Videos findet man im niederländischen
MPEG-Archiv unter http://w3.eeb.ele.tue.nl/mpeg/index.html, die besten
Audio-Files findet man auf dem IUMA-Archiv (http://www.iuma.com): Mehr
als 500 Underground-Bands präsentieren hier mindestens einen kompletten
Song. Als weitere Adresse im Web ist das MPEG-Archiv bei PowerWeb zu
nennen (http://www.mpeg1.de). Dort findet man die
»Frequently Asked Questions« (FAQs) zu MPEG. Außerdem enthält es die
wichtigsten Utilities und mehr als 200 Links zum Thema. Anlässe, wie z.B.
die Reichstagverhüllung von Christo werden dort mit MPEG-Filmen dokumentiert.
Nähere Informationen:
PHADE Software
http://www.powerweb.de/phade/
Tel. (030) 344 23 66
Xing Technologies
http://www.xingtech.com
© 1995 by Frank Gadegast/Juergen Schmidt/AWi Verlag
Published in UNIXopen 12/95.
All rights reserved.