H.264 Κεφάλαιο 1 – Ιστορική ανασκόπηση, video codecs, image codecs

1.1 – Συμπίεση Δεδομένων (Data Compression)

 

1.1.1 – Γενικά

 

Στην επιστήμη υπολογιστών και στην θεωρία πληροφορίας, η συμπίεση δεδομένων αποτελεί την διαδικασία κωδικοποίησης πληροφορίας χρησιμοποιώντας λιγότερα bits (ή άλλες μονάδες αναπαράστασης πληροφορίας) σε σχέση με τον όγκο δεδομένων της ασυμπίεστης αναπράστασης, με την χρήση τεχνικών συγκεκριμένης κωδικοποίησης. Όπως κάθε άλλη μορφή επικοινωνίας, η συμπίεση δεδομένων λειτουργεί μόνο όταν και ο αποστολέας και παραλήπτης της πληροφορίας είναι σε θέση να κατανοήσει την τεχνική συμπίεσης. Για παράδειγμα ακόμη και το κείμενο αυτό έχει λογική συνάφεια όταν ο αναγνώστης καταλάβει ότι πρέπει να το διαβάσει σαν χαρακτήρες που αποτελούν κομμάτι της  ελληνικής γλώσσας. Παρομοίως, τα συμπιεσμένα δεδομένα μπορούν να γίνουν κατανοητά μόνο όταν η τεχνική αποκωδικοποίησης είναι γνωστή στον παραλήπτη.

Η συμπίεση δεδομένων αποτελεί ένα πολύ χρήσιμο εργαλείο καθώς βοηθάει στην εξοικονόμηση πολύτιμων πόρων, όπως χώρο σε αποθηκευτικά μέσα (σκληροί δίσκοι) ή εύρους ζώνης σε κανάλια επικοινωνίας. Ένα αρνητικό της τεχνικής συμπίεσης αποτελεί η μετέπειτα ανάγκη αποσυμπίεσης των δεδομένων πριν την χρήση τους, και το γεγονός αυτό καθιστά αναγκαία την χρήση επιπρόσθετης επεξεργαστικής ισχύος απο τα λογισμικά αποσυμπίεσης. Στην περίπτωση της τεχνικής συμπίεσης video, είναι αναγκαία η χρήση ακριβού hardware ώστε στο video είναι δυνατή η αποσυμπίεση του παράλληλα με την αναπαραγωγή του (η αναγκή αποσυμπίεσης του video πριν την αναπαραγωγή του αποτελεί μια άβολη λύση, καθως απαιτεί χώρο στον δίσκο). Η σχεδίαση λοιπόν τεχνικών συμπίεσης περιλαμβάνει συμβιβασμούς εως προς τον βαθμό συμπίεσης, την απώλεια/παραμορφωση πληροφορίας (σε περίπτωση χρήσης απωλεστικής συμπίεσης, και ανάλογα με τις επεξεργαστικές ανάγκες που απαιτούνται για την συμπιεση/αποσυμπίεση δεδομένων)

 

1.1.2 – Απωλεστικών έναντι μη απωλεστικών τεχνικών συμπίεσης

 

Οι μη απωλεστικοί αλγόριθμοι συμπίεσης (lossless data compression) συνήθως εκμεταλλεύονται τις στατιστικές απώλειες κατά τέτοιο τρόπο ώστε να αντιπροσωπεύουν τα στοιχεία του αποστολέα πιο συνοπτικά χωρίς σφάλματα. H μη απωλεστική συμπίεση είναι δυνατή καθώς τα πιο πολλά δεδομένα του πραγματικού κόσμου έχουν στατιστική επανάληψη. Για παράδειγμα στην Αγγλική γλώσσα, το γράμμα ‘e’ είναι πιο συνιθισμένο απο το γράμμα ‘z’ και η πιθανότητα το γράμμα ‘q’ να ακολουθεί το ‘z’ είναι πολύ μικρή . Μια άλλη κατηγορία συμπίεσης, ονομάζεται απωλεστική συμπίεση δεδομένων (lossy data compression) ή αντιληπτική κωδικοποίηση, όπου είναι αποδεκτή η απώλεια αξιοπιστίας. Σε γενικές γραμμές, απωλεστική τεχνική συμπίεση δεδομένων θα πρέπει να καθοδηγείται από την έρευνα σχετικά με το πώς οι άνθρωποι αντιλαμβάνονται την εν λόγω δεδομένα. Για παράδειγμα, το ανθρώπινο μάτι είναι περισσότερο ευαίσθητο στις ανεπαίσθητες διακυμάνσεις της φωτεινότητας από ό, τι στις διακυμάνσεις του χρώματος. Η συμπίεση εικόνας JPEG λειτουργεί εν μέρει με «στρογγυλοποίηση» ορισμένων από τις λιγότερο σημαντικές πληροφορίες.Η απωλεστική συμπίεση δεδομένων παρέχει έναν τρόπο για να επιτύχθεί το καλύτερη αξιοπιστία για ένα συγκεκριμένο ποσόοστό συμπίεσης. Σε άλλες περιπτώσεις, η πιστότητα θυσιάζεται για να μειωθεί η ποσότητα των δεδομένων όσο το δυνατόν περισσότερο.

 

Μη απωλεστικές τεχνικές συμπίεσης είναι αναστρέψιμες, έτσι ώστε τα αρχικά δεδομένα μπορούν να ανακατασκευαστούν, ενώ οι απωλεστικές τεχνικές δέχονται ορισμένες απώλειες των δεδομένων, προκειμένου να επιτευχθεί μεγαλύτερη συμπίεση.

 

Ωστόσο, μη απωλεστικοί αλγόριθμοι συμπίεσης δεδομένων πάντα αδυνατούν να συμπιέσουν ορισμένα είδη αρχείων. Πράγματι, κάθε αλγόριθμος συμπίεσης αναγκαστικά θα παραλείψει να συμπιέσει τα δεδομένα που δεν παρουσιάζουν εμφανές σχηματισμούς. Προσπάθειες για τη συμπίεση ήδη συμπιεσμένων ως εκ τούτου, θα οδηγήσει στην επέκταση τους, καθώς και σε προσπάθειες συμπίεσης κρυπτογραγημένων δεδομένων. Στην πράξη, απωλεστικές τεχνικές συμπίεσης φτάνουν στο σημείο όπου δεν είναι δυνατή η συμπίεση, καθώς σε περίπτωση αλγορίθμου μεγάλης συμπίεσης, όπου για παράδειγμα αφαιρείται το τελευταίο byte του αρχείου καταλλήγουμε στο τέλος με ένα άδειο αρχειο.

 

1.1.3 – Εφαρμογές συμπίεσης δεδομένων

 

Η μη απωλεστική συμπίεση δεδομένων χρησιμοποιείται συχνά στην εξοικοόνομηση χώρου σε αποθηκευτικά μέσα ή καλύτερη αξιοποίηση του έυρους ζώνης σε ένα οποιοδήποτε δίκτυο. Για συμβολικά δεδομένα όπως κείμενο, εκετλέσιμα προγράματα κ.α. η μη απωλεστικότητα είναι απολύτως σημαντική καθώς η αλλαγή οποιοδήποτε στοιχείου δεδομένου είναι μη αποδεκτή (με εξαίρεση μερικές περιπτώσεις). Για δεδομένα οπτικοακουστικής φύσεως, η απώλεια ποιότητας είναι αποδεκτή χωρίς να γίνεται απώλεια της μορφής των δεδομένων. Εκμεταλευόμενοι τα δεδομένα των περιορισμών των ανθώπινου αιθητήριου συστήματος. ‘Ενα μεγάλο κομμάτι όγκου δεδομένων δύναται να εξοικονομηθεί με την παραγωγή του τελικού ενός αρχείου σχεδόν όμοιο με το αρχικό. Αυτές οι τεχνικές συμπίεσης δεδομένων κάνουν σημαντικές παραχώρησεις στις παρακάτω παραμέτρους: ταχύτητα συμπίεσης, μέγεθος τελικού αρχείου και απώλεια ποιότητας.

 

Απωλεστικές μεθόδοι συμπίεσης εικόνας χρησιμοποιούνται σε ψηφιακές φωτογραφικές μηχανές, έτσι ώστε να είναι δυνατή η άυξηση των αποθηκευτικών δυνατοτήτων με ανεπαίσθητη μείωση στην ποιότητα της τελικής εικόνας. Σε αντίστοιχες τεχνικές απωλεστικής συμπίεση ήχου, γίνεται χρήση ψυχοακουστικών μεθόδων για την αφαίρεση στοιχείων του ηχητικού σήματος, που δεν είναι δυνατόν να ακουστούν απο το ανθρώπινο αυτί. Κατά την συμπίεση φωνής γίνεται χρήση πιο εξειδικευμένων τεχνικών, ώστε σε ορισμένες η “συμπίεση φωνής” να εκλαμβάνεται διαφορετικά απο την συμπίεση ήχου. Διαφορετικές τεχνικές συμπίεσης ήχου και φωνής περιλαμβάνονται κάτω απο την κατηγορία των κωδικοποιητών ήχου. Η κωδικοποίηση φωνής χρησιμοποιήται στην τηλεφωνία μέσω διαδικτύου για παράδειγμα, ενώ η συμπίεση ήχου χρησιμοποιήται κατα την εξαγωγή δεδομένων απο CD κ.α.

 

1.1.4 – Παραδείγματα μη απωλεστικών τεχνικών συμπίεσης

 

Η τεχνικές συμπίεσης Lempel-Ziv (LZ) αποτελούν τους πιο γνωστούς μη απωλεστικούς αλγόριθμους συμπίεσης δεδομένων. Η τεχνική DEFLATE αποτελεί μια παραλλαγή του LZ η οποία είναι βελτιστοποιημένη ως προς την ταχύτητα αποσυμπίεσης καθώς και του ποσοστού συμπίεσης των δεδομένων, με αποτέλεσμα η συμπίεση να είναι αργή. Χρησιμοποιείται στα PKZIP, gzip και αρχεία PNG. Η τεχνική LZW (Lempel-Ziv-Welch) χρησιμοποιείται στα αρχεία gif. Αξιοσημείωτες είναι επίσης οι τεχνικές LZR (LZ-Renau), οι οποίες αποτελούν την βάση την τεχνικής ZIP. Η τεχνική LZ κάνει χρήση του μοντέλου συμπίεσης πινάκων, όπου επαναλαμβανόμενες ακολουθίες χαρακτήρων αντικαθίσταται με καταχωρήσεις πινάκων. Για τις περισσότερες τεχνικές LZ, οι πίνακες αυτοί δημιουργούνται δυναμικά από προηγούμενες καταχωρήσεις δεδομένων. Ο ίδιος ο πίνακας κωδικοποιείται με την τεχνική Huffman (π.χ. SHRI, LZX). Η παρούσα τεχνική βασιμένη στο LZ με καλές επιδόσεις είναι η LZX, που χρησιμοποιείται στα αρχεία CAB της Microsoft. Οι καλύτερες τεχνικές συμπίεσης κάνουν χρήση μοντέλων πιθανοτήτων, στις οποίες οι προβλέψεις συννενόνονται με τον ακγόριθμο αριθμιτικής κωδικοποίησης. Ο αλγόριθμος αυτός επινοήθηκε απο τον Jorma Rissanen και υλοποιήθηκε πρακτικά απο τον Witten Neal και επιτυγχάνει ξεκάθαρα καλύτερη συμπίεση στον δημοφιλή αλγόριθμο Huffman, ειδικά σε εφαρμογές συμπίεσης ευέλικτων δεδομένων όπου οι πρόβλεψη των δεδομένων είναι άμεση σχετισμένη με το είδος τους.  Η αριθμιτική κωδικοποίηση χρησιμοποιείται στο πρότυπο JBIG καθώς και στο DjVu.

 

1.1.5 – Θεωρητικό υπόβαθρο συμπίεσης δεδομένων

 

Το θεωρηστικό υπόβαθρο της συμπίεσης δεδομένων παρέχεται απο των θεωρία πληροφορίας (σχετίζεται άμεσα με την αλγοριθμική θεωρία πληροφορίας) για χρήση στις μη απωλεστικές τεχνικές, καθώς και από την θεωρία ρυθμού παραμόρφωσης για απωλεστικές τεχνικές συμπίεσης. Αυτά τα πεδία μελέτης δημουργήθηκαν κυριώς απο τον Claude Shannon, ο οποίος έκανε ορισμένες καθοριστικές δημοσίευσεις πάνω στο αντικείμενο στα τέλη του 1940 και αρχές του 1950. Η θεωρία κρυπτογράγησης και κωδικοποίησης είναι επίσης άμεσα σχετισμένα. Πολλές μη απωλεστικές τεχνικές συμπίεσης μπορούν να εξεταστθούν σύμφωνα με το μοντέλο των τεσσάρων σταδίων. Οι απωλεστικές τεχνικές από την άλλη περιλαμβάνουν ακόμη περισσότερα στάδια, όπως για παράδειγμα πρόβλεψη, μετασχηματισμό συχνότητα και κβαντοποίηση.

 

Αυτόβοηθούμενα συστήματα:  Υπάρχει μαι στενή σχέση μεταξύ αυτόματης εκμάθησης υπολογιστών συστημάτων και της συμπίεσης. Ένα σύστημα ικανό να προβλέπει τις πιθανοτικές ακολουθίες σε όλο το ιστορικό του, μπορεί να χρησιμοποιηθεί για βέλτιστη συμπίεση δεδομένων (με την χρήση αριθμιτικής κωδικοποίησης πάνω στην τελική κατανομή). Η βέλτιστη αυτή τεχνική συμπίεσης δεδομένων μπορεί να χρησιμοποιηθεί για την πρόβλεψη, με την εύρεση του συμβόλου με την καλύτερη συμπίεση, λαμβάνοντας υπόψιν το ιστορικό. Αυτή η συσχέτιση έχει χρησιμοποιηθεί για την κατοχύρωση της συμπίεσης δεδομένων ως τεχνική συγκρισης επιδόδεων μεταξύ διαφορετικών υπολογιστικών συστημάτων (benchmarking) για γενική χρήση.

 

Διαφοροποίηση δεδομένων: Η συμπίεση δεδομένων εκλαμβάνεται σαν μια γενική τεχνική διαφοροποίησης δεδομένων. Η τεχνική αυτή περιλαμβάνει την παραγωγή μιας διαφοροποίησης δεδομένου της αρχικής πηγής και τελικού αρχείου ή με την παραγωγή του τελικού αρχείου δεδομένου του αρχικού και της διαφοροποίησης. Η συμπίεση δεδομένων αποτελεί την δημιουργία ένος τελικού αρχείου βάση του αρχικού, ενώ η αποσυμπίεση περιλαμβάνει την δημιουργία του αρχικού βάση του τελικού αρχείου. Έτσι λοιπόν η συμπίεση δεδομένων μπορεί να εκληφθεί σαν τεχνική διαφοροποίησης δεδομένων ανάμεσα στο κενό αρχείο και το συμπιεσμένο. Αυτό αποτελεί το ίδιο σαν να εκλαμβάνουμε την απόυτη εντροπία (που σχετίζεται με την συμπίεση δεδομένων) ως μια ειδική περίπτωση σχετικής εντροπίας (που σχετίζεται με την διαφοροποίηση δεδομένων) χωρίς αρχικά δεδομένα.

 

Πίνακας 1. Συγκριση τεχνικών συμπιέσων ανα τύπο δεδομένων

Πήγη: Διαδραστικές εφαρμογές πολυμέσων, Φράνκα Παντάνο-Ρόκου, Εκδόσεις Κριτική, σελίδα 91

 

1.2 – Συμπίεση Εικόνας (Image compression)

 

1.2.1. – Γενικά

 

Η συμπίεση στατικής εικόνας αποτελεί μια εφαρμογή της συμπίεσης δεδομένων σε ψηφιακές εικόνες. Κατά συνέπεια ο στόχος είναι η μείωση του όγκου δεδομένων της εικόνας έτσι ώστε να είναι δυνατή η αποθήκευση και μετάδοση των δεδομένων κατά αποδοτικό τρόπο. Η τεχνικής συμπίεσης εικόνας δύναται να περιλαμβάνουν απώλεια ή μη της πληροφορίας. Μη απωλεστικές τεχνικές συμπίεσης εικόνας επιλέγονται κατα προτίμηση σε ιατρικές εφαρμογές, τεχνική σχεδίαση, εικονίδια ή κομικ. Η επιλογή αυτή γίνεται λόγω του οτι στις τεχνικές αυτές, ειδικά όταν έχουν να κάνουν με χαμηλές αναλύσεις, παρουσιάζουν εμφανή σφάλματα συμπίεσης. Επίσης προτιμώνται για περιεχόμενο υψηλής αξίας όπως ιατρικές σαρρώσεις ακτινογραφιών που προορήζονται και αρχειοθέτηση. Σε αντίθεση απωλεστικές τεχνικές συμπίεσης είναι ιδανικές για κωδικοποίηση φυσικών εικόνων όπως φωτογραφίες σε εγαρμογές όπου η απώλεια της πιστότητας είναι αποδεκτή έτσι ώστε να επιτευχθεί σημαντική μείωση του όγκου δεδομένων. Η τεχνική απωλεστικής συμπίεσης όπου παράγη μη ορατές διαφορές με την αρχική εικόνα ονομάζεται οπτικά μη απωλεστική (visually lossless).

 

Σχήμα 1. Συμπίεση / Αποσυμπίεση εικόνας

Πηγή: http://www.jiscdigitalmedia.ac.uk/crossmedia/advice/file-formats-and-compression/

 

Μεθόδοι μη απωλεστικής συμπίεσης (lossless image compression) :

 

  • Run-length encoding – μέθοδος που χρησιμοποιείται εξ ορισμού στις εικόνες PCX και μια απο τις πιθανές στις εικόνες BMP, TGA, TIFF
  • DPCM και Προγνωστική Κωδικοποίηση (Predictive Encoding)
  • Κωδικοποίηση Εντροπίας (Entropy Encoding)
  • Προσαρμοστικοί αλγόριθμοι (Adaptive dictionary algorithms) όπως στο LZW – που χρησιμοποιείται στο GIF και TIFF
  • Αποπληθωριστική κωδικοποίηση (Deflation) – χρησιμοποιείται στις εικόνες PNG, MNG και TIFF
  • Αλυσιδωτοί Κώδικες (Chain codes)
  • Μεθόδοι απωλεστικής συμπίεσης (lossy image compression) :
  •  Μείωση της χρωματικής απόστασης (color space) στις πιο συνιθισμένες παλλέτες χρωμάτων στην εικόνα. Το επιλεγόμενα χρώματα καθορίζονται στην παλέττα χρωμάτων στην επικεφαλίδα (header) της εικόνας. Κάθε εικονοστοιχείο αποτλεί μια παραπομπή στον κατάλογο χρωμάτων στην παλέττα. Η τεχνική αυτή μπορεί να συνδιαστεί με τις τεχνική προσθήκης θορύβου (dithering) ώστε να αποφευχθεί η απώλεια χρωματικών επιπέδων (posterization).
  • Μειώση ανάλυσης χρώματος και φωτινότητας (Chroma subsampling). Η τεχνική αυτή εκμεταλεύεται το γεγονός οτι το ανθρώπινο μάτι εκαλαμβάνει με μεγαλύτερη ακρίβεια μικρές αλλαγές στην φωτινότητα παρά στο χρώμα, ετσι γίνεται μια εξισορρόπηση  ή ακόμη μείωση της χρωματικής πληροφορίας της εικόνας.
  • Κωδικοποίηση μετασχηματισμού (Transform coding). Η τεχνική αυτή είναι αρκετά συνηθισμένη και χρησιμοποιεί τον μετασχηματισμό Fourier (Fourier-related transform) όπως το DCT ή τον μετασχηματισμό κύμματος (wavelet transform), ακολουθούμενη απο κβαντοποίηση (quantization) καθώς και κωδικοποίηση εντροπίας (entropy coding).
  • Μορφοκλασματική Συμπίεση (Fractal compression).

 

Η βέλτιστη ποιότητα εικόνας σε ένα συγκεκριμένο ρυθμό δεδομένων (bit-rate) αποτελεί τον κύριο στόχο της συμπίεσης εικόνας. Ωστόσο, υπάρχουν και άλλες σημαντικές παραμέτροι των τεχνικών συμπίεσης εικόνας. Η κλιμάκωση (scalabillity) αναφέρεται στην απώλεια ποιότητας κατά την επεξεργασία της ακολουθίας των δεδομένων του αρχείο (χωρίς συμπίεση ή αποσυμπίεση). Άλλες ονομασίες για την τεχνική αυτή είναι η προοδευτική κωδικοποίηση (progressive coding) ή εμφωλευμένες σειρές δεδομένων (embedded bitstreams). Επίσης η κλιμάκωση χρησιμοποιείται σε μη απωλεστικές τεχνικές συμπίεσης συνήθως στην μορφή των κατακερματισμένων σαρρώσεων εικοστοιχείων (coarse-to-fine pixel scans). Ακόμη είναι αρκετά χρήσιμη στην προεπισκόπηση εικόνων καθώς μεταφορτώνονται σε μια ιστοσελίδα ή για την πρόσβαση σε κλιμακούμενη  ποιότητα π.χ. βάσεις δεδομένων.

 

Μορφές κλιμάκωσης (scalability):

 

  • Προοδευτικής ποιότητας ή προοδευτικής στρώσης (Quality progressive) : Η ροή δεδομένων προσδιορίζει επιτυχώς την απανασύνθεση της εικόνας
  • Προοδευτικής ανάλυσης (Resolution progressive) : Αρχικά κωδικοποιείται εικόνα σε χαμηλή ανάλυση,  έπειτα κωδικοποιείται σε υψηλότερες αναλύσεις.
  • Προοδευτική συνιστοσών (Component Progressive) : Πρώτα κωδικοποιείται το γκρι, έπειτα τα υπόλοιπα χρώματα.

 

Κωδικοποίηση ορισμένης περιοχής (Region of interest coding) : Συγκεκριμένες περιοχές της εικόνας κωδικοποιούνται σε υψηλότερη ποιότητα σε σχέση με άλλες. Αυτή η τεχνική μπορεί να συνδιαστεί με τεχνικές κλιμάκωσης (κωδικοιποιώντας τις περιοχές αυτές πρώτα και ύστερα τις υπόλοιπες).

 

Δια-πληροφορία (Meta Information) : Συμπιεσμένα δεδομένα μπορούν να περιέχουν πληροφορία για την εικόνα όπου χρησιμεύουν για την κατηγοροποιήση της, εύρεση ή κατά την περιήγηση εικόνων.  Τέτοιου είδους πληροφορία δύναται να περιλμβάνει πληροφορία όσο αναφορά το χρώμα, την υφή, μικρές φωτογραφίες προεπισκόπησης καθώς και πληροφορίες για τον δημιουργό ή τα πνευματικά δικαιώματα της εικόνας.

 

Επεξεργαστική Ισχύς  : Ανάλογα με τον αλγόριθμο συμπίεσης εικόνας που επιλέγεται, υπάρχει ανάλογη απαίτηση επεξεργαστικής ισχύος κατά την συμπίεση/αποσυμπίεση. Ορισμένοι αλγόριθμοι υψηλής συμπίεσης έχουν ιιδιαίτερα μεγάλες επεξεργαστικές απαιτήσεις.

Γενικά η ποιότητα της τεχνικής συμπίεσης μετριέται συχνά με το μέγιστο της αναλογίας σήματος προς θόρυβο (Peak singal to noise ratio). Εκφράζει το μέγεθος του θορύβου που εισάγεται κατά την απωλεστική συμπίεση μιας εικόνας. Ωστόσο, η αντικειμενική σκοπιά ενός  παρατηρητή είναι εξίσου σημαντική, ίσως απο τις σημαντικότερες παραμέτρους.

 

Ιστορικά Στοιχεία : Μια ασυμπίεστη ψηφιογραφική εικόνα (Bitmap) μπορεί να έχει, ανάλογα με την ανάλυση της, πολύ μεγάλο μέγεθος. Για παράδειγμα, μια εικόνα σε ανάλυση 1024×768 έχει μέγεθος 2,25MB, καταλαμβάνοντας αντίστοιχο χώρο σε ένα μέσο αποθήκευσης, όπως σε ένα σκληρό δίσκο ή μια κάρτα μνήμης, ή απαιτώντας μεγάλο χρόνο προκειμένου να μεταφορτωθεί από ένα χρήστη του Διαδικτύου με αργή σύνδεση. Το μέγεθος έπρεπε να μειωθεί χωρίς ιδιαίτερη απώλεια ποιότητας. Έτσι, ήταν απαραίτητο να δημιουργηθεί κάποιο πρότυπο για την συμπίεση των εικόνων. Την δημιουργία αυτού του προτύπου ανέλαβε η ομάδα JPEG. Η ομάδα δημιουργήθηκε το 1986 και το πρότυπο το 1992. Το πρότυπο αυτό ονομάστηκε, επίσημα, ISO 10918-1 το 1994.

 

1.2.2 – Μη απωλεστική συμπίεση εικόνας (Lossless image compression)

 

Αν στην πλειοψηφία των περιπτώσεων, η συνήθης αποθήκευση των φωτογραφιών μας σε format JPEG (στη ρύθμιση μέγιστης ποιότητας) επαρκεί γα τις ανάγκες μας, υπάρχουν ορισμένες φορές που κρίνουμε ότι πρέπει να αποθηκεύσουμε κάποιες φωτογραφίες χωρίς την παραμικρή απώλεια πληροφορίας. Τέτοιες περιπτώσεις περιλαμβάνουν φωτογραφίες από φωτογραφικές μηχανές ή μηχανές σάρρωσης που κατά την λήψη δεν εφαρμόζουν απωλεστική συμπίεση αλλά δίνουν π.χ. αρχεία RAW και θέλουμε να τις αποθηκεύσουμε στη μέγιστη δυνατή ποιότητα, ή φωτογραφίες που μετά από κάποια επεξεργασία θέλουμε να τις αποθηκεύσουμε με την προοπτική περαιτέρω επεξεργασίας. (Σε μια τέτοια περίπτωση διαδοχικές απωλεστικές συμπιέσεις JPEG θα επέφεραν αθροιστικά σημαντική μείωση ποιότητας). Η μη χρήση κάποιας μεθόδου συμπίεσης είναι γενικά ασύμφορη απο πλευράς κόστους και αποθηκευτικού χώρου, θα εξετάσουμε  format αποθήκευσης εικόνας που χρησιμοποιούν μη απωλεστικούς αλγόριθμους συμπίεσης.

 

Οι πιο διαδεδομένοι από αυτούς είναι:

  • RLE (Run Length Encoding): Χρησιμοποιείται από το Adobe Photoshop  και από αρκετά διαδεδομένα format αρχείων των Windows.
  • LZW (Lempel-Zif-Welch): Μέθοδος που χρησιμοποιείται στα format TIFF, PDF, GIF, και στα αρχεία της γλώσσας PostScript. Είναι πιο αποτελεσματική για τη συμπίεση εικόνων με μεγάλες περιοχές του ίδιου χρώματος.
  • ZIP: Μέθοδος που χρησιμοποιείται στα format PDF and TIFF. Και αυτή είναι πιο αποτελεσματική για τη συμπίεση εικόνων με μεγάλες περιοχές του ίδιου χρώματος.

 

Θα επικεντρώσουμε την προσοχή μας σε ένα διαδεδομένο format αποθήκευσης το TIFF, το οποίο μας επιτρέπει την επιλογή του αλγόριθμου συμπίεσης που θα χρησιμοποιηθεί, στο format JPEG2000 που προσφέρει επίσης μη απωλεστική συμπίεση και σε μια ενδιαφέρουσα εφαρμογή της θεωρίας των fractals στη συμπίεση αρχείων εικόνας, την συμπίεση Genuine Fractals Pro.

 

Αποθήκευση σε αρχεία TIFF (Tagged Image File Format) : To Tiff είναι ένα ευέλικτο format αποθήκευσης αρχείων με κύριο χαρακτηριστικό την πλήρη συμβατότητα με όλες τις εφαρμογές σχεδίασης, επεξεργασίας εικόνας και σελιδοποίησης. Επίσης πρακτικά όλοι οι επιτραπέζιοι σαρωτές εικόνας (scanners) επιτρέπουν την αποθήκευση των εικόνων που σαρώνουν σε αυτή τη μορφή. Ως προς τον αλγόριθμο συμπίεσης το TIFF (με αποθήκευση από το Photoshop) επιτρέπει την επιλογή μεταξύ μη χρήσης συμπίεσης, ή συμπίεση κατά ZIP, LZW και JPEG. (Επισημαίνεται ότι αν είναι επιθυμητή η συμβατότητα με άλλες εφαρμογές προβολής ή επεξεργασίας εικόνας, θα πρέπει να επιλέγεται συμπίεση LZW). Άλλες δυνατότητες του format αυτού, που ξεφεύγουν από το πλαίσιο του παρόντος περιλαμβάνουν την αποθήκευση layers, ή πολλών αντιγράφων της εικόνας σε διαφορετικές αναλύσεις. Για να έχουμε πρόσβαση στις εξειδικευμένες επιλογές αποθήκευσης για το TIFF από το Adobe Photoshop 6 θα πρέπει να επιλέξουμε το “Enable advanced TIFF save options” στο τμήμα “Saving Files”, (Μενού Edit, Preferences)

 

Αποθήκευση με συμπίεση Genuine Fractals: Πρόκειται για μια μέθοδο που αναλύει ένα αρχείο εικόνας  με μεθόδους που βασίζονται στη θεωρία των fractals, και αντικαθιστά τα pixels με μια μαθηματική δομή. Στη συνέχεια η επεξεργασία αυτή μπορεί να χρησιμοποιηθεί για την αποθήκευση της εικόνας μη απωλεστικά με λόγους συμπίεσης το λιγότερο 2:1 και μέχρι 10:1 ή απωλεστικά με λόγους συμπίεσης το λιγότερο 5:1 και μέχρι 30:1 καθώς και για τη μεγέθυνση ή τη σμίκρυνση της εικόνας με πολύ καλά αποτελέσματα. Είναι διαθέσιμη σε μορφή plugin για το Adobe Photoshop  και συμβατές εφαρμογές καθώς και σαν ανεξάρτητη εφαρμογή.

 

Αποθήκευση με συμπίεση JPEG2000: Αποτελεί έναν νέο αλγόριθμο συμπίεσης εικόνας, που οι προδιαγραφές του αποτελούν πρότυπο του  International  Standards Organization (ISO). Σχεδιάστηκε με στόχο να προσφέρει καλύτερη σχέση ποιότητας / οικονομίας χώρου, σε σχέση με το πρότυπο JPEG, αλλά και τη δυνατότητα μη απωλεστικής συμπίεσης, Αυτή η δυνατότητά του είναι που θα μελετηθεί εδώ. Τα αρχεία που παράγονται έχουν κατάληξη .jp2. Υπάρχουν διαθέσιμα Plugin διαφόρων εταιριών για τις πιο γνωστές εφαρμογές προβολής και επεξεργασίας εικόνας:.

Pegasus

Leadtools

Luratech

 

1.2.3 – Απωλεστική συμπίεση εικόνας (Lossy image compression)

 

Η απωλεστικής συμπίεση εικόνας αποτελεί μια μέθοδο όπου η συμπίεση και η μετεπειτα αποσυμπίεση παράγει δεδομένα που διαφέρουν απο τα αρχικά, αλλά αρκετά όμοια ώστε να μην παύουν να είναι χρηστικά. Η απωλεστική συμπίεση εικόνας χρησιμοποιείται κατά κόρον στην συμπίεση εικόνας με πιο διαδεδομένους τύπους αρχείων όπως JPEG και wavelets. Κατά την έναρξη λειτουργίας του παγκόσμιου ιστού στην εμπορική του μορφή σαν world wide web, οι ιστοσελίδες αποτελούνταν απο κείμενο, σχηματοποιήσεις του και εικόνες.

 

JPEG: Το πρότυπο συμπίεσης JPEG αποτελεί τον πιο διαδεμένο τύπο αρχείων εικόνων με χρήση τεχνικών απολεστικής συμπίεσης. Το όνομα JPEG σχηματίζονται απο τα αρχικά του όνοματος της ομάδας ανάπτυξης του Joint Photographic Experts Group όπου έπαιξε καθοριστικό ρόλο στην διαμόρφωση και τελικοποίση του. Σχεδιάστηκε για συμπίεση ενχρωμων ή ασπρόμαυρων εικόνων του φυσικού κόσμου και τοπίων. Λειτούργει αρκετά αποδοτικά σε φωτογραφίες, φωτορεαλιστική ζωγραφική και σε παρόμοιες εφαρμοφγές. Γενικά όμως δεν ενδίκνυται για γραμμικές εικόνες, γραμματοσειρές, απλά και διανυσματικά σκίτσα. Το JPEG κωδικοποιεί μόνο στατικές εικόνες, όπου για κινούμενη εικόνα (video) γίνεται χρήση ενός άλλου προτύπου ενονόματι MPEG.

 

Αποτελεί μια απωλεστική τεχνική συμπίεσης, όπου σημαίνει οτι η τελική εικόνα δεν είναι τελείως όμοια με την αρχική (υπάρχουν και μη απωλεστικού αλγόριθμοι συμπίεσης , ωστόσο το JPEG επιτυγχάνει μεγαλύτερους λόγους συμπίεσης σε σχέση με τους προηγούμενους). Είναι σχεδιασμένο να εκμεταλεύεται τους οπτικούς περιορισμούς του ανθρώπου ματιού, κυριώς την αδυναμία αντίληψης μικρών χρωματικών διακυμάνσεων σε σχέση με διακυμάνσεις φωτινότητας. Λόγω των παραπάνω το JPEG προορίζεται κυριώς για συμπίεση εικόνων που έχουν τον άνθρωπο εως τελικό αποδέκτη. Έαν θέλουμε υπολογιστική ανάλυση των εικόνων μας, τα μικρά σφάλματα που παράγει το JPEG είναι πιθανό να προκαλέσουν προβλήματα, ακόμη και έαν δεν είναι εμφανή εμ γυμνό μάτι. Ένα πολύ χρήσιμο χαρακτηριστικό του JPEG αποτελεί η χειροκίνητη διαρύθμιση του βαθμού απωλεστικότητας από τις παραμέτρους συμπίεσης. Αυτό σημαίνει ότι ο παραγωγός της εικόνας μπορεί να εξισοροπήσει το μέγεθος του τελικού αρχείου συναρτήσει της τελικής ποιότητας. Είναι δυνατόν να δημιουργήσουμε υπερβολικά μικρά αρχεία έαν δεν μας ενδιαφέρει η χαμηλή ποιότητα: χρήσεις όπως δημιουργία καταλόγων εικόνων. Έαν απο την άλλη δεν είμαστε ικανοποιημένοι με την τελική ποιότητα βάση της προκαθορισμένης ρύθμισης ποιότητας μπορούμε απλά να αυξήσουμε την ποιότητα μέχρι να είναι ικανοποιητική και να συμβιβαστούμε με έναν μικρότερο βαθμό συμπίεσης.

 

Ένα ακόμη πολύ χρήσιμο χαρακτηριστικό γνώρισμα του JPEG αποτελεί η δυνατότητα μείωσης του χρόνου συμπίεσης έναντι της τελικής ποιότητας εικόνας, με την χρήση ταχέων προσεγγίσεων ακριβείας  προς τους υπολογισμούς που απατούνται. Υπάρχει δυνατότητα αντίστροφης εκτέλεσης: μειωμένη ποιότητα έναντι ταχύτητα αλλά συνήθως δεν υπάρχει ανάγκη για τέτοια θυσία όταν συμπίεζουμε ένα αρχείο

 

Σχήμα 3. Συμπίεση και αποσυμπίεση εικόνας βάση του προτύπου JPEG

Πηγή: http://www.dspdesignline.com/201202637?printableArticle=true

 

Γιατί να χρησιμοποίσουμε το πρότυπο συμπίεσης JPEG ;

 

Υπάρχουν 2 καλοί λόγοι: για να παράγουμε μικρότερα αρχεία εικόνας και να τα αποθηκεύουμε σε 24bit βάθος χρώματος αντί για 8bit.

 

Η δημιουργία μικρότερων αρχείων εικόνων αποτελεί μια πολύ βασικό δυνατότητα κατά την μετάδοση τους σε δίκτυα και στην δημιουργία καταλόγων εικόνων. Η δυνατότητα συμπίεσης μιας εικόνας μεγέθους 2 Mbyte πλήρων χρώματων, σε 100 Kbytes είναι μεγάλη διαφορά κατά την αποθήκευση της στο δίσκο ή κατά την μετάδοση της. Μια JPEG εικόνα έυκολα μπορεί να πετύχει λόγους 20:1 με πλήρες χρώματα. Κατά την σύγκριση του  GIF και toy JPEG, ο λόγος εικόνας είναι συνήθως 4:1.

 

Η διάρκεια αποκωδικοποίησης και προβολής μιας εικόνας είναι μεγάλυτερη σε σχέση ενός απλούστερου προτύπου όπως το GIF. Έτσι η χρήση του JPEG είναι απαραίτητη για συνολική εξοικονόμιση χρόνου και χώρου αποθηκεύσης. Κατά συνέπεια γίνεται πιο γρήγορα και οικονομικά η μετάδοση και αποθήκευση της εικόνας. Στην περίπτωση που η μετάδοση της γίνεται μέσω ενός δικτύου εκπομπής, ο χρόνος αυτός είναι μεγαλύτερος απο τον χρόνο που απαιτείται για την αποσυμπίεση του δοσμένου αρχείου, τότε δεν υπάρχει κάποιο πραγματικό όφελος.

 

Το δεύτερο βασικό πλεονέκτημα του JPEG είναι ότι αποθηκεύει πλήρες χρωματική πληροφορία: 24 bits ανά pixel (16 εκατομύρια χρώματα). Το GIF, το άλλο φορμά εικόνας που χρησιμοποιείται ευρέως στο διαδίκτυο, μπορεί να αποθηκεύσει μόνο μέχρι 8 bits ανά pixel (256 ή λιγότερα χρώματα). Το πρότυπο GIF συναντάται στα φτηνά υπολογιστικά συστήματα. Απο την άλλη το hardware πλήρους χρώματος γίνεται όλο και πιο φτηνό, κατά συνέπεια το JPEG απεικονίζεται καλύτερα σε σχέση με το GIF στα συστήματα αυτά. Μέσα σε λίγα χρόνια το GIF θα εξαφανιστεί όπως αντίστοιχα πρότυπα ασπρόμαυρου MacPaint. Επιπλεόν το πρότυπο JPEG είναι αρκετά πιο χρήσιμο για την ανταλλαγή εικόνων ανάμεσα σε χρήστες με διαφορετικό hardware αποκεικόνησης κάθε φορά, καθώς αποφεύγει την προεπιλογή του αριθμού χρωμάτων που θα προβληθούν. Έτσι λοιπόν τον JPEG αποτελεί ένα ιδανικό πρύτυπο εικόνας για διευρημενες χρήσης όπως στον Παγκόσμιο Ιστό π.χ.

 

Ο όρος “Απωλεστική Συμπίεση Εικόνας” φοβίζει αρκετούς, κανένα πρότυπο ψηφιακής εικόνας δεν μπορεί να αναπαραστήσει όλη την πληροφορία που δέχεται το ανθρώπινο μάτι. Στην πράξη το πρότυπο JPEG έχει πολύ λιγότερη απώλεια πληροφορίας σε σχέση με το GIF. Το βασικότερο μειονέκτημα των τεχνικών απωλεστικής συμπίεσης είναι ότι κατά την επαναλαμβανόμενη συμπίεση και αποσυμπίεση εικόνας υπάρχει σταδική απώλεια ποιότητας κάθε φορά. Αυτό αποτελεί ένα βασικό εμπόδιο για ορισμένες εφαρμογές αλλά σε άλλες περιπτώσεις είναι απλά αμελητέο.

 

Σχήμα 4. 8×8 DCT transformation

Πηγή: http://www.dspdesignline.com/201202637?printableArticle=true

 

Ποιότητα συμπίεσης του JPEG

 

Στις εικόνες πλήρους χρώματος , τα ασυμπίεστα δεδομένα είναι συνήθως 24 bit ανά pixel . Οι πιο γνωστές μεθόδοι απωλεστικής συμπίεσης εικόνας μπορούν να συμπιέσουν αντίστοιχα δεδομένα με λόγο 2:1 κατά μέσο όρο. Το JPEG τυπικά μπορεί να επιτεύξει συμπίεση από 10:1 μέχρι και 20:1 χωρίς εμφανή απώλεια ποιότητας, κάνοντας τις αποθηκευτικές απαιτήσεις να κυμαίνονται στα 1 με 2 bit ανά pixel. Λόγοι συμπίεσης  από 30:1 μέχρι και 50:1 είναι δυνατοί με μικρά σφάλματα και απώλειες στην ποιότητα. Για χρήσεις όπου η ποιότητα δεν είναι αναγκαία όπως εικόνες προεπισκόπησης (previews) και δημιουργία καταλόγων εικόνων (indexes), συμπίεση με λόγο 100:1 είναι αρκετά ρεαλιστική. Μια εικόνα με συμπίεση 100:1 με χρήση του JPEG καταλαμβάνει τον ίδιο χώρο σε σύγκριση με εικόνα προεπικσόπησης πλήρους χρωμάτων σε κλίμακα 1/10, αλλά παρόλα αυτά διατηρεί περισσότερη πληροφορία σε σχέση με αυτήν.

 

Σε σχέση με την αντίστοιχη έκδοση του GIF της ίδιας εικόνας, θα αρχίζαμε με την περικοπή αρκετής χρωματικής πληροφορίας ώστε να τα φέρουμε στην κλίμακα των 256 χρωμάτων. Το GIF έχει επιπλέον ενσωματωμένη την τεχνική συμπίεσης “LZW”, παρόλο που το πρότυπο αυτό δεν λειτουργεί καλά σε τυπική φωτογραφική πληροφορία: ο μέγιστος λόγος συμπίεσης είναι 5:1. Το LWZ λειτουργεί πιο αποδοτικά σε απλούστερες εικόνες όπως γραμμικά σχέδια και animation, γιαυτό το GIF γενικά χρησιμοποιείται κυριώς σε αυτές τις περιπτώσεις. Όταν ένα αρχείο JPEG δημιουργείται από φωτογραφικά δεδομένα πλήρους χρώματος, με αρκετά υψηλή ρύθμιση ποιότητας έτσι ώστε να μην υπάρχει εμφανή απώλεια στην τελική ποιότητα, το JPEG είναι συνήθως 4 με 5 φορές μικρότερο σε σχέση με ένα αρχείο GIF φτιαγμένο απο την ίδια αρχική φωτογραφική πληροφορία.

 

Οι ασπρόμαυρες εικόνες δεν συμπιέζονται σε τόσο μεγάλο βαθμό. Το ανθρώπινο μάτι είναι πιο ευαίσθητο στις διακυμάνσεις φωτινότητας παρά στις διακυμάνσεις χρώματος έτσι το JPEG συμπιέζει σε μεγαλύτερο βαθμό τις διαφορετικές αποχρώσεις παρά τις αλλαγές φωτινότηττας. Ένα ασπρόμαυρο αρχείο εικόνας  JPEG είναι γενικά κατά 10% με 25% μικρότερο σε μέγεθος ασε σχέση με την αντίστοιχη εικόνα πλήρους χρώματος όμοιας οπτικής ποιότητας. Απο την άλλη η ασυμπίεστη ασπρόμαυρη πληροφορία είναι μόνο 8 bit ανά pixel ή το 1/3 του μεγεθούς της χρωματικής πληροφορίας, έτσι ο υπολογιζόμενος λόγος συμπίεσης είναι αρκετά χαμηλότερος.  Το όριο της οπτικά αναγνωρίσιμης απώλειας ποιότγτας είναι περίπου στην συμπίεση 5:1 των ασπρόμαυρων εικόνων.

 

Το ακριβές όριο όπου τα σφάλματα συμπίεσης γίνονται ορατά εξαρτάται από τις συνθήκες προβολής της εικόνας. Όσο μικρότερο είναι το κάθε pixel τόσο πιο δύσκολο είναι να εντοπίσουμε το σφάλμα: στις οθόνες υπολογιστών (70+ εικονοστοιχεία ανά ίντσα) παρά στις εκτυπώσεις υψηλής ανάλυσης χρωμάτων (300+ εικονοστοιχεία ανά ίντσα). Έτσι λοιπόν μια εικόνας υψηλής ανάλυσης μπορεί να υποστεί μεγαλύτερο βαθμό συμπίεσης, το οποίο φυσικά είναι βολικό γιατί το αρχικό μέγεθος της εικόνας είναι αρκετά μεγαλύτερο στην περίπτωση αυτή. Οι λόγοι συμπίεσης που ειπώθηκαν παραπάνω είναι σύνηθες κατά την χρήση οθόνης. Επίσης είναι αξιοσημείωτο ότι το όριο της οπτικά αναγνωρίσιμης απώλειας διαφέρει σημαντικά απο εικόνα σε εικόνα.

 

Πίνακας 2. Συκγκριτικός πίνακας τεχνικών συμπίεσης εικόνας

Πήγη: Διαδραστικές εφαρμογές πολυμέσων, Φράνκα Παντάνο-Ρόκου, Εκδόσεις Κριτική, σελίδα 97

 

1.3 – Συμπίεση κινούμενης εικόνας (Video compression)

 

1.3.1 – Γενικά

 

Με δεδομένη την oλοένα και αυξανόμενη χρήση της ψηφιακής τεχνολογίας, η οποία αντικαθιστά την αναλογική που παραδοσιακά χρησιμοποιείται εδώ και δεκαετίες στις τηλεπικοινωνίες, την τηλεόραση, την ηχογράφηση και αναπαραγωγή της μουσικής αλλά και σε άλλους τομείς, έχει αρχίσει παράλληλα να γίνεται έρευνα και προς την κατεύθυνση της συμπίεσης της ψηφιακής πληροφορίας, με στόχο την οικονομία εύρους φάσματος (bandwidth). Οι λόγοι για τους οποίους είναι όχι απλά χρήσιμη αλλά απαραίτητη η ανάπτυξη αυτών των τεχνικών συμπίεσης δεν είναι ίσως τόσο προφανείς, θα παρατεθούν παρακάτω ορισμένα παραδείγματα που φανερώνουν την επιτακτική ανάγκη για επέκταση της εφαρμογής της ψηφιακής συμπίεσης, τόσο στην εικόνα όσο και στον ήχο (δύο μορφές επικοινωνίας που παράγουν αυξημένο όγκο ψηφιακής πληροφορίας).

 

Eνα κανονικό ασυμπίεστο τηλεοπτικό σήμα PAL καταλαμβάνει ένα bandwidth περίπου 5 MHz. ‘Eστω ότι θέλουμε να το μεταδώσουμε ψηφιακά. Για να μην έχουμε απώλεια πληροφορίας (που μεταφράζεται σε μείωση της ποιότητας της εικόνας) πρέπει σύμφωνα με το θεώρημα Nyquist να κάνουμε τη δειγματοληψία στη διπλάσια συχνότητα, δηλαδή στα 10 MHz. Για να έχουμε επαρκή ευκρίνεια (resolution) πρέπει κάθε δείγμα να έχει τουλάχιστον 8 bits (28=256 επίπεδα κωδικοποίησης). Μέχρι στιγμής έχουμε 10*8=80 Mbits/sec. Αν και ήδη αντιμετωπίζουμε πρόβλημα μετάδοσης σε μία τόσο υψηλή ταχύτητα, το πρόβλημα είναι μεγαλύτερο αν θέλουμε να έχουμε καλύτερη ευκρίνεια, οπότε θα χρησιμοποιήσουμε δείγματα των 16, ή 24 bits και φυσικά μέχρι στιγμής αναφερόμαστε σε ασπρόμαυρη εικόνα. Αν θέλουμε να έχουμε και χρώμα ο όγκος της ψηφιακής πληροφορίας γίνεται τριπλάσιος (αφού κάθε χρώμα σχηματίζεται σα συνδυασμός των τριών βασικών χρωμάτων πράσινο, κόκκινο, μπλέ – μιλώντας πάντα για ασυμπίεστα σήματα). Συνεπώς χρειαζόμαστε τουλάχιστον 3*80=240 Mbits/sec (30 MB/sec).

 

Για να καταλάβει κανείς το μέγεθος του bandwidth που χρειάζεται αρκεί να το συγκρίνει με την ταχύτητα μεταφοράς (transfer rate) δεδομένων από/προς τον επεξεργαστή μέσα σε ένα computer (που γίνεται στις περισσότερες περιπτώσεις με ISA bus) η οποία δεν μπορεί να ξεπεράσει τα 40 Μbit/sec (5 MB/sec) είναι δηλαδή 6 φορές πιο μικρή από όσο χρειαζόμαστε. Ακόμα και με τη χρήση SCSI bus το πρόβλημα παραμένει. Στην περίπτωση των CD/ROM τα πράγματα γίνονται ακόμα πιο δύσκολα αφού αυτά φτάνουν μέχρι 10 Μbit/sec (24 φορές πιο μικρή ταχύτητα). Έτσι παρόλο που είναι δυνατή (αν και πρακτικά ασύμφορη) η μετάδοση του παραπάνω σήματος (π.χ. μέσω δικτύων ΑΤΜ) είναι αδύνατη η αποθήκευση και αναπαραγωγή του.

 

Αλλά δεν είναι μόνο το transfer rate που κάνει αδύνατη την αξιοποίηση της παραπάνω μετάδοσης. Αρκεί να αναλογιστούμε ότι για την αποθήκευση ενός τυπικού κινηματογραφικού film που διαρκεί 90 λεπτά (90*60=5400 δευτερόλεπτα), θα χρειαζόμασταν αποθηκευτικό μέσο ικανό να αποθηκεύσει τα 30*5400=162 GΒ. Δηλαδή πρέπει να χρησιμοποιήσουμε περίπου 65 σκληρούς δίσκους computer, χωρητικότητας 2,5 GΒ (μία τυπική χωρητικότητα για τα σημερινά δεδομένα).

 

Άλλο παράδειγμα που δείχνει το πρόβλημα αποθήκευσης είναι το γνωστό σε όλους μας CD. Εκεί αποθηκεύονται περίπου 75 λεπτά ασυμπίεστου στερεοφωνικού ψηφιακού ήχου με συχνότητα δειγματοληψίας 44.1 KHz και ακρίβεια 16-bit. Δεδομένου ότι έχουμε δύο ανεξάρτητα κανάλια, ο συνολικός όγκος πληροφορίας είναι περίπου 650 MB. Αν όμως το CD χρησιμοποιηθεί για την αποθήκευση ψηφιακού video τότε μπορεί να χωρέσει το πολύ 30 δευτερόλεπτα. Ακόμα και τα νεότερης επινόησης DVD (Digital Video Disk) τα οποία είναι CD με χωρητικότητα 4.7 GB (δηλαδή 7 φορές πιο μεγάλη από το ‘κανονικό’ CD), δεν επαρκούν για την αποθήκευση μιας κινηματογραφικής ταινίας 90 λεπτών ασυμπίεστου ψηφιακού video αφού χρειαζόμαστε τουλάχιστον 35 DVD.

 

Όλα τα παραπάνω κάνουν φανερό ότι υπάρχει πρόβλημα τόσο μετάδοσης όσο και αποθήκευσης του ασυμπίεστου ψηφιακού σήματος video (άρα και του ήχου που το συνοδεύει, παρ’ όλο που καταλαμβάνει πολύ λιγότερο όγκο). Μόνο στην περίπτωση του μουσικού CD το πρόβλημα αποθήκευσης έχει λυθεί και έχει δημιουργηθεί ένα standard που επιτρέπει την αποθήκευση του ήχου σε ψηφιακή ασυμπίεστη μορφή. Ακόμα και σε αυτή την περίπτωση όμως το πρόβλημα μετάδοσης του ήχου ποιότητας CD παραμένει (εδώ εννοούμε τη μετάδοση σε ευρύτερα δίκτυα όπως το Internet ή την τηλεοπτική μετάδοση μέσω δορυφόρων, όπου η ανάγκη για οικονομία bandwidth είναι δεδομένη). Άρα είναι φανερό ότι πρέπει να γίνουν προσπάθειες για τη σημαντική μείωση του όγκου της ψηφιακής πληροφορίας αλλά χωρίς να γίνουν μεγάλοι συμβιβασμοί στην ποιότητα του ήχου και της εικόνας.

 

Πίνακας 3. Σύγκριση προτύπων κωδικοποίησης video βάση των χαρακτηριστικών και εργαλείων τους

Πηγή: http://www.eetimes.com/news/latest/showArticle.jhtml?articleID=184417335&pgno=4

 

1.3.2 – Ιστορική ανασκόπηση μεθόδων συμπίεσης κινούμενης εικόνας

 

1960 – 1970

 

Οι τεχνολογίες συμπίεσης κινούμενης εικόνας έχουν παίξει καθοριστικό ρόλο στα συστήματα τηλεπικοινωνίων και πολυμέσων καθώς το εύρος ζώνης αποτελεί ακόμη κάτι πολύτιμο. Για τον λόγο αυτό η συμπίεση video αποτελεί μια τεχνική υψιστης σημασίας καθώς μειώνει την ποσότητα πληροφορίας που χρείαζεται μια αλληλουχία εικόνων χωρίς την απώλεια της ποιότητας του τελικού αρχείου. Συγχρονες τεχνικές περιλαμβάνουν σύνθετα ηλεκτρονικά κυκλώματα όπου το κόστος παραγωγής τους μπορεί να κρατηθεί σε ανεκτά επίπεδα μόνο με την μαζική παραγωγή των LSI chips. Αυτό σημαίνει ότι υπάρχει ανάγκη προτυποποιησης των τεχνικών συμπιεσης κινούμενης εικόνας. Αρχικά εμφιανίστικαν μεθόδοι συμπεσης κατα το 1960 με την πρωτοεμφάνιση των πρωτων βιντεοτηλεφωνων, τα οποία απαιτούσαν μεγάλο εύρος ζώνης και η εικόνα η οποια ήταν μικρού μεγεθους σε ασπρόμυαρο χρώμα δεν ήταν αρεστά κατά την τηλεσυνδιάσκεψη. Το 1970 επινοήθηκε η εξ-αποστάσεως τηλεσυνδιάσκεψη όπου με την χρήση μια ανεκτής ποιότητας εικόνας των συνομιλητών θα βελτίωνε την επικοινωνία και θα άνοιγε τους δρόμους για υπηρέσιες τέτοιου είδους. Το ενδιαφέρον άρχισε να αυξάνεται με την βελτίωση στην ποιότητα εικόνας και την ψηφιακή κωδικοποίηση.

 

1980 – 1990

 

Με την ευρεια διαθεσιμότητα της ψηφιακής τεχνολογίας το 1980, ο COST211 κωδικοποιητής/αποκωδικοποιητής εικόνας, βασισμένος στην διαμορφωση παλμικής κωδικοποιήσης DPCM (τεχνολογία μου χρησιμοποιείται ακόμη στα αρχεία CD, τα PCM/wav αρχεία), προτυποποιηθηκε απο την επιτροπή CCITT, με το όνομα προτύπου H.120 . Αυτός ο κωδικοποιητής στοχεύει σε ρυθμούς μετάδοσης των 2Mbit στην Ευρώπη και 1.544 Mbit στις ΗΠΑ, κατάλληλους για συσχέτηση με τα επίπεδα ψηφιακής ιεραρχίας. Ωστόσο η ποιότητα εικόνας, παρόλλο που είχε ικανοποιητική ευκρίνια (λόγω της φύσης του DPCM που μεταχειρίζεται ένα-ένα τα εικονοστοιχία) υστερούσε κατά την χρονική ροή. Έγινε ξεκάθαρο με την πάροδο του χρόνου ότι για να αυξηθεί η ποιοτητα εικόνας, χωρίς να γίνεται υπέρβαση ένας συγκεκριμένου εους ζώνης , θα έπρεπε κάθε εικονοστοιχείο να κωδικοποιείται με λιγότερο απο ένα bit. Αυτό κατέστει δυνατό μόνο με την ομαδοποίηση εικονοστοιχείων, όπου αυτή η τεχνική οδήγησε στην ανάπτυξη κωδικοποιήτων ομάδων-εικονοστοιχείων. Προς το τέλος της δεκαετία του 1980, μελέτες πρότειναν την σύσταση των 15 block για την χρήση σε τηλεσυνδιασκέψεις στην επιτροπή ITU-T, ενώ αυτή των 14 blocks βασιζόταν στην τεχνική Discrete Cosine Transform (DCT) και μόνο μία στην Vector Quantization (VQ). Η αντικειμενική ποιότητα των δειγμάτων video που εξετάσθηκαν δεν παρουσιάζαν καμία διαφορά μεταξύ των δυο τεχνικών κωδικοποιησης. Παράλληλα με την έρευνα της ITU-T το 1984 με 1985, η ομάδα Joint Photographic Experts Group (JPEG) ασχολήθηκε επίσης με την συμπίεση στατικών εικόνων. Επέλεξαν το DCT ως την κύρια τεχνική συμπίεσης, κυριώς λόγω του ενδεχομένου της προοδευτικής μετάδοσης της εικόνας. Η απόφαση της ομάδας αυτής, αναμφισβήτητα επιρέασε την ομάδα ITU-T υπερ της τεχνικής DCT έναντι της VQ. Μέχρι τότε υπήρχε μια δραστηριότητα σε παγκόσμια βάση στην εφαρμογή της DCT σε κυκλώματα ψηφιακής επεξεργασίας σήματος (DSPs).

 

1990+

 

Προς το τέλος του 1980 κατέστει ξεκάθαρο οτι ο κωδικοποιητής της ομάδας ITU-T που προτάθηκε, θα χρησιμοποιούσε έναν συνδιασμό της τεχνικής interframe DPCM για την επίτευξη ελάχιστης καθυστέρησης καθώς και την τεχνική DCT. Ο κωδικοποιητής παρουσίασε σημαντική βελτίωση στην ποιότητα εικόνας έναντι του H.120 . Στην πράξη η ποιότητα εικόνας στις εφαρμογές τηλεσυνδιάσκεψης ήταν σε ανεκτό επίπεδο στα 384 kbps ενώ για υψηλότερη ευκρίνια στο 1 Mbit . Αυτή η προσπάθεια επεκτάθηκε σε συστήματα με πολλαπλάσια των 64 kbps (μεχρι 30 πολ/σια). Ο τελικός ορισμός του προτύπου ολοκληρώθηκε προς το τέλος του 1989 και ονομάστηκε H.261, και η τεχνική κωδικοποίησης ονομάζεται ‘p x 64’ , όπου το p αποτελεί έναν ακέραιο ανάμεσα στο 1 και 30. Στις αρχές του 1990, η ομάδα Motion Picture Experts Group (MPEG) άρχισε να μελετά συστηματικά τεχνικές αποτελεσματικής αποθήκευσης κινούμενης εικόνας, όπως οπτικούς δίσκους (CD-ROMs). Κυριώς στόχευαν στην ανάπτυξη ενός video codec ικανό να συμπιέσει κινούμενη εικόνα με δραστικές διακυμάνσεις όπως ταινίες, σε σκληρούς δίσκους, με αντίστοιχες επιδόσεις αντίστοιχες με αυτές του VHS. Στην πράξη η αρχιτεκτονική του H.261 γενιά του MPEG που ονομάστηκε πρότυπο MPEG-1, ήταν ικανό να πετύχει τον σκοπό αυτό στα 1.5Mbit. Κατά την αποθήκευση video, καθυστερήσεις στην κωδικοποίηση/αποκωδικοποίηση δεν αποτελούν καθοριστικό φραγμό, καθιστούν δυνατή την ανοχή εως προς την αποδοτικότητα της συμπίεσης. Για παράδειγμα στην χρονική ροή η τεχνική DCT προτιμάται σε σχέση με την DPCΜ. Η τελευταία χρησιμοποιείτο μόνο μετά απο αρκετές βελτιώσεις στην πρόβλεψη κίνησης, ώστε η συμπίεση κίνησης να εξαλείφει την χρνονική συσχέτιση. Αυτό το χαρακτηριστικό υοθετήθηκε αργότερα στο MPEG-1. Σήμερα οι αποκωδικοποιητές/λογισμικά αναπαραγωγής MPEG-1 είναι ευρέως διαθέσιμα στα πολυμεσικά υπολογιστικά συστήματα. Αποκωδικοποιητές MPEG-1 συναντιώνται σαν τυπωμένα κυκλώματα σε κάρτες επεκτάσεως (MPEG magic cards), καθώς και στην μορφή λογισμικού που είναι διαθέσιμο με την διάθεση λειτουργικών συστημάτων (Windows, Mac) ή σαν πολυμεσικών επεκτάσεων. Στους βασικούς video codecs, μόνο οι αποκωδικοποιητές πρέπει να πληρούν αυστηρες προδιαγραφές, το λογισμικό κωδικοποιήσης παρουσίαζε μεγάλη ευελεξία όπου ενδέχεται να βελτιώσει τις επιδόσεις του MPEG-1 στο μέλλον.

 

Αρχικά το MPEG-1 ήταν βελτιστοποιημένο για τυπικές εφαρμογές όπως non-interlaced video των 25 καρέ ανά δευτερόλεπτο (fps) κατά το Ευρωπαικό πρότυπο και στα 29,9 fps στις ΗΠΑ, μέσα στο εύρος των 1.2 και 1.5 Mbps για ποιότητα εικόνας αντίστοιχη των οικιακών συστημάτων αναπαραγωγής (VHS), μπορεί κάλλιστα να χρησιμοποιηθεί για μεγαλύτερους ρυθμούς δεδομένων και ανάλυσης εικόνας. Πρώιμες εκδόσεις του MPEG-1 για non-interlaced video έφεραν την ονομασία MPEG1+. Η νέα γενιά του MPEG, ονομάσθηκε  MPEG-2 και σύντομα υοθετήθηκε απο ραδιοτηλεοπτικούς φορείς, οι οποίοι αρχικά δίσταζαν να κάνουν χρήση της συγκεκριμένης κωδικοποίησης. Το MPEG-2 κωδικοποιεί για interlated video σε ρυθμούς δεδομένων της τάξης των 4 με 9 Mbps και βρίσκεται σε τροχιά που θα επηρεάσει δραστικά εφαρμογές όπως μετάδοση επίγειας ψηφιακής τηλεόρασης, δορυφορικής τηλεόρασης, ενσύρματης ψηφικής τηλεόρασης, ψηφιακών δίσκων (DVD) κ.α. Οι ραδιοτηλεοπτικοί φορείς έχουν αρχίσει να κάνουν χρήση του MPEG-2 για την κωδικοποίηση των προγραμμάτων απο τις αρχές του 1980. Μια ελαφρώς διαφορετική εκδοχή με αυτή του MPEG-2 ενονόματι MPEG-3, χρησιμοποιείται για την κωδικοποίηση των σημάτων τηλεόρασης υψηλής ευκρίνιας (HD TV), αλλά εφόσον το MPEG-2 μπορούσε να πετύχει τον σκοπό αυτό τα χαρακτηριστικά του MPEG-3 ενσωματώθηκαν σε αυτό. Προβλέπεται το 2014 ότι οι μεταδόσεις σε NTSC στις ΗΠΑ θα σταματήσουν και θα αντικατασταθούν με το πρότυπο MPEG-2 για μετάδοση επίγιας ψηφιακής τηλεόραση υψηλής ευκρίνιας.

 

Σχήμα 5. Ιστορική εξέλιξη προτύπων συμπίεσης video

Πηγή: http://blog.radvision.com/videooverenterprise/2008/06/03/the-babel-fish-proves-video-conferencing-does-exist/

 

1.3.3 – Το πρότυπο συμπίεσης MPEG

 

Στο ενότητα αυτή αυτό θα παρουσιάσουμε τις λεπτομέρειες του πρωτοκόλλου MPEG. Το πρωτόκολλο αυτό αποτελείται από πολλά ξεχωριστά κομμάτια, όπως θα δούμε και παρακάτω και καθορίζει μεταξύ άλλων πρότυπα συμπίεσης εικόνας και ήχου, πρότυπα πολύπλεξης ρευμάτων δεδομένων πραγματικού χρόνου, πρότυπα επικοινωνίας εξυπηρετητή και πελατών κ.α. Η σημαντικότερη χρησιμότητα του πρωτοκόλλου στην εφαρμογή που αναπτύξαμε είναι η χρήση του στην πολύπλεξη των ρευμάτων μίας παρουσίασης. Για τη μετάδοση των δεδομένων μίας ταινίας η εφαρμογή μας χρησιμοποιεί το πρότυπο MPEG-TS για την πολύπλεξη και την πακετοποίηση των δεδομένων. Πρόκειται για ένα πρότυπο ειδικά σχεδιασμένο για δικτυακή χρήση, το οποίο είναι αρκετά ανθεκτικό σε σφάλματα μετάδοσης και χρησιμοποιείται ευρέος στις μεταδόσεις δορυφορικής ψηφιακής τηλεόρασης.

 

Το ακρωνύμιο MPEG (Moving Picture Experts Group) είναι τα αρχικά μιας ομάδας εργασίας του International Organisation for Standarization (ISO) και του International Electrotechnical Commision (IEC), η οποία είναι επιφορτισμένη με την ανάπτυξη προτύπων κωδικοποίησης για ψηφιακό βίντεο και ήχο. Συγκεκριμένα, το επίσημο όνομα της ομάδας είναι “ISO/IEC JTC 1/SC 29/WG 1” και η εργασία που έχει αναλάβει περιγράφεται ως “ανάπτυξη διεθνών προτύπων για τη συμπίεση, αποσυμπίεση, επεξεργασία και κωδικοποιημένη αναπαράσταση κινούμενης εικόνας, ήχου και συνδυασμού αυτών των δύο, με στόχο την ικανοποίηση των αναγκών ποικίλων εφαρμογών”. Η ομάδα ξεκίνησε τις εργασίες της το 1988 και σήμερα αριθμεί 350 μέλη τόσο από το χώρο της βιομηχανία όσο και από τον ακαδημαϊκό χώρο. Πρόκειται για μία ευρέος αποδεκτή ομάδα εργασίας και τα πρωτόκολλα που έχει μέχρι στιγμής εκδώσει χρησιμοποιούνται ευρέος από τη βιομηχανία. Συγκεκριμένα, μέχρι σήμερα η ομάδα έχει εκδώσει 6 πρότυπα:

 

  1. MPEG-1 : Το πρώτο πρωτόκολλο που εκδόθηκε από την επιτροπή ήταν το MPEG-1 και εκδόθηκε το 1992 στο Λονδίνο. Πρόκειται για την πρώτη έκδοση της ομάδας και αφορά την ανάπτυξη προτύπων συμπίεσης ήχου και εικόνας για την αποθήκευση μέσων με ρυθμό μέχρι 1.5 Mbit/sec και ποιότητα που αντιστοιχεί στο πρότυπο VHS. Το πρωτόκολλο είναι χωρισμένο σε πέντε μέρη. Στο πρώτο μέρος παρουσιάζει ένα πρότυπο, το Program Stream(PS), το οποίο επιτρέπει το συγχρονισμό και την πολύπλεξη ρευμάτων ήχου και εικόνας. Στο δεύτερο μέρος το πρότυπο καθορίζει έναν αλγόριθμο συμπίεσης βίντεο σε ποιότητα VHS και απόδοση 1,15 Mbit/s χρησιμοποιώντας των αλγόριθμο συμπίεσης jpeg για το κάθε frame του video. Στο τρίτο μέρος του πρωτοκόλλου περιγράφεται μια νέα τεχνική συμπίεσης ήχου, το MP3 το οποίο είναι από τα πιο διαδεδομένα πρότυπα συμπίεσης ήχου σήμερα. Το πρότυπο αυτό βασίζεται τόσο στη τεχνική συμπίεση δεδομένων PCM όσο και σε κάποιες παρατηρήσεις της επιστήμης της ψυχοακουστικής. Τα διαθέσιμα profil ρυθμού δεδομένων για το MP3 είναι 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 και 320 kbit/s, ενώ οι διαθέσιμες συχνότητες δειγματοληψίας είναι 32, 44.1 και 48 Khz. Σε γενικές γραμμές το πρότυπο mp3 επιτρέπει τη συμπίεση με απόδοση 1:10 ενός ηχητικού σήματος με μηδενική σχεδόν απώλεια πιστότητας. Στο τέταρτο μέρος του πρωτοκόλλου περιγράφονται κάποιες μέθοδοι ελέγχου συμβατότητα ενός συστήματος με το πρωτόκολλο MPEG- 1. Τέλος στο πέμπτο μέρος του πρωτόκολλο παρουσιάζεται ένα σύστημα MPEG-1 υλοποιημένο στη γλώσσα προγραμματισμού C. Το πρωτόκολλο MPEG – 1 αν και σήμερα θεωρείται ξεπερασμένο για την κωδικοποίηση βίντεο, κάποια μέρη του χρησιμοποιούνται σε μεγάλο βαθμό σε καθημερινές εφαρμογές όπως στη δημιουργία video-cd και στη συμπίεση αρχείων ήχου.

 

  1. MPEG-2 : Το δεύτερο πρωτόκολλο που επικύρωσε η επιτροπή ήταν το MPEG-2. Η πρώτη επίσημη έκδοσή του ήταν το 1994. Το πρωτόκολλο αυτό μας ενδιαφέρει καθώς χρησιμοποιείται σε μεγάλο βαθμό στην εφαρμογή μας. Το MPEG – 2 συνολικά αποτελείται από 11 μέρη, με τα πέντε πρώτα να έχουν ίδιο θέμα με το MPEG-1. Οι κυριότερες διαφορές μεταξύ των δύο πρωτοκόλλων εντοπίζονται σε 2 κυρίως σημεία στα 5 πρώτα κεφάλαια. Στο πρώτο μέρος του, το πρωτόκολλο MPEG – 2 παρουσιάζει ένα νέο πρότυπο πολύπλεξης και πακετοποίησης των διαφόρων ρευμάτων ενός μέσου. Το πρότυπο αυτό ονομάζεται Transport Stream (TS) και στόχο έχει την αποδοτικότερη αποστολή μέσων μέσω του διαδικτύου, ενώ παράλληλα επεκτείνεται το υπάρχον πρότυπο Program Stream (PS) επιτρέποντας την αποτελεσματικότερη αποθήκευση ρευμάτων. Στο δεύτερο κεφάλαιο του MPEG – 2 που αφορά τα πρότυπα συμπίεσης βίντεο, το πρωτόκολλο καθορίζει μια προέκταση του υπάρχοντος προτύπου που επιτρέπει την υποστήριξη διαπλεκόμενων εικόνων (interlaced images) δυνατότητα η οποία επιτρέπει την αποδοτικότερη συμπίεση. Επίσης σε αυτήν την έκδοση η ερευνητική ομάδα παρουσίασε κάποια νέα κεφάλαια στο πρωτόκολλο. Στο έκτο και δέκατο κεφάλαιο παρουσιάζεται το πρωτόκολλο DSM-CC (Digital Storage Media Command and Control), το οποίο επιτρέπει τη δημιουργία συνεδριών μεταξύ ενός πελάτη και ενός εξυπηρετητή μέσων, καθώς και τον απομακρυσμένο έλεγχο των εξυπηρετητών. Στο έβδομο κεφάλαιο παρουσιάστηκε

ένα νέο πρότυπο κωδικοποίησης ήχου, το ACC, το οποίο επιτρέπει την κωδικοποίηση πολυκάναλων ρευμάτων ήχου. Τέλος, στο όγδοο κεφάλαιο το πρωτόκολλο καθορίζει μεθόδους διαχείρισης εικόνων βίντεο για τις οποίες το χρώμα αναπαριστάται με περισσότερα από 8 bits ενώ στο ένατο κεφάλαιο παρουσιάζει μια διεπαφή ανάμεσα στο Transport Stream και στον αποκωδικοποιητή, που στόχο έχει να καλύψει τις ανάγκες του DSM-CC για τη δημιουργία συνεδριών.

 

Σχήμα 6. Σύμπιεση πολυμέσων με χρήση ειδικευμένου εξυπηρετητή και σταθμού αποθήκευσης

Πηγή: http://documentation.commvault.com/commvault/release_7_0_0/books_online_1/english_us/features/data_compression/data_compression.htm

 

  1. MPEG-4 : Η τρίτη έκδοση πρωτοκόλλου από την ομάδα MPEG ήταν το MPEG-4. Το πρωτόκολλο αυτό έχει συνολικά 21 κεφάλαια, διατηρώντας βέβαια τους τίτλους των 6 πρώτων ίδιους με αυτούς τους MPEG-2. Το πρωτόκολλο αυτό παρουσιάστηκε επίσημα το 1998 και είχε ως τίτλο “Κωδικοποίηση οπτικοακουστικών αντικειμένων”. Σε γενικές γραμμές, η έκδοση αυτή του πρωτοκόλλου είχε ως πρωταρχικό στόχο την προσθήκη της δυνατότητας κωδικοποίησης μεμονωμένων αντικειμένων σε μία παρουσίαση στα ήδη υπάρχοντα πρωτόκολλα. Μερικές από τις επεκτάσεις που υποστηρίζονται είναι η δυνατότητα διαχείρισης πολλαπλών ρευμάτων ήχου με διαφορετική κωδικοποίηση του καθενός και διαφορετικής χρηστικότητα καθώς και η δυνατότητα διαχείρισης 3D αντικειμένων. Επίσης προστέθηκε ένας μηχανισμός διαχείρισης και προστασίας δικαιωμάτων, που προκύπτουν από μεμονωμένα αντικείμενα ενός αρχείου. Τέλος, το πρωτόκολλο παρουσίασε και κάποιους νεότερους και αποδοτικότερους αλγορίθμους συμπίεσης ήχου και βίντεο (AVC). Το MPEG-4 μπορεί ποια να καλύψει ρυθμούς μετάδοσης δεδομένων μέχρι 1 Gbit/s.

 

  1. MPEG-7 : Το πρωτόκολλο αυτό είναι το τέταρτο πρωτόκολλο που εκδόθηκε από την ομάδα. Η μελέτη του ξεκίνησε τον Απρίλιο του 1997 και ακόμα βρίσκεται υπό ανάπτυξη. Αποτελείται συνολικά από 11 κεφάλαια. Το MPEG – 7 καθορίζει κάποιες νέες δυνατότητες για τα παλιότερα πρωτόκολλα που στόχο έχουν τον εμπλουτισμό τους με δυνατότητες αποθήκευσης μεταπληροφοριών που περιγράφουν τα δεδομένα του αρχείου. Τα δεδομένα αυτά υπακούν σε κάποιο δεδομένα σχήμα και μπορούν να αναφέρονται σε εικόνες, σε ήχο και σε απλό κείμενο.

 

  1. MPEG-21 : Το πρωτόκολλο MPEG-21 είναι το όραμα της ομάδας για το μέλλον στον τομέα των πολυμέσων. Η ανάπτυξη του ξεκίνησε το Μάιο – Ιούνιο του 2000. Το MPEG-21 είναι ένα ανοιχτό πρωτόκολλο που στόχο έχει την ανάπτυξη ενός πλαισίου για τον έλεγχο των δικαιωμάτων σε εφαρμογές πολυμέσων. Ποιο συγκεκριμένα το πρωτόκολλο καθορίζει ένα πρότυπο για μία “Γλώσσα έκφρασης δικαιωμάτων”(Rights Expression Language) με την οποία μπορεί να εμπλουτίζεται κάθε αρχείο πολυμέσων και η οποία καθορίζει τις άδεια, τα δικαιώματα και τους περιορισμούς που επιβάλει ο δημιουργός του περιεχομένου στους χρήστες. Σε γενικές γραμμές το MPEG-21 προσπαθεί να εισάγει τις έννοιες της δημιουργία, πρόσβασης, της ανταλλαγής και διαχείρισης ηλεκτρονικών δικαιωμάτων στο σημερινό πλαίσιο ανάπτυξης πολυμέσων με τρόπος ο οποίος να μη γίνεται αντιληπτός άμεσα από τους χρήστες. Η ανάπτυξη του προτύπου αυτού έχει ως κύριο στόχο τη καταπολέμηση της πειρατείας η οποία αναπτύσεται σε μεγάλο βαθμό από τα δίκτυα Peer to Peer. Το πρωτόκολλο αυτό βρίσκεται ακόμα υπό ανάπτυξη και στοχεύει να αλλάξει κατά πολύ τον τρόπο που αντιλαμβανόμαστε τις εφαρμογές πολυμέσων. 

 

Η ομάδα εργασίας πέρα από τα παραπάνω πρότυπα που παρουσιάζουν ολοκληρωμένες λύσεις όσον αφορά τη συμπίεση και μετάδοση μιας παρουσίασης, εξέδωσε και κάποια ακόμα που  ασχολούνται με κάποιο υποσύνολο της διαδικασίας αυτής. Στην παραπάνω κατηγορία ανήκει το MPEG-A, το οποίο παρέχει ένα πλαίσιο για την ενοποίηση στοιχείων από τα διάφορα πρότυπα συμπίεσης MPEG σε ένα πρότυπο το οποίο θα είναι κατάλληλο για κάποια συγκεκριμένη αλλά ευρέος χρησιμοποιούμενη εφαρμογή, το MPEG-B, το οποίο παρουσιάζει ένα πλαίσιο για την αποθήκευση MPEG ρευμάτων σε xml αρχεία κ.α. Η ομάδα ανάπτυξης του MPEG αποτελείται τόσο από ακαδημαϊκούς εγνωσμένης αξίας όσο και από εκπροσώπους της βιομηχανίας. Η ανάπτυξη των πρωτοκόλλων γίνεται μέσα από ανοιχτές προσκλήσεις για προτάσεις, οι οποίες γίνονται μόνο προς τα μέλη της ομάδας. Με βάση τις προτάσεις που γίνονται οι ομάδες που έχουν αναλάβει την ανάπτυξη κάποιου προτύπου προτείνουν κάποιο αρχικό κείμενο το οποίο μέσα από συζητήσεις και ψηφοφορίες καταλήγει στην τελική δημοσίευση. Η ανάπτυξη βέβαια των προτύπων του MPEG δέχεται από πολλούς κριτική, καθώς είναι αρκετά κλειστή διαδικασία και τα τελικά πρότυπα δεν είναι ελεύθερα σε όλους τους χρήστες, αναγκάζοντας τους ενδιαφερόμενους να να καταβάλουν κάποιο ποσό στον ISO για να λάβουν αντίγραφα των προτύπων.

 

Σχήμα 7. Block diagram συμπίεσης video

Πηγή: http://www.tml.tkk.fi/Opinnot/Tik-110.551/1997/iwsem.html

 

Σχήμα 8. Σύνθεση κίνησης (Motion compensation)

Πηγή: http://www.tml.tkk.fi/Opinnot/Tik-110.551/1997/iwsem.html

 

1.3.4 – Το πρότυπο συμπίεσης H.264

 

Το πρότυπο συμπίεσης MPEG-4 αποτελεί μια σουϊτα απο πρότυπα και χαρακτηριστικά και περιλαμβάνει πολλά “κομμάτια”, όπου το καθένα μορφοποιεί διάφορα στοιχεία σχετιζόμενα με τα πολυμέσα, όπως ήχο, στατική / κινούμενη εικόνα και αλλά format αρχείων. Το H.264/MPEG-4 AVC αποτελεί ένα πρότυπο συμπίεσης κινούμενης εικόνας. Ο τελικός σχεδιασμός του προτύπου αυτού ολοκληρώθηκε τον Μάη του 2003. Κάνει χρήση των τελευταίων block-oriented motion-compensation-based χαρακτηριστικά κωδικοποιητών τα οποία αναπτύχθηκαν απο την επιτροπή ITU-T Video Coding Experts Group (VCEG) σε συνεργασία με την ISO/IEC Moving Picture Experts Group (MPEG), και είναι αποτέλεσμα συνεργατικής προσπάθειας γνωστό σαν Joint Video Team (JVT). Το ITU-T H.264 πρότυπο καθώς και το ISO/IEC MPEG-4 AVC (αρχικά σαν ISO/IEC 14496-10 – MPEG-4 Part 10, Advanced Video Coding) υποστηρίζονται απο κοινού απο τις δυο παραπάνω επιστροπές έτσι ώστε να έχουν ίδιο τεχνικό περιεχόμενο. Το H.264 χρησιμοποιείται ευρέως σε πληθώρα εφαρμογών όπως δίκοι Blu-ray, online υπηρεσίες video όπως youtube, iTunes store, επίγειες ψηφιακές μεταδόσεις τηλεόρασης (DVB-T), δορυφορικές μεταδόσεις τηλεόρασης (DVB-S) καλωδιακή τηλεόραση καθώς και σε διαδραστικές τηλεσυνδιασκέψεις (videoconferencing).

 

Ο αρχικός σκοπός της προσπάθειας ανάπτυξης H.264/AVC είναι να δημιουργειθεί ένα πρότυπο ικανό να παρέχει καλή ποιότητα εικόνας με σχετικά χαμήλες απαιτήσεις εύρους  ζώνης σε σύγκριση με τα προϋπάρχοντα πρότυπα (το μισό ή λιγότερο έυρος ζώνες σε σύγκριση με το MPEG-2, H.263, ή MPEG-4 Part 2), χωρίς την άυξηση της πολυπλοκότητας της σχεδίασης σε σημείο όπου θα το καθιστούσε μη πρακτικό ή υπερβολικά ακβριμό ώστε να υλοποιηθεί. Ένας επιπρόσθετος στόχος είναι η παροχή ευελιξίας ώστε να επιτρέπει στο πρότυπο να είναι πρακτικά υλοποιήσιμο σε μια μεγάλη γκάμα εφαρμογών δικτύων και συστημάτων, με χρήση χαμηλού αλλά και υψηλού πεδίου έυρους ζώνης και ανάλυσης εικόνας, μετάδωσεων, αποθηκευτική χρήση σε DVD ή μαγνητικά μέσα καθώς, δίκτυα μετάδοσης RTP/IP, και σε ITU-T πολυμεσικά τηελφωνικά συστήματα. Το H.264 αποτελεί μια στοίβα προτύπων, όπου κάθε μια αποτελεί τα προφιλ  (profiles) όπως περιγράφονται παρακάτω. Ένας συγκεκριμένος αποκωδικοποιητής, αποκωδικποιεί τουλάχιστον ένα, αλλά όχι όλα τα προφιλ.

 

Η προτυποποίηση της πρώτης έκδοσης του H.264/AVC ολοκληρώθηκε όπως αναφέρμε το 2003 όπου η επιτροπή JVT τότε ανέπτυξε επεκτάσεις του αρχικού προτύπου γνωστές σαν επεκτάσης υψηλής πιστότιτας (Fidelity Range Extensions FRExt). Οι επεκτάσεις αυτές καθιστούσαν δυνατή υψηλότερη ποιότητα κατά την κωδικοποίηση video υποστηρίζοντας μεγαλύτερη δειγματοληψία βάθους χρώματος και υψηλότερη ανάλυση στην χρωματική πληροφορία, συμπεριλαμβάνοντας δομές διγματοληψίας γνωστά σαν YUV 4:2:2 and YUV 4:4:4 Αρκετά επιπρόσθετα χαρακτηριστικά εμπεριέχονται στο Fidelity Range Extensions project, όπως προσαρμόσιμη αλλαγή μεταξύ 4×4 και 8×8 μετασχηματισμούς ακεραίων, encoder-specified perceptual-based quantization weighting matrices, αποδοτική μη απωλεστική κωδικοποίηση εικόνας καθώς και η υποστήριξη επιπρόσθετων color spaces. Ο τελικός σχεδιασμός των Fidelity Range Extensions ολοκληρώθηκε τον Ιούλη του 2004 , και η τεκμηρίωση της τον Σεπτέμβρη του 2004.

 

Επιπρόσθετες επεκτάσεις αρκετά πρόσφατα έχουν συμπεριλάβαν την προσθήκη 5 νέων προφιλ οι οποίες προορίζονται για επαγγελματικές εφαρμογές, υποστηρίζοντας την χρωμaτική παλέτα extended-gamut, προσδιορίζοντας επιπλεόν σημάνσεις για τις αναλογίες της εικόνας καθώς και 2 επιπλέον είδη πληροφορίας “supplemental enhancement”  (post-filter hint and tone mapping), and deprecating one of the prior FRExt profiles that industry feedback indicated should have been designed differently.

 

Η κλιμακωτή κωδικοποίηση όπως ορίζεται στο Annex G του H.264/AVC επιτρέπει στην κατασκευή ροών δεδομένων (bitstreams) που εμπεριέχουν υπο-ροές οι ποίες συμορφώνεται στο H.264/AVC. Για χρονικά κλιμακούμενη ροή π.χ. η παρουσία μιας υπο-ροής με μικρότερης χρονικής δειγματοληψίας απο την κύρια ροή. Στην περίπτωση αυτή, υψηλού επιπέδου σύνταξη και το καταστατικό αλουχίας των εικόνων κατασκευάζονται αντιστοίχα μέσα στην δομή της ροής.

 

Μεγέθη συμπίεσης για τα είδη δεδομένων πολυμέσων

 

Σχήμα 9. Block Diagram Layered Video Codec

Πηγή: http://www.iitk.ac.in/karmaa/DownloadTools/MCIT_DataCompressionProject/Data_Compression_Techniques_for_E-Learning.html

 

 


Source: Quantaofnoise

Leave a Reply

Your email address will not be published. Required fields are marked *