Προτού αρχίσουμε να εξετάζουμε τις διαφορετικές τεχνικές σύνθεσης και να κάνουμε θόρυβο με το SuperCollider, υπάρχουν κάποιες βασικές έννοιες που σχετίζονται με τις ιδιότητες του ήχου και την αναπαράστασή του στον υπολογιστή. Είναι χρήσιμο να σου είναι ξεκάθαρες και δεν είναι πολλές. Ας τις δούμε εν συντομία.
Τα ηχητικά κύματα παράγονται από αντικείμενα που δονούνται (ή αλλιώς ταλαντώνονται) και μεταδίδονται μέσω του αέρα καθώς δημιουργούνται περιοχές μεγαλύτερης και μικρότερης πίεσης. Μόλις τα μόρια του αέρα διαταραχθούν από κάποια ηχητική πηγή, τότε φεύγουν από την κατάσταση ισορροπίας τους και αρχίζουν να σκουντάνε το ένα το άλλο, δημιουργώντας περιοχές μεγαλύτερης πίεσης, όταν τα μόρια πυκνώνουν μεταξύ τους, και μικρότερης πίεσης, όταν τα μόρια αραιώνουν. Με αυτήν τη διαδικασία της πύκνωσης και της αραίωσης των μορίων του αέρα διαδίδονται τα ηχητικά κύματα και είναι σημαντικό να το καταλάβεις για να αντιληφθείς τον τρόπο που αναπαριστούμε στον υπολογιστή μία κυματομορφή.
Το ανθρώπινο αυτί είναι αρκετά ευαίσθητο σε περιοδικές ταλαντώσεις. Μία ηχητική πηγή που ταλαντώνεται σύμφωνα με ένα συγκεκριμένο μοτίβο -που επαναλαμβάνεται ξανά και ξανά- δημιουργεί μία περιοδική κυματομορφή (periodic waveform). Κάθε πλήρης επανάληψη μιας περιοδικής κυματομορφής την ονομάζουμε κύκλο (cycle), ενώ ο χρόνος που χρειάζεται για να ολοκληρωθεί ένας κύκλος ονομάζεται περίοδος (period). Ο αριθμός των κύκλων ανά δευτερόλεπτο (cycles per second) ονομάζεται συχνότητα (frequency) και μετριέται σε Χερτζ (Hertz ή Hz). Έτσι, όταν ακούμε τη νότα Λα στα 440 Hz από ένα ηχείο, ο κώνος δονείται (ταλαντώνεται) 440 φορές το δευτερόλεπτο ώστε να παραγάγει το ηχητικό κύμα που γίνεται αντιληπτό στα αυτιά μας ως ένα Λα. Το μέγεθος αυτής της ταλάντωσης, που σχετίζεται με το πόσο έντονα δονείται η ηχητική πηγή, το ονομάζουμε πλάτος (amplitude) της κυματομορφής και μας δείχνει τη μεταβολή της πίεσης του αέρα. Το πλάτος μετριέται ως η απόσταση από το σημείο με τη μεγαλύτερη (ή τη μικρότερη) ατμοσφαιρική πίεση έως το σημείο ισορροπίας. Έτσι, ένα ηχητικό κύμα που έχει μεγαλύτερο πλάτος από ένα άλλο προκαλεί μεγαλύτερη αλλαγή στην πίεση του αέρα που την αντιλαμβανόμαστε ως έναν πιο δυνατό ήχο.1
Ο πιο απλός τρόπος για να μετρήσουμε την πίεση του αέρα είναι με ένα μικρόφωνο. Με αυτό το πολύ όμορφο μηχάνημα μπορούμε να μετρήσουμε τη διαφορά πίεσης που δημιουργείται από μία ηχητική πηγή και να μετατρέψουμε το ηχητικό κύμα σε ηλεκτρικό σήμα. Κι εδώ είναι που αρχίζει να γίνεται ενδιαφέρον το πράγμα διότι το ηλεκτρικό σήμα μπορούμε στη συνέχεια να το μετατρέψουμε σε ψηφία, να το εισάγουμε στον υπολογιστή και να το επεξεργαστούμε. Αλλά ας μην προτρέχουμε. Προς το παρόν μας ενδιαφέρει να δούμε πως μπορούμε να αναπαραστήσουμε ένα ηχητικό κύμα, και υπάρχουν δύο τρόποι: στο πεδίο του χρόνου και στο πεδίο των συχνοτήτων.
Αν σχεδιάσουμε την πίεση του αέρα συναρτήσει του χρόνου σε δύο κάθετους άξονες, τότε το γράφημα θα μας δώσει την αναπαράσταση της κυματομορφής στο πεδίου του χρόνου. Στον κάθετο άξονα τοποθετούμε την ατμοσφαιρική πίεση. Μεγαλύτερες τιμές πίεσης αντιστοιχούν σε υψηλότερο σημείο και αντίστροφα. Στον οριζόντιο άξονα τοποθετούμε τον χρόνο που τρέχει από αριστερά προς τα δεξιά. Δεν είναι τόσο δύσκολο και μοιάζει όπως στο επόμενο διάγραμμα.
Αν έχεις κάνει ποτέ ηχογράφηση στον υπολογιστή τότε σίγουρα έχεις δει κυματομορφή. Η μεταβολή της ατμοσφαιρικής πίεσης -όπως εμφανίζεται στο γράφημα- είναι στην ουσία η μεταβολή του ηλεκτρικού σήματος έτσι όπως μετρήθηκε από το μικρόφωνο που τοποθετήθηκε στον χώρο.
Από εδώ και στο εξής με τη λέξη κυματομορφή θα αναφέρομαι στο σχήμα ενός τέτοιου γραφήματος.
Στη φύση μία ηχητική πηγή που δονείται και παράγει ηχητικά κύματα δεν ταλαντώνεται σε μία μόνο συχνότητα αλλά σε πολλές ταυτόχρονα. Η κυματομορφή που δημιουργείται περιέχει πάντα αρκετές συχνότητες που η κάθε μία έχει διαφορετική ισχύ. Παραδείγματος χάριν, μία χορδή που παίζει τη νότα Ντο2 δεν ταλαντώνεται μόνο με συχνότητα 261 φορές το δευτερόλεπτο αλλά και σε πολλαπλάσια αυτής. Τα 261 Hz για το μεσαίο Ντo είναι βέβαια σημαντικός αριθμός καθώς αντιστοιχεί στο συνολικό μήκος της χορδής και την ονομάζουμε θεμελιώδη συχνότητα (fundamental frequency). Αν οι υπόλοιπες συχνότητες που συνυπάρχουν μαζί με τη θεμελιώδη είναι ακέραια πολλαπλάσιά της τότε ονομάζονται αρμονικές (harmonics). Στην περίπτωση της χορδής μας, η συχνότητα στα 261 Hz αφορά τη θεμελιώδη συχνότητα (1η αρμονική), η συχνότητα στα 522 Hz (261 x 2) είναι η 2η αρμονική και αντιστοιχεί στο μισό μήκος της χορδής, η συχνότητα στα 783 Hz (261 x 3) είναι η 3η αρμονική, ... κτλ.
Στα αγγλικά χρησιμοποιείται ο όρος partials για να αναφερθούμε σε όλες τις συχνοτικές συνιστώσες ενός ήχου ασχέτως αν είναι ακέραια πολλαπλάσια ή όχι. Με άλλα λόγια μία αρμονική συχνότητα είναι ένα partial, ένα partial δεν είναι κατ' ανάγκη μία αρμονική.
Ένας τρόπος για να δούμε το συχνοτικό περιεχόμενο του ήχου είναι με το φασματογράφημα (spectrogram). Το φασματογράφημα μας δείχνει την ισχύ που έχουν οι διαφορετικές συχνοτικές συνιστώσες στον χρόνο. Στην επόμενη εικόνα3 φαίνεται το φασματικό διάγραμμα μιας ηχογράφησης άρπας διάρκειας περίπου 5 δευτερολέπτων. Στον οριζόντιο άξονα βρίσκεται ο χρόνος, στον κάθετο άξονα βρίσκονται οι συχνότητες και η ισχύς της κάθε συχνότητας είναι ανάλογη της φωτεινότητας. Όσο μεγαλύτερο είναι δηλαδή το πλάτος μιας συχνοτικής συνιστώσας τόσο πιο φωτεινή είναι και η συγκεκριμένη περιοχή.
Παρατήρησε πως η αρχή κάθε νότας που παίζει το όργανο είναι ορατή ως μία φωτεινή κάθετη ζώνη. Οι παράλληλες οριζόντιες φωτεινές γραμμές αναπαριστούν τις συχνότητες που είναι παρούσες κάθε φορά. Όπως βλέπεις, η θεμελιώδης συχνότητα κάθε νότας εξασθενεί πιο αργά από τις αρμονικές. Αυτό συμβαίνει σε αρκετά ακουστικά όργανα.
Το επόμενο γράφημα απεικονίζει στο πεδίο του χρόνου (επάνω) και στο πεδίο των συχνοτήτων (κάτω) ένα ρυθμικό μοτίβο παιγμένο στα τύμπανα. Εδώ φαίνεται ότι τα κρουστά χτυπήματα έχουν ενέργεια σε μεγαλύτερο εύρος του φάσματος, καλύπτουν δηλαδή περισσότερες συχνοτικές περιοχές ταυτόχρονα.
Όπως είδαμε προηγουμένως ένα περιοδικό ηχητικό κύμα επαναλαμβάνεται με το ίδιο μοτίβο ξανά και ξανά. Η αρχική θέση μέσα στον κύκλο από όπου ξεκινάει το κύμα ονομάζεται αρχική φάση (initial phase).
Στο διάγραμμα που ακολουθεί έχουμε δυο ημιτονοειδείς κυματομορφές με ίδια συχνότητα και ίδιο εύρος πλάτους. Η πρώτη κυματομορφή αρχίζει από το 1 και ολοκληρώνει έναν κύκλο ξανά στο 1. Η δεύτερη κυματομορφή αρχίζει από το -1 και ολοκληρώνει έναν πλήρη κύκλο στο -1. Σε αυτήν την ειδική περίπτωση που το ένα κύμα έχει ακριβώς αντίθετη φάση από το άλλο, είναι δηλαδή εκτός φάσης κατά 180 μοίρες, όταν προστεθούν4 μεταξύ τους το ένα θα ακυρώσει το άλλο. Σε οποιαδήποτε άλλη περίπτωση που τα κύματα δεν είναι πλήρως εκτός φάσης τότε κάποιες συχνότητες εξασθενούν και άλλες ενισχύονται (λόγω συμβολής) ανάλογα με τη διαφορά φάσης των δύο κυματομορφών5.
Έχουμε δει ότι η μεταβολή της πίεσης του αέρα που προκαλεί μία ηχητική πηγή μετατρέπεται σε ηλεκτρικό σήμα μέσω του μικροφώνου. Η πίεση που δέχεται το μικρόφωνο είναι ανάλογη του ηλεκτρικού σήματος που παράγει. Για να μπορέσουμε να εισαγάγουμε αυτό το σήμα στον υπολογιστή χρειαζόμαστε ένα σύστημα που θα μας επιτρέψει να μετατρέψουμε το αναλογικό σήμα (που είναι συνεχές) σε ψηφιακό (που είναι διακριτό). Η συσκευή αυτή στη βιβλιογραφία αναφέρεται ως ADC (Analog to Digital Convertor) και η λειτουργία της είναι να παίρνει το αναλογικό σήμα και να το μετατρέπει σε ψηφία που θα εισαχθούν στον υπολογιστή. Ας εξετάσουμε πιο λεπτομερώς τη διαδικασία.
Θα έχεις ακούσει ότι οι υπολογιστές δουλεύουν με 0 και 1. Χρησιμοποιούν δηλαδή bits. Κάθε bit είναι ένα δυαδικό ψηφίο που μπορεί να πάρει την τιμή 0 ή 1. Δε θα σε μπερδέψω με μαθηματικά, όμως είναι χρήσιμο να έχεις μια ιδέα για το πώς λειτουργεί το σύστημα αφού από τα bits εξαρτάται και η ποιότητα του ήχου που θα φτιάξεις. Κάθε bit λοιπόν μπορεί να πάρει δύο τιμές. Χρησιμοποιώντας 1-bit μπορούμε να εκφράσουμε δύο διαφορετικές καταστάσεις, 0 ή 1. Χρησιμοποιώντας 2-bit μπορούμε να εκφράσουμε 4 διαφορετικές καταστάσεις αφού οι πιθανοί συνδυασμοί των 2-bit είναι [0,0], [0,1], [1,0], [1,1]. Με 3-bit μπορούμε να εκφράσουμε 8 διαφορετικές καταστάσεις κ.ο.κ. Κάθε φορά οι διαφορετικοί συνδυασμοί που μπορούμε να πάρουμε βρίσκονται υψώνοντας το 2 στην αντίστοιχη δύναμη των αριθμών των bit που χρησιμοποιούμε. Προσπάθησε να τα θυμηθείς αυτά γιατί θα μας είναι χρήσιμα παρακάτω.
Για να μετατραπεί το αναλογικό ηλεκτρικό σήμα σε ψηφιακό, ο ADC παίρνει δείγματα ανά τακτά χρονικά διαστήματα. Αν τα δείγματα έχουν σχετικά καλή ανάλυση και είναι χρονικά πολύ κοντά το ένα στο άλλο, τότε μπορούμε με επιτυχία να αναπαραστήσουμε την αναλογική κυματομορφή στον ψηφιακό κόσμο. Για κάθε δείγμα που παίρνουμε μετράμε το πλάτος του σήματος χρησιμοποιώντας ένα πλήθος από bits και αποθηκεύουμε την τιμή στη μνήμη του υπολογιστή. Κατ' επέκταση όσα περισσότερα bits χρησιμοποιούμε τη στιγμή της δειγματοληψίας, τόσο μεγαλύτερη ακρίβεια έχουμε στη μέτρηση και άρα μπορούμε με μεγαλύτερη ακρίβεια να αναπαραστήσουμε την αρχική κυματομορφή.
Η συχνότητα με την οποία παίρνουμε τα δείγματα ονομάζεται συχνότητα δειγματοληψίας (sampling rate) και εκφράζεται σε αριθμό δειγμάτων ανά δευτερόλεπτο χρησιμοποιώντας το κιλοχέρτζ (KHz). Μία διαδεδομένη συχνότητα δειγματοληψίας στις μέρες μας είναι τα 44.1 KHz. Σε αυτήν την περίπτωση ο ADC λαμβάνει 44,100 δείγματα το δευτερόλεπτο στην προσπάθειά του να αναπαραστήσει την κυματομορφή6. Έτσι, κάθε 1/44,100 = 0.0000027 του δευτερολέπτου παίρνουμε ένα δείγμα, κάνουμε τη μέτρηση της τιμής του πλάτους και προχωράμε στο επόμενο. Η διαδικασία φαίνεται σχηματικά στο επόμενο γράφημα όπου το αναλογικό σήμα (επάνω) δειγματοληπτείται σε διακριτούς χρόνους για να ανακατασκευαστεί στον ψηφιακό κόσμο.
Αντίστροφα, όταν θέλουμε να ακούσουμε ένα αρχείο ήχου που έχουμε στον υπολογιστή τότε χρησιμοποιούμε έναν μετατροπέα σήματος από ψηφιακό σε αναλογικό (Digital to Analog Converter ή DAC). Αυτός διαβάζει διαδοχικά τους δυαδικούς αριθμούς που περιέχονται στο αρχείο ήχου και τους μετατρέπει σε ηλεκτρικό ρεύμα που με τη σειρά του δονεί τον κώνο του ηχείου. Είναι σημαντικό η ταχύτητα που ο DAC διαβάζει το αρχείο να ταυτίζεται με την αρχική ταχύτητα που έγινε η δειγματοληψία.
Προχωράμε. Όσο υψηλότερη είναι η συχνότητα δειγματοληψίας τόσο περισσότερες συχνότητες μπορούμε να αναπαραστήσουμε. Εν γένει μας αρέσει να επιλέγουμε υψηλές συχνότητες δειγματοληψίας. Ποιο είναι όμως αυτό το νούμερο που μας επιτρέπει να αναπαραστήσουμε όλες τις συχνότητες που αντιλαμβάνεται το ανθρώπινο αυτί; Την απάντηση δίνει έμμεσα το θεώρημα της δειγματοληψίας (sampling theorem) ορίζοντας ότι η συχνότητα δειγματοληψίας πρέπει να είναι τουλάχιστον διπλάσια από τη συχνότητα του σήματος που θέλουμε να αναπαραστήσουμε.
Συχνότητα του Nyquist8 (Nyquist frequency) ονομάζεται η υψηλότερη συχνότητα που μπορεί να αναπαραστήσει ένα ψηφιακό σύστημα. Καμία συχνότητα μεγαλύτερη από τη συχνότητα του Nyquist δεν μπορεί να αναπαρασταθεί. Αν λοιπόν έχουμε ένα αναλογικό σήμα στα 5 KHz, τότε σύμφωνα με τα παραπάνω η συχνότητα δειγματοληψίας πρέπει να είναι τουλάχιστον 10 ΚHz. Έτσι, επειδή το ανθρώπινο αυτί έχει τη δυνατότητα να αντιλαμβάνεται ήχους από 20 Hz έως 20 KHz, αν θέλουμε να αναπαραστήσουμε το πλήθος των συχνοτήτων που ακούμε (ακόμη και τις πιο ψηλές) τότε χρειαζόμαστε μια συχνότητα δειγματοληψίας τουλάχιστον διπλάσια από την ανώτατη συχνότητα που αντιλαμβανόμαστε, άρα τουλάχιστον 40 KHz (20 KHz x 2). Η συνήθης λοιπόν συχνότητα δειγματοληψίας στα 44.1 KHz φαίνεται να έχει θεωρητικά τη δυνατότητα να αναπαραστήσει οτιδήποτε αντιλαμβάνεται το ανθρώπινο αυτί.
Το αδύνατο σημείο κάθε ψηφιακού συστήματος είναι οι συχνότητες που βρίσκονται πάνω από το όριο του Nyquist. Σε αυτήν την περίπτωση ο μετατροπέας (ADC) στην προσπάθειά του να κάνει την ψηφιοποίηση προβαίνει σε σφάλμα, καταγράφοντας λανθασμένα όσες συχνότητες υπερβαίνουν τη συχνότητα Nyquist ως χαμηλότερες (δημιουργώντας κατοπτρικά αντίγραφα). Αυτού του είδους η αλλοίωση, που μπορεί να προκύψει κατά τη διάρκεια της δειγματοληψίας, ονομάζεται aliasing ή foldover και δημιουργεί ανεπιθύμητο θόρυβο. Η λύση είναι η χρησιμοποίηση ενός φίλτρου πριν από τον ADC ώστε να εξαλειφθούν όλες οι συχνότητες πάνω από το όριο του Nyquist.
Συνοπτικά: Όσο υψηλότερη είναι η συχνότητα δειγματοληψίας (sampling rate), τόσο περισσότερες συχνότητες μπορούμε να αναπαραστήσουμε. Όσο μεγαλύτερο είναι το bit depth, δηλαδή, όσα περισσότερα bits χρησιμοποιούμε, τόσο καλύτερη ανάλυση έχουμε σε κάθε δείγμα που λαμβάνουμε, άρα αντίστοιχα μεγαλώνει και η δυναμική περιοχή του σήματος9. Έτσι όταν έχουμε αρκετό χώρο στον υπολογιστή μας και αρκετή υπολογιστική δύναμη θα πρέπει να προτιμάμε να δουλεύουμε σε υψηλά sampling-rate και υψηλά bit-depth αν μας ενδιαφέρει η καλή ποιότητα στην ηχογράφηση, επεξεργασία και σύνθεση του ήχου10.
Νομίζω ότι μετά από αυτήν τη σύντομη παρουσίαση των βασικών εννοιών11 είσαι έτοιμος/έτοιμη να αρχίσεις να κάνεις θόρυβο με το SuperCollider. Ξεκινάμε!
Ελπίζω να μην αναγκαστείς να κάνεις σκονάκι τους παραπάνω ορισμούς γιατί σημαίνει ότι χρειάστηκε να δώσεις γραπτές εξετάσεις, οι οποίες είναι για όλους (φοιτητές και καθηγητές) μια βαρετή διαδικασία που στο τέλος δε θυμάται κανείς τίποτα. ↩
Εδώ εννοώ το μεσαίο Ντο-4 που αντιστοιχεί σε συχνότητα 261.63 Hz. ↩
Η φασματική ανάλυση έχει γίνει με το Sonic Visualiser. Πρόκειται για ένα συμπαθητικό λογισμικό που μας επιτρέπει να εξετάσουμε ένα αρχείο ήχου στα πεδία χρόνου και συχνοτήτων. Αν σε ενδιαφέρει μπορείς να το κατεβάσεις ελεύθερα από το sonicvisualiser.org. ↩
Για να προσθέσουμε δύο κύματα προσθέτουμε τις τιμές που λαμβάνουν σημείο προς σημείο στον άξονα του χρόνου. ↩
Για να καταλάβεις πώς λειτουργεί η διαφορά φάσης δοκίμασε το εξής: Άνοιξε ένα μονοφωνικό αρχείο ήχου σε ένα οποιοδήποτε DAW και τοποθέτησέ το σε ένα track. Στη συνέχεια φτιάξε ένα αντίγραφο του track μαζί με το αρχείο ήχου. Καθώς οι δύο πανομοιότυπες κυματομορφές βρίσκονται σε τέλεια φάση άκουσέ τες ταυτόχρονα δοκιμάζοντας να ωθήσεις ελάχιστα προς τα μπρος τη μία από τις δύο. Παρατηρείς τις αλλαγές που προκαλούνται στο ηχόχρωμα; Αν όχι, παράτα τα. ↩
Άλλες συνήθεις συχνότητες δειγματοληψίας είναι τα 48 KHz, 88.2 KHz, 96 KHz, 192 KHz, κ.ά. ↩
Η πραγματική τιμή είναι 0.0000022675737. ↩
Nyquist frequency: Προς τιμή του Σουηδού Harry Nyquist για τη συνεισφορά του στον τομέα των επικοινωνιών. ↩
Η δυναμική περιοχή (dynamic range) μετριέται σε ντεσιμπέλ (dB) και είναι η διαφορά μεταξύ του πιο ασθενούς και του πιο ισχυρού ήχου που μπορεί να παραγάγει ένα ηχητικό σύστημα. ↩
Είναι αμφιλεγόμενο πεδίο συζήτησης ποια είναι η βέλτιστη συχνότητα δειγματοληψίας. Εφόσον το ανθρώπινο αυτί είναι κουφό σε οτιδήποτε πάνω από 20,000 Hz πολλοί μηχανικοί ήχου υποστηρίζουν ότι τα 44.1 KHz είναι μία καλή και οικονομική (από πλευράς μεγέθους δεδομένων) λύση. Το θέμα όμως δεν είναι απλό και υπάρχουν ποικίλοι παράγοντες που καθορίζουν την ποιότητα του ήχου. ↩
Ένα εξαιρετικό βιβλίο πάνω στην ακουστική είναι το Master Handbook of Acoustics των Everest & Pohlmann (2014). ↩