LE SON ET VOTRE ORDINATEUR


Par David K. Every, traduit de l'anglais par Charles Gigučre.
(C) 1998 - Tous droits réservés par l'auteur

Le son est une variation de la pression de l'air frappant nos oreilles -- décodée par le cerveau en sons (bruit ou musique). Dans l'espace (ou le vide total) on ne peut pas entendre les sons, car il n'y a aucun médium (matière) permettant de transporter les vibrations (pression).

Ondes sonores

 

Numérisation / Échantillonnage

Les ordinateurs (ainsi que les lecteurs de CD, téléphones, etc.) capturent ces ondes de pression. Ils utilisent un microphone pour convertir la pression (ondes sonores) en courant électrique, puis ils en prennent des échantillons plusieurs fois par seconde. C'est ce qu'on appelle l'échantillonnage. C'est également la conversion des ondes sonores, d'abord en signaux analogiques, puis en signaux numériques -- c'est ce qu'on appelle la numérisation. Lorsque qu'échantillonné (ou numérisé), on peut émettre ces mêmes voltages, en les sortant au même taux qu'utilisé lors de l'échantillonnage, vers un haut-parleur pour reconvertir l'électricité en ondes de pression (qui font vibrer un cône dans l'air). Voilà le même son original reproduit.

Techniquement parlant, plusieurs appareils autres que les ordinateurs (téléphone, radio, lecteur de cassette, etc.) n'échantillonnent pas les sons en des points discrets -- ils capturent l'onde entière en utilisant des techniques analogiques pour l'enregistrer. Cependant chaque copie subséquente (analogique) perd un peu de qualité -- alors que la numérisation n'en perd pas.

Une onde sonore est représentée en deux dimensions -- la pression (axe des y) et le temps (axe des x). La mesure d'un pic à l'autre d'une onde sonore permet de déterminer sa fréquence.

Les deux paramètres importants dans l'échantillonnage sont le taux d'échantillonnage et sa dimension (résolution).

Taux d'échantillonnage - plus un son est échantillonné rapidement (et rejoué au même taux), meilleure sera la qualité du son reproduit. Puisque l'oreille ne peut entendre que certaines fréquences, il n'est pas utile d'échantillonner au-delà d'un certain point.

Les humains peuvent entendre des fréquences autour de 16Hz (une onde vibrant 16 fois par seconde) jusqu'à un maximum de 20KHz (une onde vibrant 20,000 fois par seconde). Les femmes peuvent entendre des sons légèrement plus aigus que les hommes. Pour être en mesure de reproduire une onde sonore, vous devez échantillonner le son deux fois plus rapidement que la fréquence à reproduire (afin d'obtenir le point le plus élevé et le plus bas d'une onde sonore). Les ordinateurs et les CD échantillonnent à 44KHz (un peu plus de 2 fois 20KHz). À ce taux d'échantillonnage, l'ordinateur peut reproduire n'importe quel son pouvant être entendu d'un humain.

Les téléphones échantillonnent le son autour de 8KHz, ainsi les humains peuvent facilement reconnaître les voix et la musique passant par une ligne téléphonique.

Pour rester rigoureux, mentionnons que les téléphones «n'échantillonnent» pas vraiment les sons numériquement -- ils en coupent des bouts, ce qui est l'équivalent analogique de l'échantillonnage.

Dimension de l'échantillon - c'est la qualité de l'échantillon pris. Si chaque fois qu'un son est échantillonné, nous utilisons 8 bits (256 niveaux) -- alors on a une résolution passablement bonne -- mais pas suffisante pour ce qu'on appelle la «haute fidélité». Les CD échantillonnent sur 16 bits (65,536 niveaux) -- c'est une très bonne résolution permettant une meilleure reproduction.

Certaines nouvelles cartes de son PC utilisent le terme «carte de son 32 bits» -- il ne s'agit PAS de la dimension de l'échantillon, il s'agit de la largeur du bus d'entrées/sorties entre la carte et l'ordinateur. La qualité du son demeure exactement la même, simplement la carte peut déplacer le son plus rapidement.

Ce terme (carte de son 32 bits) est utilisé dans le monde PC parce que la plupart des cartes de son déplacent les données 8 bits à la fois -- alors le terme carte de son 32 bits sonne bien (pour les PC). Les Macs déplacent les données sonores 32 bits à la fois depuis une décennie déjà. Les nouveaux Macs utilisent des bus de 64 bits ou 128 bits.

La dimension de l'échantillon ne fait pas qu'influencer la qualité de l'onde, elle détermine également la portée dynamique de l'enregistrement (la différence entre le son le plus doux et le son le plus fort). Un son 8 bits fourni approximativement 48 décibels (dB) de portée dynamique. Un son 16 bits fourni environ 96 dB de portée dynamique. Les humains peuvent entendre jusqu'à 100 dB de portée dynamique.

Qualité - un tas de facteurs influencent la qualité du son créé par les ordinateurs. Le taux d'échantillonnage et la dimension de l'échantillon sont importants -- cependant l'onde reproduite ne peut jamais être une copie exacte de l'originale. Dans la figure suivante, l'onde originale est échantillonnée en des points discrets. Lorsque ce son est reproduit (en reliant les points de l'échantillon), on obtient une onde similaire, mais pas exactement identique à l'originale.

Heureusement la majorité de cette perte (erreur) est inaudible pour l'oreille humaine. Ces pertes surviennent surtout dans les hautes fréquences et les différences entre l'onde reproduite et l'originale sont petites et pas aussi importantes que dans la figure ci-dessus.

Le taux d'échantillonnage et la dimension de l'échantillon sont presque standardisé -- 44KHz, 16 bits, stéréo (deux canaux, un gauche et un droit, donnant la direction). La plupart des autres différences entre les sons de divers ordinateurs reposent sur la qualité des composantes utilisées. Les amplificateurs, haut-parleurs et la protection contre les interférences (isolation contre les autres composantes électroniques) rendent ces différences perceptibles.

 

Synthèse

L'échantillonnage requière beaucoup de mémoire.

C'est facile d'en calculer la quantité. Dimension de l'échantillon x Taux d'échantillonnage x canaux - ou - 16 bits (2 octets) par échantillon, 44,000 fois par seconde, sur deux canaux (stéréo) -- ce qui donne 172K/seconde (10 méga-octets par minute de son, 600 méga-octets par heure).

On peut utiliser une technique de compression permettant de réduire cette quantité à 1/4 -- on peut également réduire la qualité du son et celle de la dimension de l'échantillon (8 bits 22 KHz mono est suffisant pour les jeux et n'utilise que 22K/seconde). Vous êtes en mesure de constater qu'une bonne qualité sonore requière BEAUCOUP de mémoire.

Plutôt que de recréer le son par échantillonnage, on peut synthétiser le son. La synthèse est la création d'un son à partir de diverses composantes (ou la description de sa forme d'onde). La fréquence des ondes, le niveau, la forme et plusieurs autres effets secondaires et tertiaires sur ces ondes décrivent tous un son créé synthétiquement. Ça peut devenir complexe et la synthèse ne fonctionne pas très bien pour tout les sons. Par exemple : c'est très difficile de synthétiser la voix humaine (pour que la voix sonne comme celle d'un humain). Mais la synthèse donne de bons résultats pour la plupart des instruments et pour la musique. Alors si tout ce que vous voulez, c'est de jouer un peu de musique en arrière-plan, alors les sons synthétisés prendront beaucoup moins d'espace que les sons numérisés (échantillonnés).

Formes d'onde - les ondes de base tonales (notes) sont de simples fréquences continues qui sont faciles à décrire (mathématiquement). Ce sont :

Elles sont toutes faciles à décrire, cependant ces ondes synthétiques ne ressemblent pas exactement à l'onde produite par un instrument de musique jouant une note. Une note parfaite peut ressembler à l'onde sinusoïdale, et d'autres tons peuvent être semblables aux ondes triangulaires ou carrées, mais jamais tout à fait identiques. Si vous examinez de nouveau notre premier exemple de forme d'onde (au début de cet article) vous pourrez constater qu'elle ne correspond pas très bien à aucune de ces formes de base. Alors à la sortie on obtiendra la même note (ton) pour une forme de base -- mais elle ne sonnera pas comme un instrument de musique.

Tables d'onde -- Il est possible de faire un compromis entre le son échantillonné et le son synthétique. On peut échantillonner une onde en particulier représentant un instrument de musique. En augmentant (ou en ralentissant) la vitesse de l'onde, on peu augmenter et diminuer la hauteur du son -- et ainsi jouer différentes notes (tons) pour cette onde (instrument). Tout ça est fait par des tables décrivant l'onde -- d'où le nom «Tables d'onde synthétiques». Il s'agit bien d'un échantillon -- mais il n'a la dimension que d'une longueur d'onde.

Cela produit un son beaucoup plus proche de l'instrument de musique original comparativement au son synthétisé, et l'espace mémoire occupé est beaucoup moindre que le son numérisé. L'échantillonnage d'une pièce musicale complète donne un son plus riche et une expérience beaucoup plus réaliste, mais cela requière également beaucoup plus de mémoire. Chacun a ses forces et ses faiblesses, mais dans la majorité des cas le son numérisé est beaucoup mieux si vous possédez suffisamment de mémoire pour vous le permettre.

ADSR - La forme d'onde n'est qu'une composante du son -- c'est le ton produit par un instrument. Cependant les instruments ne font pas que produire des notes (les notes ne débutent, ni ne terminent parfaitement). Par exemple : la frappe d'une touche sur un piano produit plusieurs niveaux du même son. Le son initial augmente (le marteau frappant la corde et la relâchant), une période de maintient (alors qu'il s'amenuise peu à peu), puis le relâchement de la pédale lorsque le son s'arrête (mais pas instantanément). C'est la même chose pour les instruments à vent -- la montée du son à la création de la note, le maintient de la note, et le relâchement (le musicien termine ou joue la note suivante). On doit décrire ces caractéristiques du son pour bien les synthétiser. Ces étapes sont connues sous le nom ADSR -- Attack-Decay-Sustain-Release (Attaque, Décroissance, Maintient, Relâchement).

Le ton (forme d'onde) de l'instrument se mélange à cette description ADSR de la note, et le résultat est une bonne représentation du son de l'instrument original.

Alors la synthèse est la construction de sons (musique) à partir de différentes composantes. Non seulement devez-vous dire à l'ordinateur quelle note jouer, quel instrument utiliser et à quelle vitesse jouer les notes -- mais vous devez également être en mesure de lui indiquer la forme d'onde et l'ADSR.

 

Termes divers

Amplitude - C'est le point le plus élevée d'une onde. On ne peut aller au-delà de ce point. Alors tout ce qui est au-delà de l'amplitude maximale en entrée (ou en sortie) est coupé. C'est ce que vous pouvez apercevoir par les petits instruments de mesure VU (soit une aiguille ou des LED rouges ou verts) qui vous indiquent la force du son.

Gain - Votre amplificateur a une portée de 0 (off) à 10 (pleine puissance) -- c'est le «gain». Vous pouvez amener le gain au-delà de 10, ou au-delà du son original, cependant vous allez couper les sommets de l'onde, tel que décrit dans «l'amplitude». Avec QuickTime, vous pouvez augmenter le gain jusqu'à 3 fois plus que le son original.

MIDI - C'est un réseau pour les appareils musicaux (tels les claviers), et le protocole permettant d'échanger des informations sur les sons synthétisés. Cela leur permet de contrôler d'autres dispositifs, ou d'être contrôlés.

Formats de son -- Il existe plusieurs façons d'encoder le son numérisé -- et personne ne veut le faire de la même manière. Chacun de ces formats a ses faiblesses et ses forces.

Niveau de bruit par rapport au signal - des impuretés dans l'onde sonore peuvent éloigner un son de l'original -- c'est du «bruit» ou une interférence qui ne doit pas être entendue. Le bruit peut également être créé par des interférences électriques dans l'ordinateur : les amplificateurs, câbles, etc. On ne peut pas créer un son parfait -- mais on peut s'en approcher. Le signal est ce qui importe, le bruit est l'erreur -- ainsi on a le ratio du signal (le bon son) par rapport aux erreurs (bruit). Un ratio (niveau de bruit par rapport au signal) le plus élevé possible est désirable.

Le même terme est utilisé pour Internet. Le signal est l'information pertinente -- le bruit est représenté par des erreurs de transmission et le spam. Ici aussi le ratio le plus élevé est désirable.

Volume - c'est la force du son, plusieurs facteurs l'influencent. Certaines personnes ne s'en remettent qu'à la puissance d'un amplificateur (watts) pour le mesurer, c'est idiot puisque l'efficacité des haut-parleurs, leur taille, et la fréquence du son, influencent tous sur la force du son que vous percevez. (L'oreille perçoit certaines fréquences mieux que d'autres). De plus, il n'est pas linéaire -- ça prend dix fois plus de puissance pour qu'un son paraisse deux fois plus fort. Il est difficile de quantifier le volume avec autre chose que les décibels, ceux-ci sont pourtant ignorés de la plupart des gens.

 

CONCLUSION

Je crois que cet article vous apportera une excellente compréhension du son et son fonctionnement dans l'ordinateur. Cet article est la réponse à un lecteur qui a demandé innocemment des explications sur le fonctionnement des tables d'onde. Pour les expliquer, je devais d'abord m'assurer que les fondements soient bien compris.