10  La conversion analogique numérique

10.1 La nécessité de la conversion analogique numérique

Durant toute la période de l’audio analogique, le support de stockage de prédilection fut la bande magnétique. Cependant, celle-ci n’offre pas un rapport signal sur bruit très satisfaisant, limitant alors la dynamique musicale enregistrable. De plus, la bande a également un coût non négligeable. On a donc cherché à remplacer ce support afin de résoudre ces deux problèmes. Le stockage numérique offre, sous certaines conditions, une dynamique bien supérieure à celle des supports analogiques.

Une représentation numérique de l’audio permet aussi la réalisation de traitement délicat, voire impossible, en analogique. On pense, par exemple, aux algorithmes de réverbération, d’écho et de « pitch shifting » (modification de la hauteur d’un son).

Enfin, nos principaux outils de manipulation du son sont aujourd’hui informatiques. Dès lors, une représentation numérique des signaux est toute indiquée pour les manipuler grâce à nos ordinateurs. Il en découle donc une nécessité de bien maîtriser les principes entourant la numérisation des signaux.

En français, le « digital » est un anglicisme. Le mot correct est donc bien « numérique », et non « digital », qui qualifie ce qui a rapport au doigt.

10.2 Théorie de l’échantillonnage

10.2.1 D’un signal continu vers un signal échantillonné

Une des caractéristiques principales d’un signal analogique est qu’il est continu. Une fonction, en mathématique, est dite continue si elle est définie en n’importe quel instant. Afin d’être numérisé, un signal doit donc être dénombré. En effet, la notion d’infini imposé par la continuité du signal n’a pas d’existence en numérique.

La numérisation du signal est comparable à l’utilisation d’un multimètre pour mesurer une tension. Un convertisseur va prélever la valeur du signal, de façon régulière, au cours du temps.

Afin de correctement numériser un signal, il convient de définir deux paramètres :

  • la vitesse de prélèvement, ou fréquence d’échantillonnage
  • la plage de valeur permise pour le signal, ou résolution de quantification

10.2.2 La fréquence d’échantillonnage

Cette fréquence définit le nombre de prélèvements par seconde. Par exemple, un morceau édité sur un CD audio a une fréquence d’échantillonnage de 44 100 Hz (44,1 kHz), cela signifie que le signal est mesuré 44 100 fois par seconde.

La fréquence de travail la plus courante est 48 kHz, mais l’on rencontre parfois des valeurs supérieures, multiple de celle-ci : 96 kHz, 192 kHz, etc. Cette augmentation proportionnelle de la fréquence d’échantillonnage s’appelle suréchantillonnage. Certains techniciens espèrent ainsi améliorer la qualité de l’enregistrement. Ce suréchantillonnage à un coût en ressource CPU et en espace de stockage. Un flux audio échantillonné à 96 kHz demande deux fois plus de ressource et d’espace qu’un flux échantillonné à 48 kHz. Cette valeur initiale de 44 100 Hz (ou 48 kHz) n’a pas été choisie au hasard. Pour la comprendre, il faut revenir au phénomène physique que nous cherchons à numériser.

Rappelons que le son est une onde mécanique, et nous l’entendons lorsqu’elle oscille dans une plage de fréquence comprise entre 20 Hz (très grave) et 20 000 Hz (très aigu). Il faut donc que notre système de numérisation soit capable de reproduire une fréquence maximale allant jusqu’à 20 000 Hz. Pour cela, nous utilisons les résultats des travaux des chercheurs Harry Nyquist et Claude Shannon (tous deux ayant travaillé aux laboratoires Bell).

Le théorème de Shannon-Nyquist stipule que, pour être capable d’échantillonner un signal de fréquence \(f\), la fréquence d’échantillonnage doit au moins être de \(2f\). Ainsi, un ensemble de points généré par une fréquence inférieure à \(f\) ne peut correspondre qu’à cette seule et unique fréquence. Notre plage d’écoute étant limitée à 20 kHz, la fréquence d’échantillonnage minimale dont nous avons besoin est de 40 kHz.

Que se passe-t-il si la fréquence du signal dépasse la moitié de la fréquence d’échantillonnage ? Dans ce cas, la vitesse de prélèvement n’est plus suffisante et nous observons l’apparition de nouvelles fréquences ne provenant pas du signal original. Ce phénomène se nomme repliement spectral.

10.2.3 La résolution de quantification

La résolution de quantification permet de définir la plage de valeur dynamique permise dans le système numérique. Celle-ci s’exprime en bit. Par exemple, si nous prenons un convertisseur travaillant en 8 bit. Le nombre de valeurs que peut prendre un signal numérisé par un tel convertisseur est de \(2^8-1 = 255\) en base 10. Admettons que ce convertisseur accepte des signaux ayant une tension en entrée variant entre +15V et -15 V, celles-ci seront échelonnées sur 255 valeurs. Si maintenant, ce convertisseur travaille en 16 bit, il y aura 65 535 échelons. La précision de mesure de la dynamique du signal n’est donc pas du tout la même.

En pratique, augmenter la résolution de quantification permet principalement de définir le niveau de bruit du convertisseur. Plus la résolution est élevée, plus le bruit se retrouvera faible. En 8 bit, l’écart entre le niveau maximal d’un signal et le bruit est de 48 dB, en 16 bit cet écart est de 96 dB, en 24 bit, 144 dB. On peut approximativement calculer cette dynamique par la relation suivante :

\[ \Delta_L \approx 6 \times N_{bits} \]

La résolution de quantification standard en enregistrement est 24 bit. La plage dynamique est telle qu’elle rend le travail d’enregistrement beaucoup plus souple sur les niveaux d’acquisition des différentes sources.

10.3 Quelle influence sur le signal ?

Le son numérique a longtemps eu la réputation d’être « dur », particulièrement dans le haut du spectre. Cela s’explique assez facilement par le fonctionnement des premiers convertisseurs.

En effet, toute la difficulté de fabrication d’un convertisseur réside dans la réalisation d’un filtre anti-repliement, pour prévenir le repliement spectral. Ce filtre doit enlever toutes les fréquences au-dessus de la moitié de la fréquence d’échantillonnage, sans pour autant affecter le spectre audible. Ce type de filtre est extrêmement délicat à réaliser en analogique. Cependant, ce problème est résolu grâce à une méthode d’échantillonnage appelée « sigma-delta » (voir ci-dessous).

Le repliement spectral n’apparaît pas seulement lors de la conversion. Il peut également survenir lors de l’utilisation de certains traitements (saturation, simulation analogique, compresseurs). Lorsqu’il devient audible, le repliement spectral se caractérise par l’apparition de fréquences non harmoniques souvent qualifiées de « dures » et désagréables. Il est cependant bon de rappeler que ce phénomène, certes bien réel, apparaît dans des conditions de saturation du signal importante et sur des sources sonores riches en hautes fréquences.

Malgré la dure vie que mène parfois la réputation du son numérique, il est important de rappeler qu’il a apporté un grand nombre d’avantages sur le son analogique, y compris sur des questions de rendus sonores. Par exemple, la dynamique est bien plus importante, la distorsion involontaire du signal infime et l’ajout de bruit inexistant.

10.4 La conversion sigma-delta

Aujourd’hui, les convertisseurs ne travaillent pas directement à 44,1 kHz/16 bit ou 48 kHz/24 bit. Ils utilisent à la place un procédé appelé échantillonnage sigma-delta. Le principe est d’utiliser une fréquence d’échantillonnage très rapide (384 kHz) et de coder la dynamique du signal, en relatif, sur un seul bit (ce bit prend une valeur de 1 si le nouvel échantillon est plus fort que l’ancien, 0 pour le cas inverse). Les formats de travail que nous utilisons sont générés après cette première étape.

L’intérêt de cette méthode est double :

  • Le signal est suréchantillonné dès l’enregistrement
  • Les filtres permettant d’éviter le repliement spectral sont donc très simples à réaliser