Pourquoi la même musique sonne mieux sur Spotify que sur YouTube ?

N’avez-vous jamais remarqué que sur YouTube, vous avez une qualité inférieure en terme de sonorité que sur Spotify, autant pour les podcasts que pour les musiques ? Voici quelques raisons énumérés qui pourraient entrer dans l’équation.

Les conditions de réception des uploads

Déjà, à la réception, les deux plateformes n’ont pas les mêmes critères de réception. Chez YouTube, les formats compressés à perte (lossy encoding) sont accepté à partir de 128 kbits/s de bitrate. Sur Spotify, le format doit être impérativement sans perte (lossless encoding) : .WAV (non compressé) ou .FLAC (compressé mais sans perte).

Bref rappels sur les caractéristiques des formats audionumériques

  • L’échantillonnage est la fréquence donc les échantillons sont débités à la lecture (ou sont capturés à l’écriture). Il faut savoir que même avec le format non compressé, l’importation d’un signal audio sur un appareil numérique passe forcément par un échantillonneur qui se chargera de prendre le niveau de signal audio à une fréquence précise. Les deux taux d’échantillonnage les plus utilisés sont le 44.1 kHz puis plus tard le 48 kHz (qui a permis une synchronisation plus facile avec les vidéos qui à l’époque avait une norme de 24 images par secondes, ce qui fait que chaque image valait deux échantillons audio).
  • Le profondeur de bits qui indique combien de de bits on utilise pour représenter l’amplitude du signal sur un échantillon.
Echantillonnage d’un signal sur un profondeur de bits de 5 bits

Le bitrate réunit les deux paramètres : c’est le nombre de bits utilisés pour représenter une seconde de son. Vu les définitions précédentes, pour un format .WAV (sans compression) à 44.1 kHz d’échantillonnage avec 24 bits de profondeur de bits, on a 44 100 x 24 = 1 058 400 bits/s soit près de 1 Mbits/s.

Maintenant, parlons de compression. Rien à voir avec la compression audio lors d’un mixage avec le CL-2A. La compression, dans le monde numérique, consiste à réduire le nombre de bits qui représente, « approximativement » ou non, les mêmes données.

Grâce à des algorithmes tel que le AAC ou le Vorbis, la quantité de bits pour représenter un ensemble d’échantillon peut être baissé sans altérer ou en altérant très peu le signal représenté. Ceci permet de baisser le bitrate sans baisser le taux d’échantillonnage ni le profondeur de bits, et ainsi permettre, par exemple, un téléchargement plus rapide.

Les formats audios à la lecture

Les formats envoyés aux internautes sont différentes. Pour Spotify, les formats sont :

  • Ogg/Vorbis (96, 160 ou 320 kbits/s)
  • AAC (128 ou 256 kbits/s)
  • HE-AACv2 (24 kbits/s)

Le format envoyé par YouTube est principalement du AAC aux alentours de 128 kbits/s VBR (le bitrate varie selon les moments de la vidéo, par exemple, un gros silence de 20s ne prend que quelques bits par rapport à une grosse ambiance varié de 20s). Les vidéos hautes définitions semblent avoir un peu plus de qualité audio.

Youtube semble également utilisé des encodages différentes selon le nombre de vues. Plus un vidéo est regardée, plus ils tentent d’utiliser de meilleurs codecs qui ont un meilleur rendement et donc un bitrate plus faible pour un maximum de profondeur de bits. C’est une pratique assez courante, permettant d’économiser les ressources nécessaires à la compression : faire un compression rapide pour tous les vidéos pour ne pas boucher la file d’importation de vidéos sur la plateforme, puis réencoder en mieux les contenus les plus demandés pour faire baisser la consommation de bande passante induite.

L’impact du profondeur de bits

Contrairement à ce que l’on tend à penser, le profondeur de bits est plus important que l’échantillonnage qui est aujourd’hui quasiment standard (entre 44.1 et 48 kHz). De plus, nos appareils d’écoutes sont généralement limité à 48 kHz. Moi même je dispose d’interface audio supportant jusqu’à 192 kHz à 24 bits de profondeur, et je préfère rester à 48 kHz en 24 bits, plutôt que d’aller à 96 kHz par exemple, mais à 16 bits. Pour une meilleure écoute, un profondeur de bits important doit être en place pour représenter plus fidèlement les niveaux de variations du signal sonore.

Mais surtout, le profondeur de bits influe (légèrement pour les non audiophiles) sur l’intensité sonore ressentie, mesurée en LUFS. Notre cerveau et nos oreilles ont tendance à s’accommoder d’un niveau signal ambiant, et ressent donc mieux les variations plus que les niveaux eux-mêmes. Or, moins il y a de profondeur, moins il y a de détails dans la variation.

C’est ainsi que s’explique la qualité de Spotify. Grâce à un bitrate constant et haut, ils peuvent proposer un profondeur de bits plus haut que celui de YouTube, et ainsi une sensation d’intensité plus raffinée.

Laisser un commentaire