Aller au contenu

Systèmes sensoriels/Système Auditif/Traitement du Timbre

Un livre de Wikilivres.

Perception du timbre

[modifier | modifier le wikicode]

Cette section passe en revue un sujet clé en neuroscience auditive : la perception du timbre. Une certaine compréhension de base du système auditif est présumée, de sorte que les lecteurs sont encouragés à lire d'abord les sections ci-dessus sur l' 'Anatomie du système auditif' et le 'Traitement du signal auditif'.

Timbre est une perception subjective, évoquée par des sons qui ont une nature approximativement périodique. Pour de nombreux sons naturels, la périodicité d'un son est le principal déterminant du timbre. Pourtant, la relation entre un stimulus acoustique et le timbre est assez abstraite : en particulier, le timbre est assez robuste aux changements d'autres paramètres acoustiques tels que l'intensité sonore ou timbre spectral, qui peuvent tous deux modifier de manière significative les propriétés physiques d'une forme d'onde acoustique. Ceci est particulièrement évident dans les cas où des sons sans composantes spectrales partagées peuvent évoquer le même timbre, par exemple. Par conséquent, l'information relative à l'assiette longitudinale doit être extraite des repères spectraux et/ou temporels représentés sur plusieurs canaux de fréquences.

Les recherches sur le codage du timbre dans le système auditif se sont largement concentrées sur l'identification des processus neuronaux qui reflètent ces processus d'extraction, ou sur la recherche du " point final " d'un tel processus : une représentation explicite et robuste du timbre telle que perçue par l'auditeur. Les deux entreprises ont connu un certain succès, les preuves s'accumulant pour les " neurones sélectifs de la poix " dans des " zones de poix " putatives. Cependant, on peut se demander si l'activité de ces zones est réellement liée au timbre ou si elles présentent simplement une représentation sélective des paramètres liés au timbre. D'une part, la démonstration de l'activation de neurones ou de zones neurales spécifiques en réponse à de nombreux sons de pitch-evoking, souvent avec des variations substantielles dans leurs caractéristiques physiques, fournit des preuves corrélatives convaincantes que ces régions codent effectivement le pitch. D'autre part, il est difficile de démontrer la preuve causale que ces neurones représentent le timbre, ce qui nécessite probablement une combinaison d'approches d'enregistrement " in vivo " pour démontrer une correspondance de ces réponses aux jugements de hauteur (c.-à-d. ([wikipedia:Psychophysics|résponses psychophysical], plutôt que seulement la périodicité des stimulus), et une manipulation directe de l'activité dans ces cellules pour démontrer des biais prévisibles ou des altérations dans la perception du timbre.

En raison de la nature plutôt abstraite du timbre, nous n'entrerons pas immédiatement dans ce domaine de recherche active non encore résolu. Nous commençons plutôt notre discussion par les contreparties physiques les plus directes de la perception du timbre, c'est-à-dire la fréquence sonore (pour les sons purs) et, plus généralement, la périodicité des stimuli. Plus précisément, nous distinguerons et définirons plus concrètement les notions de périodicité et de timbre. Ensuite, nous exposerons brièvement les principaux mécanismes de calcul qui peuvent être mis en œuvre par le système auditif pour extraire ces informations relatives au timbre à partir de stimuli sonores. Par la suite, nous décrivons la représentation et le traitement des paramètres de hauteur dans le cochlée, le voie auditive ascendante sous-corticale], et, enfin, des résultats plus controversés dans[Systèmes sensoriels/Système auditif#Anatomie du système auditif|cortex auditif primaire] et au-delà, et évaluer les preuves de 'neurones de timbre' ou 'zones de timbre' dans ces régions corticales.

Périodicité et timbre

[modifier | modifier le wikicode]

Le timbre est une propriété psychophysique émergente. L'importance et la 'hauteur' du timbre dépend de plusieurs facteurs, mais à l'intérieur d'une gamme spécifique de fréquences harmoniques et fondamentales, appelée " région d'existence ", l'importance de la hauteur du timbre est largement déterminée par la régularité de la répétition des segments sonores ; la hauteur du timbre par le taux de répétition, également appelée fréquence modulante. L'ensemble des sons capables d'évoquer la perception du timbre est diversifié et spectralement hétérogène. De nombreux stimuli différents - y compris les sons purs, les trains de clics, les bruits d'ondulation itérés, les sons modulés en amplitude, etc. - peuvent évoquer une perception de hauteur, tandis qu'un autre signal acoustique, même avec des caractéristiques physiques très similaires à de tels stimuli, peut ne pas évoquer la hauteur. La plupart des sons naturels de pitch-evoking sont des complexes harmoniques - des sons contenant un spectre de fréquences qui sont des multiples entiers de la fréquence fondamentale, F0. Une découverte importante dans la recherche sur le timbre est le phénomène de la 'fondamentale manquante' (voir ci-dessous) : dans une certaine gamme de fréquences, toute l'énergie spectrale à F0 peut être retirée d'un complexe harmonique, et évoquer encore une hauteur corrélée à F0 dans une oreille humaine [1]. Cette constatation semble généraliser à de nombreux systèmes auditifs non humains [2][3].

Pitch de la fondamentale manquante. Spectrographes audio pour la mélodie de 'Mary had a little lamb'. (gauche) Melody jouait avec des sonorités pures (fondamentales), (milieu) mélodie jouée avec des harmoniques fondamentales et six premières harmoniques, (droite) mélodie jouée avec seulement des harmoniques, avec l'énergie spectrale à la fréquence fondamentale enlevée. Comme le montrent les clips audio correspondants à gauche, ces trois mélodies diffèrent dans le timbre, mais la hauteur est inchangée, malgré le fait que les mélodies fondamentales et pures n'ont pas de composantes spectrales en commun.



Modèle:Listen



Le phénomène de la 'fondamentale manquante' est important pour deux raisons. Premièrement, il s'agit d'un point de référence important pour évaluer si des neurones ou des régions du cerveau sont spécialisés dans le traitement du timbre, car on peut s'attendre à ce que ces unités présentent une activité reflétant F0 (et donc le timbre), indépendamment de sa présence dans le son et d'autres paramètres acoustiques. De manière plus générale, un 'neurone de timbre' ou 'centre de timbre' devrait montrer une activité constante en réponse à tous les stimuli qui évoquent une perception particulière du timbre. Comme nous le verrons plus loin, cela a été à l'origine d'un certain désaccord sur l'identification des neurones ou zones.  Deuxièmement, le fait que l'on puisse percevoir un timbre correspondant à F0 même en son absence dans le stimulus auditif fournit des preuves solides contre la mise en œuvre par le cerveau d'un mécanisme de 'sélection' de F0 pour déduire directement le timbre. le timbre doit plutôt être extraite de repères temporels ou spectraux (ou les deux) [4].

Mécanismes d'extraction du timbre : repères spectraux et temporels

[modifier | modifier le wikicode]
Harmoniques résolues et non résolues. Un spectre schématique, un motif d'excitation et une vibration simulée à membrane basilaire (BM) pour une tonalité complexe avec un F0 de 100 Hz et des harmoniques d'amplitude égale. Comme on peut le voir dans le motif d'excitation et les vibrations BM, les harmoniques d'ordre supérieur sont " non résolues ", c'est-à-dire qu'il n'y a pas de séparation efficace des harmoniques individuelles. (Description adaptée de l'auteur original. Disponible sur: http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html)

Ces deux indices (spectral et temporel) sont les bases de deux grandes classes de modèles d'extraction du timbre [4]. Les premières sont les méthodes du domaine temporel, qui utilisent des repères temporels pour évaluer si un son est constitué d'un segment répétitif et, le cas échéant, le taux de répétition. Une méthode couramment proposée est autocorrélation]. Une fonction d'autocorrélation consiste essentiellement à trouver les délais entre deux points d'échantillonnage qui donneront la corrélation maximale : par exemple, une onde sonore d'une fréquence de 100 Hz (ou période, T=10 ms) aurait une corrélation maximale si les échantillons sont prélevés à 10 ms d'intervalle. Pour une onde de 200 Hz, le retard donnant une corrélation maximale serait de 5 ms - mais aussi à 10 ms, 15 ms et ainsi de suite. Ainsi, si une telle fonction est exécutée sur toutes les fréquences composantes d'un complexe harmonique avec F0=100 Hz (et donc ayant des harmoniques à 200 Hz, 300 Hz, 400 Hz, et ainsi de suite), et que les intervalles de temps résultants donnant une corrélation maximale étaient additionnés, ils voteraient collectivement pour 10 ms - la périodicité du son. La deuxième classe de stratégies d'extraction de hauteur est celle des méthodes du domaine fréquentiel, où le timbre est extrait en analysant les spectres de fréquence d'un son pour calculer F0. Par exemple, les processus de " correspondance de modèle " - tels que le ‘harmonic sieve’ - proposent que le spectre de fréquence d'un son soit simplement adapté aux modèles harmoniques - la meilleure correspondance donne le bon F0[5].

Il y a des limites aux deux catégories d'explications. Les méthodes dans le domaine des fréquences exigent que les fréquences harmoniques soient résolues - c'est-à-dire que chaque harmonique soit représentée comme une bande de fréquences distincte (voir la figure de droite). Pourtant, les harmoniques d'ordre supérieur, qui ne sont pas résolues en raison de la largeur de bande plus large dans la représentation physiologique pour les fréquences plus élevées (conséquence de l'organisation logarithmique de la membrane basilaire), peuvent encore évoquer le timbre correspondant à F0. Les modèles temporels n'ont pas ce problème, puisqu'une fonction d'autocorrélation devrait toujours produire la même périodicité, que la fonction soit exécutée sur un ou plusieurs canaux de fréquence. Cependant, il est difficile d'attribuer les limites inférieures des fréquences de pitch-evoking à l'autocorrélation : des études psychophysiques démontrent que l'on peut percevoir le timbre à partir de complexes harmoniques avec des fondamentales manquantes aussi bas que 30Hz ; ceci correspond à un retard d'échantillonnage de plus de 33 ms - bien plus long que le retard de ~10 ms communément observé dans la signalisation neurale [4].    

Phase sinusoïdale (gauche) et phase alternée (droite) harmoniques. Ces complexes ont le même F0 (125 Hz) et les mêmes nombres harmoniques, mais la hauteur du complexe à droite est supérieure d'une octave à celle du complexe à gauche. Les deux complexes ont été filtrés entre 3900 et 5400 Hz. (Description adaptée de l'auteur original. Disponible sur: http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html)

Une stratégie pour déterminer laquelle de ces deux stratégies est adoptée par le système auditif est l'utilisation d'harmoniques en phase alternée : présenter des harmoniques impaires en phase sinusoïdale, et même des harmoniques en phase cosinusoïdale. Comme cela n'affectera pas le contenu spectral du stimulus, aucun changement dans la perception du timbre ne devrait se produire si l'auditeur se fie principalement sur des repères spectraux. D'autre part, le taux de répétition de l'enveloppe temporelle doublera. Ainsi, si des repères d'enveloppe temporelle sont adoptés, le timbre perçue par les auditeurs pour les harmoniques de phase alternée sera d'une octave au-dessus (c.-à-d. le double de la fréquence) du timbre perçue pour les harmoniques toutes-cosinus avec la même composition spectrale. Des études psychophysiques ont étudié la sensibilité de la perception du timbre à de tels changements de phase sur différentes plages F0 et harmoniques, fournissant la preuve que les deux humains [6] et autres primates [7] adoptent une stratégie double : des signaux spectraux sont utilisés pour les harmoniques résolues d'ordre inférieur, tandis que des signaux d'enveloppe temporelle sont utilisés pour les harmoniques non résolues d'ordre supérieur.

Extraction du timbre dans la voie auditive ascendante

[modifier | modifier le wikicode]

On a rapporté que la discrimination par la poix chez l'homme est inférieure à 1% [8]. Compte tenu de cette sensibilité élevée aux changements de hauteur et de la démonstration que des repères spectraux et temporels sont utilisés pour l'extraction du timbre, nous pouvons prédire que le système auditif représente à la fois la composition spectrale et la structure fine temporelle des stimuli acoustiques d'une manière très précise, jusqu'à ce que ces représentations soient finalement transmises explicitement la périodicité ou les neurones sélectifs de hauteur.

Les expériences électrophysiologiques ont identifié des réponses neuronales dans le système auditif ascendant qui sont cohérentes avec cette notion. A partir du niveau de la cochlée, les mouvements de la membrane basilaire (BM) cartographiée tonopiquement en réponse à des stimuli auditifs établissent un Place theory (hearing)] pour la composition de fréquence le long de l'axe BM. Ces représentations sont encore renforcées par un phase-locking des fibres nerveuses auditives (ANFs) aux composantes de fréquence auxquelles il répond. Ce mécanisme de représentation temporelle de la composition de la fréquence est encore amélioré de nombreuses façons, comme inhibition latérale à la cellule pileuse / ganglion spiral synapse [9], appuyant l'idée que cette représentation précise est essentielle pour le codage du timbre.

Ainsi, à ce stade, les pics temporels à verrouillage de phase des FNA sont probablement porteurs d'une représentation implicite de la périodicité. Ceci a été testé directement par Cariani et Delgutte[10]. En analysant la distribution des intervalles inter-spike de tous les ordres (ISI) dans les FNA des chats, ils ont montré que l'ISI le plus commun était la périodicité du stimulus, et que le rapport crête/moyenne de ces distributions augmentait pour les stimuli complexes évoquant des perceptions de hauteur plus saillantes. Sur la base de ces résultats, ces auteurs ont proposé l'" hypothèse de l'intervalle prédominant ", où un code commun de tous les ISI d'ordre " vote " pour la périodicité - bien que, bien sûr, ce résultat soit une conséquence inévitable des réponses à verrouillage de phase des FNA. En outre, il est prouvé que le code de lieu pour les composantes de fréquence est également critique. En croisant un stimulus basse fréquence avec une porteuse haute fréquence, Oxenham et al. ont transposé la structure temporelle fine de la sinusoïde basse fréquence à des régions de fréquence plus élevée le long de la BM.[11] Ceci a conduit à une altération significative des capacités de discrimination du timbre. Ainsi, le codage du lieu et le codage temporel représentent l'information relative à l'assiette longitudinale dans les FNA.

Le nerf auditif transporte l'information jusqu'au noyau cochléaire (CN). Ici, de nombreux types de cellules représentent l'information relative au timbre de terrain de différentes manières. Par exemple, de nombreuses cellules buissonnantes semblent avoir peu de différence dans les propriétés de mise à feu des fibres nerveuses auditives - l'information peut être transmise à des régions cérébrales d'ordre supérieur sans modification significative [4]. Selon Winter et ses collègues, les intervalles de pointe du premier ordre dans ces cellules correspondent à la périodicité en réponse à des stimuli de bruit ondulé itéré (IRN), ainsi qu'à des complexes harmoniques en phase cosinusine et en phase aléatoire, invariablement au niveau sonore [12]. Bien qu'il soit nécessaire de caractériser davantage les réponses de ces cellules à différents stimuli de tangage, il y a donc une certaine indication que l'extraction du tangage peut commencer dès le niveau du CN.

Dans le collicule inférieur (IC), il existe des preuves que le taux de réponse moyen des neurones est égal à la périodicité du stimulus [13]. Des études subséquentes comparant les réponses des neurones IC aux complexes harmoniques de même phase et de phase alternée suggèrent que ces cellules peuvent répondre à la périodicité du niveau d'énergie global (c.-à-d. l'enveloppe), plutôt qu'à la véritable fréquence de modulation, mais il n'est pas clair si cela s'applique seulement aux harmoniques non résolus (comme le prédisent les expériences psychophysiques) ou aussi aux harmoniques résolus [4]. Il reste beaucoup d'incertitude quant à la représentation de la périodicité dans le CI.

Codage du timbre dans le cortex auditif

[modifier | modifier le wikicode]

Il y a donc une tendance à renforcer cette représentation de F0 dans l'ensemble du système auditif ascendant, bien que la nature précise de cette représentation demeure incertaine. Dans ces étapes sous-corticales de la voie auditive ascendante, cependant, il n'y a pas de preuve d'une représentation explicite qui code de façon constante l'information correspondant au timbre perçue. De telles représentations se produisent probablement dans les régions auditives " supérieures ", à partir du cortex auditif primaire.

En effet, des études de lésions ont démontré la nécessité d'un cortex auditif dans la perception du timbre. Bien entendu, une altération de la détection de la tonalité à la suite de lésions du cortex auditif peut simplement refléter un rôle de transmission passive pour le cortex : là où l'information sous-corticale doit " passer à travers " pour affecter le comportement. Pourtant, des études comme celle de Whitfield ont démontré que ce n'est probablement pas le cas : alors que les chats décoratifs pourraient être formés à nouveau (suite à une ablation duur cortex auditif) pour reconnaître des sons complexes composés de trois composantes de fréquence, les animaux ont sélectivement perdu la capacité de généraliser ces sons à d'autres complexes avec le même pitch[14]. En d'autres termes, si la composition harmonique peut influencer le comportement, les relations harmoniques (c'est-à-dire une queue de hauteur) ne le peuvent pas. Par exemple, l'animal lésé pourrait répondre correctement à un son pur à 100Hz, mais ne répondrait pas à un complexe harmonique composé de ses harmoniques harmoniques (à 200Hz, 300Hz, et ainsi de suite). Cela suggère fortement un rôle pour le cortex auditif dans la poursuite de l'extraction de l'information relative au timbre.

Les premières études MEG du cortex auditif primaire avaient suggéré que A1 contenait une carte de hauteur. Ceci était basé sur les résultats qu'un son pur et son complexe harmonique fondamental (MF) manquant évoquait l'excitation par stimulus (appelée N100m) au même endroit, alors que les fréquences des composantes du MF présentées isolément évoquaient des excitations dans différents endroits [15]. Pourtant, ces notions ont été surestimées par les résultats d'expériences utilisant des techniques à plus haute résolution spatiale : wikipedia:Local_field_potential|local field potential (LFP)]] et multi-unit_recording|multi-unit recording (MUA)] ont démontré que la cartographie A1 était tonotopique - c'est-à-dire, basée sur la meilleure fréquence des neurones (BF), plutôt que sur la meilleure 'timbre'[16]. Ces techniques démontrent toutefois l'émergence de mécanismes de codage distincts reflétant l'extraction de signaux temporels et spectraux : une représentation à verrouillage de phase du taux de répétition de l'enveloppe temporelle a été enregistrée dans les régions BF supérieures de la carte tonotopique, tandis que la structure harmonique du train de clics était représentée dans les régions BF inférieures [17] Ainsi, les repères pour l'extraction du brai peuvent être encore améliorés par cette étape.

Illustration schématique de neurones à pics multiples. La ligne pointillée bleue montre une courbe d'accord classique pour un neurone sélectif à fréquence unique avec une meilleure fréquence (BF) aux alentours de 500 Hz, comme l'illustre la réponse maximale de ce neurone aux fréquences autour de ce BF. La ligne solide rouge montre une réponse schématique d'un neurone à pics multiples identifié par Kadia et Wang (2003). En plus d'un BF à 300Hz, ce neurone est également excité par des tonalités à 600Hz et 900Hz - c'est-à-dire des fréquences en relation harmonique avec le BF principal. Bien qu'elles ne soient pas illustrées ici, les réponses de ces neurones aux complexes harmoniques (dans ce cas, consistant en 300, 600 et 900 Hz par exemple) ont souvent eu un effet additif, suscitant des réponses plus grandes que celles d'un son pur au BF (c'est-à-dire 300 Hz) seul. Voir la référence [18]

Kadia et Wang ont décrit un exemple de substrat neuronal susceptible de faciliter une telle amélioration dans le cortex auditif primaire des ouistitis [18]. Environ 20 % des neurones ici pourraient être classés comme des unités " multicrêtes " : des neurones qui ont des zones de réponse en fréquence multiples, souvent en relation harmonique (voir figure, à droite). De plus, l'excitation de deux de ces pics spectraux a un effet synergique sur les réponses des neurones. Cela faciliterait donc l'extraction de tonalités harmoniquement liées dans le stimulus acoustique, permettant à ces neurones d'agir comme un " modèle harmonique " pour l'extraction de signaux spectraux. De plus, ces auteurs ont observé que dans la majorité des neurones à pic unique (c'est-à-dire des neurones avec un seul pic d'accord spectral à son FB), une tonalité secondaire pourrait avoir un effet modulatoire (facilitant ou inhibant) sur la réponse du neurone à son FB. Encore une fois, ces fréquences modulantes étaient souvent en relation harmonique avec le BF. Ces mécanismes de facilitation peuvent donc permettre l'extraction de certaines composantes harmoniques, tandis que le rejet d'autres combinaisons spectrales par modulation inhibitrice peut faciliter la désambiguïsation avec d'autres complexes harmoniques ou des complexes non harmoniques comme le bruit à large bande.

Les 'régions de hauteur' putatives dans le plan supratemporel humain. (A) Vue latérale de l'hémisphère gauche, avec STG indiqué en rouge. (B-D) Vue de dessus du plan supratemporel gauche, après enlèvement d'une grande partie du cortex pariétal. PP, HG et PT sont indiqués respectivement en bleu, jaune et vert. Les principaux sulcus sont en noir (FTS, premier sulcus transversal ; SI, sulcus intermédiaire ; HS, sulcus de Heschl ; HS1, premier sulcus de Heschl ; HS2, deuxième sulcus de Heschl). Les panneaux comprennent des hémisphères avec un HG, une séparation incomplète de HG et deux HG en (B-D), respectivement.

Cependant, étant donné que la tendance à améliorer F0 a été démontrée dans l'ensemble du système auditif sous-cortical, on pourrait s'attendre à devoir se rapprocher d'une représentation plus explicite du timbre dans le cortex. Les expériences de neuroimagerie ont exploré cette idée, capitalisant sur la qualité émergente du timbre : une méthode soustractive permet d'identifier les zones du cerveau qui montrent BOLD responses] en réponse à un stimulus de pitch-evoking, mais pas à un autre son ayant des propriétés spectrales très similaires, mais qui n'évoque pas la perception du timbre. De telles stratégies ont été utilisées par Patterson, Griffiths et collègues : en soustrayant le signal BOLD acquis pendant la présentation du bruit à large bande du signal acquis pendant la présentation de l'IRN, ils ont identifié une activation sélective du gyrus latéral (et, dans une certaine mesure, médial) de Heschl (HG) en réponse à cette dernière classe de sons de pitch-evoking [19]. De plus, la variation du taux de répétition de l'IRN dans le temps pour créer une mélodie a conduit à une activation supplémentaire dans le gyrus temporal supérieur (STG) et le planum polare (PP), ce qui suggère un traitement hiérarchique du timbre à travers le cortex auditif. Dans cette optique, les enregistrements MEG de Krumbholz et al. ont montré qu'à mesure que le taux de répétition des stimuli IRN augmente, un nouveau N100m est détecté autour de la HG lorsque le taux de répétition franchit le seuil inférieur pour la perception du timbre, et l'amplitude de cette "réponse au timbre" augmente avec la salinité du timbre [20].

Il y a cependant un débat sur l'emplacement précis de la zone de sélection de l'emplacement. Comme le soulignent Hall et Plack, l'utilisation des stimuli IRN seuls pour identifier les zones corticales sensibles au timbre est insuffisante pour saisir le large éventail de stimuli qui peuvent induire la perception du timbre : l'activation de HG peut être spécifique aux stimuli répétitifs à large bande [21]. En effet, sur la base des signaux BOLD observés en réponse à de multiples stimuli de pitch-evoking, Hall et Plack suggèrent que le planum temporale (PT) est plus pertinent pour le traitement du pitch.

Malgré les désaccords en cours sur la zone neuronale précise spécialisée dans le codage du timbre, de telles preuves suggèrent que les régions situées en antérolatéral par rapport à A1 peuvent être spécialisées dans la perception du timbre. L'identification des neurones " sélectifs du timbre " à la frontière antérolatérale de A1 dans le cortex auditif du marmouset vient étayer cette notion. Ces neurones étaient sélectivement sensibles à la fois aux sons purs et aux harmoniques F0 manquants avec les périodicités similaires [22]. Beaucoup de ces neurones étaient également sensibles à la périodicité d'autres stimuli, tels que les trains de clics ou le bruit IRN. Cela prouve clairement que ces neurones ne répondent pas simplement à une composante particulière du signal acoustique, mais qu'ils représentent spécifiquement des informations relatives au timbre.

Codage périodique ou codage de timbre ?

[modifier | modifier le wikicode]

L'accumulation de preuves suggère donc qu'il existe des neurones et des zones neurales spécialisées dans l'extraction de F0, probablement dans des régions juste avant les régions à faible FB de A1. Cependant, il y a encore des difficultés à appeler ces neurones ou zones "sélectives du timbre". Bien que le stimulus F0 soit certainement un déterminant clé du timbre, il n'est pas nécessairement équivalent au timbre perçue par l'auditeur.

Il y a cependant plusieurs sources de données suggérant que ces régions sont en fait des régions codant le pitch, plutôt que seulement F0. Par exemple, une étude plus poussée des unités sélectives de pas de marmouset par Bendor et ses collègues a démontré que l'activité de ces neurones correspond bien aux réponses psychophysiques des animaux [7]. Ces auteurs ont testé la capacité des animaux à détecter un complexe harmonique en phase alternée au milieu d'une présentation continue d'harmoniques de même phase au même F0, afin de distinguer entre le moment où les animaux se fient davantage à des repères d'enveloppe temporelle pour la perception du timbre qu'à des repères spectraux. Conformément aux expériences psychophysiques chez l'homme, les marmousets utilisaient principalement des repères d'enveloppe temporelle pour les harmoniques d'ordre supérieur, les harmoniques non résolues de faible F0, tandis que les repères spectraux étaient utilisés pour extraire le timbre des harmoniques d'ordre inférieur des complexes F0 élevés. L'enregistrement de ces neurones sélectifs de hauteur a montré que l'accord F0 décalé vers le bas d'une octave pour les harmoniques de phase alternée, par rapport aux harmoniques de même phase pour les neurones accordés sur les basses F0s. Ces modèles de réponses neuronales sont donc cohérents avec les résultats psychophysiques et suggèrent que des indices temporels et spectraux sont intégrés dans ces neurones pour influencer la perception du timbre.

Encore une fois, cette étude ne permet pas de distinguer définitivement si ces neurones sélectifs de hauteur représentent explicitement le timbre, ou simplement une intégration d'informations F0 qui seront ensuite décodées pour percevoir le timbre. Une approche plus directe a été adoptée par Bizley et al, qui ont analysé comment les mesures LFP et MUA du cortex auditif chez les furets pourraient être utilisées indépendamment pour estimer le stimulus F0 et la perception du timbre [23]. Alors que les furets étaient engagés dans une tâche de discrimination de hauteur (pour indiquer si un son de voyelle artificielle cible était plus haut ou plus bas en hauteur qu'une référence dans un paradigme de choix forcé 2-alternative forcé], l'analyse receiver operating characteristic (ROC) a été utilisée pour estimer la discriminabilité de l'activité neuronale dans la prédiction du changement dans F0 ou le choix comportemental réel (i)].e. un substitut de la perception du timbre). Ils ont constaté que les réponses neurales dans l'ensemble du cortex auditif étaient informatives en ce qui concerne les deux. Au départ, l'activité discriminait mieux F0 que le choix de l'animal, mais l'information concernant le choix de l'animal s'est régulièrement accrue tout au long de l'intervalle post-timulus, devenant finalement plus discriminable que la direction du changement de F0 [23].

La comparaison des différences de ROC entre les zones corticales étudiées a montré que l'activité des champs postérieurs discriminait mieux le choix des furets. Cela peut être interprété de deux façons. Étant donné que l'activité liée au choix était plus élevée dans les champs postérieurs (qui se situent à la limite inférieure du BF de A1) que dans les champs primaires, cela peut être considéré comme une preuve supplémentaire de la sélectivité du timbre près de la limite inférieure du BF de A1. D'autre part, le fait que l'information relative au timbre a également été observée dans les champs auditifs primaires peut suggérer que suffisamment d'information relative au timbre peut déjà être établie à ce stade, ou qu'un code réparti sur plusieurs zones auditives. En effet, alors que les neurones individuels répartis dans le cortex auditif sont en général sensibles à de multiples paramètres acoustiques (et donc non " sélectifs en hauteur "), les analyses théoriques de l'information ou neurométriques (utilisant des données neurales pour inférer des informations liées aux stimulus) indiquent que l'information en hauteur peut néanmoins être représentée de manière robuste via population coding, ou même par des neurones individuels par multiplexage temporel (i.e., représentant plusieurs caractéristiques sonores dans des fenêtres temporelles distinctes) [24][25]. Ainsi, en l'absence de stimulation ou de désactivation de ces neurones ou zones putatifs sélectifs du timbre pour démontrer que de telles interventions induisent des biais prévisibles ou des altérations du timbre, il se peut que le timbre soit représentée dans des codes spatialement et temporellement répartis sur l'ensemble du cortex auditif, plutôt que de s'appuyer sur des représentations locales spécialisées.

Ainsi, l'enregistrement électrophysiologique et les études de neuroimagerie suggèrent qu'il pourrait y avoir un code neuronal explicite pour le timbre près de la limite inférieure du BF de A1. Certes, les réponses cohérentes et sélectives à une large gamme de stimuli de pitch-evoking suggèrent que ces neurones et zones putatifs sélectifs de pitch ne reflètent pas simplement une caractéristique physique immédiatement disponible du signal acoustique. De plus, il est prouvé que ces neurones sélectifs de poix putatifs extraient l'information des signaux spectraux et temporels de la même manière que l'animal. Cependant, en vertu de la relation abstraite entre le timbre et un signal acoustique, une telle preuve corrélative entre un stimulus et une réponse neuronale ne peut être interprétée que comme une preuve que le système auditif a la capacité de former des représentations améliorées des paramètres liés au timbre. En l'absence de preuves causales plus directes pour ces neurones présumés sélectifs du timbre et les zones neurales déterminant la perception du timbre, nous ne pouvons pas conclure si les animaux se fient effectivement à de tels codes explicites localisés pour le timbre, ou si les solides représentations distribuées du timbre à travers le cortex auditif marquent le codage final du timbre dans le système auditif. 

  1. Schouten, J. F. (1938). The perception of subjective tones. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen41, 1086-1093.  
  2. Cynx, J. & Shapiro, M. Perception of missing fundamental by a species of songbird (Sturnus vulgaris). J Comp Psychol 100, 356–360 (1986).
  3. Heffner, H., & Whitfield, I. C. (1976). Perception of the missing fundamental by cats. The Journal of the Acoustical Society of America59(4), 915-919.
  4. 4,0 4,1 4,2 4,3 et 4,4 Schnupp, J., Nelken, I. & King, A. Auditory neuroscience: Making sense of sound. (MIT press, 2011).
  5. Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. EURASIP Journal on Audio, Speech, and Music Processing 2014, 1 (2014).
  6. Carlyon RP, Shackleton TM (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?" Journal of the Acoustical Society of America 95:3541-3554    
  7. 7,0 et 7,1 Bendor D, Osmanski MS, Wang X (2012). "Dual-pitch processing mechanisms in primate auditory cortex," Journal of Neuroscience 32:16149-61.
  8. Tramo, M. J., Shah, G. D., & Braida, L. D. (2002). Functional role of auditory cortex in frequency processing and pitch perception. Journal of Neurophysiology87(1), 122-139.
  9. Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. Hearing research141(1), 1-11.
  10. Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology76(3), 1698-1716.
  11. Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. Proceedings of the National Academy of Sciences of the United States of America101(5), 1421-1425.    
  12. Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). The temporal representation of the delay of iterated rippled noise in the ventral cochlear nucleus of the guinea-pig. The Journal of physiology, 537(2), 553-566.
  13. Schreiner, C. E. & Langner, G. Periodicity coding in the inferior colliculus of the cat. II. Topographical organization. Journal of neurophysiology 60, 1823–1840 (1988).
  14. Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.
  15. Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.Science246(4929), 486-488.
  16. Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.    
  17. Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.    
  18. Kadia, S. C., & Wang, X. (2003). Intégration spectrale en A1 de primates éveillés : neurones aux caractéristiques d'accordage simple et multicrêtes. Journal of neurophysiology ", " 89 "(3), 1603-1622.    
  19. Patterson RD, Uppenkamp S, Johnsrude IS, Griffiths TD. (2002) "The processing of temporal pitch and melody information in auditory cortex," Neuron 36:767-776.    
  20. Krumbholz, K., Patterson, R. D., Seither-Preisler, A., Lammertmann, C., & Lütkenhöner, B. (2003). Neuromagnetic evidence for a pitch processing center in Heschl’s gyrus. Cerebral Cortex13(7), 765-772.
  21. Hall DA, Plack CJ (2009). "Pitch processing sites in the human auditory brain," Cereb Cortex 19(3):576-85.    
  22. Bendor D, Wang X (2005). "The neuronal representation of pitch in primate auditory cortex," Nature 436(7054):1161-5.    
  23. 23,0 et 23,1 Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.
  24. Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011). Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76 
  25. Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91.