Transmison de la informacion del habla a traves de una protesis coclear multicanal Dra Leonor Aronson Departamento de Implante Coclear de la Fundación Arauz (DICFA) […]

Transmison de la informacion del habla a traves de una protesis coclear multicanal

Dra Leonor Aronson
Departamento de Implante Coclear de la Fundación Arauz (DICFA)
Perón 2150 PB 1040 Capital, Buenos Aires
laronson@sinfomed.org.ar

Marzo de 2002

ABSTRACT
El estudio central al que se abocan desde hace varios años los diseñadores de prótesis auditivas implantables, es el de la transferencia de la información relevante contenida en el habla
Los desarrollos alcanzados y los beneficios obtenidos por los pacientes con pérdidas profundas de la función auditiva son notables.
El alto desarrollo tecnológico ha permitido, mediante la estimulación a altas velocidades del tejido neural residual, reproducir la función coclear normal con una alta resolución en la información temporal codificada. Pero aún queda mucho por andar y faltan muchas respuestas para lograr establecer ó reestablecer la comunicación de los sujetos con pérdidas auditivas sensorineurales mediante la estimulación eléctrica del nervio auditivo.
Se presentan los puntos relevantes que se toman en cuenta para mejorar la codificación de las señales acústicas para ser enviadas a través de una prótesis multicanal. Se hará mención de los resultados obtenidos en la percepción del habla en pacientes adultos referentes al número de electrodos activos y a la frecuencia de repetición del estímulo por canal activo.
El análisis del habla y de las capacidades propias de cada individuo, permitirán organizar la información relevante contenida en el mensaje acústico para optimizar la comunicación del paciente con implante coclear.

Introducción
La función básica de un implante coclear es proveer información del lenguaje mediante estímulos eléctricos aplicados a la cóclea.
En los últimos 10 años, los avances tecnológicos en esta área han sido enormes. El límite de la velocidad con que actualmente se estimula el tejido neural en una prótesis coclear, parece estar dado por limitaciones biológicas más que técnicas. Las estrategias de codificación de la voz tienden a enviar información a velocidades que permitan una representación temporal del habla fluida con mínima pérdida de información.
La estimulación eléctrica en zonas específicas de la cóclea, lograda con los modos bipolares, que en teoría proveen mejor separación entre canales, se realiza ahora en diversas prótesis, con estimulación monopolar. Esta permite en la práctica, sin desmejorar la discriminación del lenguaje, la utilización de pulsos muy angostos, mayor velocidad de repetición por canal y menor consumo de baterías.
Las técnicas de calibración de los parámetros eléctricos del procesador de sonidos de un implante coclear, tienden a refinarse para tomar en cuenta aspectos fisiológicos de cada paciente. En suma, se producen cambios muy importantes tendientes a lograr que el procesamiento de la información provea al paciente implantado, una señal eléctrica que copie más fielmente la señal del habla. Se producen cambios en los dispositivos, en las estrategias de codificación del habla, en los criterios de selección de pacientes y en la información electrofisiológica que se dispone del paciente.
Actualmente, la investigación está centrada en los siguientes puntos :

  •  el mecanismo utilizado para recuperar la carga eléctrica
  • el acoplamiento capacitivo versus “electrode shorting”
  • la telemetría disponible: impedancia, complianza, respuesta neural
  • las estrategias de codificación de la voz: máximos espectrales (1),
  • muestreo continuo no simultáneo (2-3), combinación de ambos aspectos: número
    de máximos “ n of m “ (4).

Blake Wilson (5) señala que las posibilidades fundamentales de futuro desarrollo de las estrategias de codificación del habla son :aumento de la velocidad de estimulación para mejorar la representación neural de los cambios temporales rápidos del habla; reducción de la interacción entre canales a través del uso de nuevas formas de onda; nuevas formas de enviar información de la envolvente para cada canal, basadas en modelos de compresión no instantánea a nivel de la sinapsis entre las células ciliadas cocleares y las neuronas adyacentes;uso de relativamente pocos canales y sus correspondientes electrodos, con la posibilidad de elegirlos entre todos los activos; uso de arreglo de electrodos que puedan proveer de múltiples puntos de estimulación (dentro de una banda crítica); técnicas refinadas de calibración del procesador del habla, basadas en el registro de potenciales evocados intracocleares (uso de la respuesta neural del paciente para la calibración de su procesador de habla).

Los componentes principales de la transferencia de la información son:
· Sustrato neural: células del ganglio espiral (CGEs) estimulables y confiabilidad de la interacción electrodo-tejido neural
· Codificación de las CGEs
· Reconocimiento del código: cómo interpreta el sistema nervioso central los estímulos eléctricos

Los objetivos de este trabajo son : señalar los elementos esenciales del análisis del habla sobre los cuales se trabaja hoy en la transferencia de información vía implante coclear; reseñar la evolución de las estrategias de codificación de la voz ; mencionar algunos de los resultados a los que se ha arribado, con participación de pacientes de este Departamento, en lo que respecta al estudio del número de canales activos y frecuencia de estimulación por canal.

Análisis de las señales del habla
Para lograr algún reconocimiento del lenguaje a través de un implante coclear multicanal , es fundamental estudiar cuáles son los parámetros básicos del lenguaje que deben ser transmitidos: cuál es la información que es necesario transmitir a través de la prótesis y cómo representar esa información mediante estímulos eléctricos para que puedan ser analizados optimamente por el sistema auditivo.
En el análisis espectrográfico de palabras aparecen alternadamente espacios sucesivos de unos 200 – 300 mseg, de consonantes-sordas, vocales, silencio, consonantes-sonoras. Los espacios que corresponden a las vocales son intensos, de mucha energía y los de las consonantes son débiles, poco energéticos. Esta alternancia entre segmentos fuertes y débiles puede ser identificada por el paciente hipoacúsico como un patrón rítmico de ayuda. Las regiones entre segmentos adyacentes, sirven de puente y también ayudan al paciente, porque esos cambios en el patrón rítmico, dan información acerca de unidades menores como frases ó palabras en el habla lentificada.
Los segmentos sonoros están caracterizados por componentes de baja frecuencia, por dabajo de 1 KHz y forma de onda cuasi-periódica, donde la periodicidad está dada por la frecuencia glótica (F0). Esta periodicidad ocurre cada 6-12 msg para voces masculinas y 3-6 msg para voces femeninas. La variación de F0 durante la alocución, contiene información de la actitud del locutor, canto, entonación, frases. Los segmentos sonoros aparecen en vocales, consonantes nasales (/m/,/n/), laterales (/l/) y oclusivas sonoras. La información contenida en las vocales no está dada sólo por sus formantes sino más bien por la variación de los formantes en el tiempo: F1(t), F2(t), F3(t) con F1, F2 y F3 significando primer, segundo y tercer formante respectivamente . Esta variación es especialmente importante para el reconocimiento de consonantes sordas (6). Para los oyentes normales, las principales pistas para la identificación de las vocales son F1 y F2. La ubicación de F3 es importante para algunas vocales del español. Las pistas secundarias son duración e intensidad.
Los segmentos no sonoros ó sordos, son bien diferentes: la ausencia de F0 significa forma de onda no periódica y por lo mismo tienen un aspecto irregular. Casi toda la energía está en las altas frecuencias, 2-3 KHz. Incluye las consonantes fricativas (/y/, /f/, /ch/) y porciones de las oclusivas sordas (/p/,/t/,/k/) que aparecen después de la oclusión.
La sílaba consonante oclusiva-vocal (ejemplo: /pa/), tiene dos puntos de cambio: uno de silencio-ruido (oclusión de la /p/ y plosión) y otro de ruido vocal. El intervalo entre esos dos puntos de cambio es la pista más importante para distinguir oclusivas sonoras de oclusivas sordas (ejemplo: diferencia entre /pa/ y /ba/). La distinción está dada por la duración del intervalo de cierre de la consonante, en la carga de sonoridad del intervalo (contiene F0 la /b/, no contiene F0 la /p/) y en la energía de la plosión. De acuerdo con el clásico trabajo de Malmberg (7) la información contenida en las consonantes oclusivas está en su espectro y en las transiciones del mismo con el F2 de la vocal adyacente. En este caso, es importante la dirección de las transiciones formánticas.
El contraste fonético es esencial en cualquier sistema de comunicación ya que la fonética tiene que ver con la naturaleza de los contrastes de los sonidos del lenguaje. Los sistemas de implante coclear multicanal toman en cuenta los contrastes fonéticos y, en la búsqueda de diferentes estrategias que permitan enviar información, tratan de organizar las variaciones rápidas de los parámetros del habla y su representación en la cóclea del paciente. El sujeto con deficiencias auditivas no puede leer en los labios el contraste fonético entre /pa/ y /ba/.
En los sistemas de implante multicanal, la información contenida en los contrastes fonéticos es proporcionada a través del contenido espectral de la señal. Se pretende que, a través de la prótesis, el paciente pueda seguir los cambios rápidos en el espectro de la señal acústica, discrimine cambios graduales ó rápidos en la amplitud de la señal, diferencie estímulos de distinta duración y, distinga entre sonidos que contienen ó no F0. Es decir que el paciente debiera recibir información de la proyección del mensaje sonoro sobre el plano frecuencia-tiempo. Esto es precisamente lo que se persigue al estudiar y analizar las palabras: ver cómo las bandas de frecuencia que la componen se mueven en el tiempo.
Si el paciente es capaz de extraer información intensidad-tiempo (envolvente) de la señal con fidelidad, entonces podrá diferenciar ciertas distinciones en el modo articulatorio.
En lo que respecta a la intensidad, el rango dinámico para el estímulo eléctrico es menor que para el acústico, pero los umbrales diferenciales en intensidad son relativamente pequeños. Por eso es posible, si se consigue un apropiado rango dinámico perceptivo y una adecuada compresión, lograr producir diferentes niveles de sonoridad de una forma casi normal. La resolución fina de los cambios en amplitud de los distintos sonidos del habla usados por diferentes sujetos, debe caber en el rango dinámico del paciente. En la mayoría de los sistema multicanal se utiliza una función de compresión logarítmica de la señal de entrada.
La percepción de la intensidad sonora (sonoridad) depende del número de fibras activadas y de la frecuencia de repetición con que ocurre la estimulación. Ambos parámetros son manejables parcialmente mediante el control de la intensidad del estímulo y por supuesto mediante la velocidad de repetición del estímulo.
La percepción de la frecuencia en los implantes multicanales, depende del lugar de la cóclea que se estimula. Así, las variaciones en función del tiempo de la sonoridad y la altura tonal de la señal acústica, van a ser la información que será transmitida a los altos centros auditivos mediante pulsos eléctricos en los electrodos situados a lo largo de la cóclea.

Estrategias de codificación de las señales del habla

Estrategia F0F1F2: Presentada en 1985. Por cada “barrido”, el procesador selecciona 2 electrodos para estimular. Uno es seleccionado por el valor del primer formante F1 y el otro por el valor de F2. Esto está diciendo que los formantes van a ser codificados por el lugar donde se produce el estímulo. La frecuencia glótica decide cuando el estímulo se repite sobre cada electrodo (frecuencia de repetición por canal). Para intervalos sonoros la frecuencia de repetición por canal está dada por F0 (entre 80 y 300 pulsos por segundo) y para intervalos no sonoros la frecuencia de repetición por canal se produce al azar, alrededor de 100 pulsos por segundo (pps) en promedio. El tiempo entre pulsos es de 800µs. El paciente tendrá una representación F1-F2 de la señal, cada 1/F0 msg. Lo que está ocurriendo en intervalos menores a 1/F0 msg no le es enviado y de los picos espectrales de la señal, sólo posee información de los dos primeros. La señal es analizada hasta 4 KHz. En esta estrategia no se envía información espectral sino de ciertos parámetros del habla, la frecuencia glótica y los dos primeros formantes, los que se consideró, en el año 1985, con las herramientas de que se disponía, los más importantes para la transmisión de la información. Los resultados de tests del habla aplicados a pacientes con este tipo de estrategia, mostró que la discriminación de palabras era de aproximadamente 63% (8).

Estrategia MPEAK(Multiple Peaks): Suma a la estrategia anterior, 3 bandas de alta frecuencia, lo que extiende el rango de análisis hasta los 6KHz. Por cada barrido el procesador selecciona 4 electrodos para estimular. Como se mantiene la frecuencia de repetición sobre cada electrodo en el valor de F0, el tiempo entre estímulos de electrodos sucesivos es menor. La representación de la señal ofrece ahora 4 picos espectrales. Las consonantes que contienen alta frecuencia son mejor percibidas en esta estrategia, pero los movimientos temporales de los parámetros del habla se perciben de igual forma que en la estrategia mencionada anteriormente. Debido al mayor número de parámetros que se extraen de la señal entrante, se obtienen mejoras en los porcentajes de reconocimiento del habla; la introducción de información de alta frecuencia en el procesado de la señal se refleja en un aumento en la discriminación de consonantes. Fue presentada en el año 1990 (9).

Estrategia SPEAK (Spectral Peaks): En esta estrategia, se mide continuamente la energía en cada una de las 20 bandas de frecuencia que determinan 20 filtros programables. El rango de análisis de la frecuencia de la señal entrante se extiende hasta 10 KHz. Se seleccionan las bandas de mayor energía correspondientes a los máximos espectrales y se estimulan los electrodos asociados a cada banda, hasta un máximo de 10. La velocidad de repetición sobre cada electrodo se adapta a las características espectrales de la señal de entrada. Una señal de entrada de banda ancha, produce muchos máximos y una de banda estrecha, produce pocos máximos. Así la poca información espacial de las señales poco energéticas (pocos electrodos estimulados) se compensa con una mayor velocidad de estimulación. Para sonidos sonoros, hay muchos electrodos estimulados a baja frecuencia de repetición y para sonidos sordos hay pocos electrodos estimulados a altas frecuencias de repetición. La frecuencia de repetición se encuentra en el rango de 180-300 pps pero se estimulan más electrodos por barrido (6 en promedio, máximo 10). La estrategia SPECTRA pone de manifiesto que es necesario una descripción del espectro relativamente rica para que puedan obtenerse niveles muy altos de percepción del habla y de sonidos no-verbales.
Los pacientes que utilizan esta estrategia (10), aumentan notablemente los porcentajes de aciertos en los diferentes tests que se realizan. En la representación de la señal en la cóclea, el espectro de la señal queda “ dibujado” debido a que no se estimula un electrodo por formante sino varios electrodos adyacentes. El aumento en la información que se envía conduce a una mejor comprensión de las variaciones rápidas del habla. Las transiciones entre formantes producidas en diptongos están mejor representadas. En esta estrategia donde el número de máximos está determinado por la energía de la señal, el nivel de voz del locutor puede jugar un papel muy determinante en la discriminación del paciente.

Estrategia CA (Compressed Analog). Esta estrategia se utiliza desde el año 1980 aproximadamente. Fue utilizada por Eddington (11) con mucho éxito en los primeros sistemas de implante multicanal. Actualmente lo utiliza el dispositivo Clarion en sus estrategias de estimulación analógica simultánea. Existe un filtro por cada electrodo activo. La corriente enviada a cada electrodo deriva de la señal analógica a la salida de cada filtro.

Estrategia CIS (Continuous Interleaved Sampling). Se estimulan todos los electrodos (2-3) secuencialmente produciéndose un muestreo continuo de la señal de entrada y una alta velocidad de repetición por canal. Cada filtro está asociado a un electrodo y por lo tanto hay el mismo número de filtros que de electrodos activos. El número de electrodos y la frecuencia de estimulación por canal depende del sistema de que se trate: en el sistema Med El Combi 40+ se estimulan hasta 12 electrodos con una frecuencia de repetición de 1515 pps por canal (pps/ch) generando un total de 18000 pps para todo el arreglo de electrodos; en el sistema Nucleus 24 es posible estimular 8, 10 ó 12 electrodos a una frecuencia de estimulación por canal desde 900 hasta 1800 pps/ch teniendo un máximo de 14700 pps para todo el arreglo de electrodos que se activen. Las amplitudes de los pulsos enviados a cada electrodo derivan de las envolventes a la salida de cada uno de los filtros pasabanda. De este modo, las variaciones en las bandas acústicas de la señal del habla están continuamente representadas sin extracción de ningún rasgo ó pista de la señal. El análisis de rasgos del habla indican que la nasalidad, fricación, lugar y envolvente son mejor transmitidos por la estrategia CIS (12). Una variación de la CIS implementada por el sistema Clarion es la estrategia PPS (Paired Pulsatile Sampler). Se estimulan simultaneamente dos electrodos con la consiguiente duplicación de la frecuencia de estimulación (Clarion S-Series, Advance Bionics, CA 1997).

Estrategia n of m (número de máximos) y ACE (Advance Combined Encoding).

La estrategia “n of m” (número de máximos) está implementada en el sistema Med-El. La señal se filtra en “n” bandas de “m” posibles (4). El procesador selecciona de las m posibles, las n de mayor energía y por lo tanto serán estimulados en cada barrido “n” electrodos. Estos electrodos no son los mismos en cada barrido, sino que serán seleccionados de acuerdo a las características espectrales de la señal entrante. La estrategia ACE (Advance Combined Encoding) implementada en el N24 esta basada en el mismo criterio ,, con la diferencia de que se dispone de más electrodos entre los cuales pueden ser seleccionados los máximos. La velocidad de repetición por canal, para ambos sistemas, dependerá del número “n” de canales elegidos para ser activados. En ambas estrategias se combina la extracción de características del habla (máximos del espectro) con la representación de la forma de onda.

Efecto del número de canales diferenciales

De acuerdo a las experiencias realizadas con vocoder de canales, que determinaron que 10 era el número de canales mínimo necesario para transmitir voz inteligible, se espera que suceda lo mismo con el implante coclear. El paciente debería tener así 10 umbrales diferenciales de frecuencia en la zona de transmisión de la información de las señales del habla. Se entiende por canal diferencial en frecuencia, la mínima distancia entre electrodos que produce percepción discriminada de la frecuencia. Es decir: si estimulando los electrodos 10 y 9 el paciente no percibe diferencias de “pitch” pero sí la percibe entre el 10 y el 8, entre esos dos electrodos 10 y 8 se considera que hay un canal diferencial de frecuencia. Los umbrales diferenciales de frecuencia para estímulos acústicos son del orden de 1/6-1/3 de octava. Los umbrales diferenciales experimentales para estímulos eléctricos varían entre 8 y 10 %. En general, las mediciones psicoacústicas de la resolución temporal y resolución frecuencial están relacionadas con la comprensión del habla. Los pacientes con pobre resolución temporal y umbral diferencial temporal elevado, evidencian poca comprensión del habla. Por el contrario, buena resolución temporal puede ó no dar buena discriminación.

Efecto del número de electrodo activos

El número de electrodos activos afectará la resolución en frecuencias del paciente. El rango en frecuencia de la señal a ser transmitida va a repartirse entre los electrodos activos. Un mayor número de electrodos activos va a significar mayor resolución en frecuencia y por lo tanto los mecanismos de tonotopicidad de la cóclea quedarán mejor preservados. Pero como en definitiva la codificación de la frecuencia va a depender muy fuertemente del número de neuronas residuales, el aumento del número de electrodos activos puede no significar mejoras en la percepción para todos los pacientes. Deberá tomarse en consideración cuál es el número óptimo de electrodos para cada paciente y consecuentemente cuál es la frecuencia de estimulación por canal que se adecua a las condiciones particulares de cada individuo. En 8 pacientes adultos que utilizan la estrategia CIS, se midió (13) el efecto producido en la percepción del habla cuando se reduce el número de electrodos activos, en dos condiciones: en una primera serie de mediciones, manteniendo la frecuencia de repetición por canal en un valor fijo de 1515 pps por canal y en una segunda serie, aumentando la frecuencia de repetición por canal (manteniendo fijo la frecuencia de repetición completa). La figura 1 muestra el resultado del test de identificación de consonantes en contexto vocálico /VCV/ con V= /a/ para pacientes usando el sistema COMBI 40+. Los cuadrados representan los resultados de la medición en la que la frecuencia de repetición por canal se incrementa (frci) a medida que se reduce el número de electrodos activos y los círculos representan los valores obtenidos cuando al disminuir el número de canales activos, se mantiene la frecuencia de repetición por canal constante (frcc) en 1515 pps por canal. En las ordenadas se representan el número de electrodos activos y la frecuencia de repetición por canal que se incrementa y en las abscisas se encuentran los porcentajes de discriminación. La figura 2 representa los resultados obtenidos al medir las transiciones vocálicas en los mismos pacientes bajo las mismas condiciones. Con este sistema los resultados para 3 y 4 electrodos activos en la condición frcc parecen ser mejores que para la condición frci; para 5 a 12 electrodos activos, los resultados son mejores para la condición frci. Esto podría deberse al hecho de que estos pacientes no se estarían beneficiando con la velocidad de estimulación muy alta. Los resultados para la condición frci alcanzan el máximo valor para 9 electrodos activos; electrodos adicionales no parecen ser de ayuda, indicando quizá que los pacientes no están usando la información espectral completa provista por el sistema. Es interesante notar que con sólo 3 electrodos para ambas condiciones de estimulación,, los pacientes alcanzaron altos porcentajes de respuestas correctas en la identificación de consonantes, a pesar de la complejidad del test. Esto podría demostrar que la utilización de sólo pistas temporales podría ser suficiente para la identificación de las consonantes (14).
Quizá una de las ventajas más grandes de la alta velocidad de estimulación es la influencia que ejerce en la percepción de transiciones vocálicas. Con sólo 3 electrodos activos, los pacientes alcanzan muy altos porcentajes de respuestas correctas para ambas condiciones. Los resultados en la condición frci son ligeramente mejores que los frcc. Electrodos adicionales por arriba de 8-9, no producen mejoras en los resultados obtenidos.
La información espectral parecería ser útil hasta 8 electrodos y las pistas temporales parecen ser muy útiles cuando están activados muy pocos electrodos. Canales adicionales por arriba de 8 electrodos parecen no contribuir a brindar información espectral de la señal entrante. Para todos los tests, se observan mejoras en el rendimiento cuando el número de electrodos activos aumenta de 3 a 8 pero por arriba de 8 electrodos no se observa un aumento significativo en los porcentajes de respuestas correctas. Este resultado coincide con el observado por Dorman (12) y Brill (14). Las observaciones parecerían indicar que los pacientes no utilizan la información espectral completa provista por el sistema C40+ quizá debido a varias limitaciones individuales tales como población neuronal superviviente y experiencias personales, entre otras.

Figura 1. Porcentajes de respuestas correctas para /VCV/ en función del número de electrodos activos
para frci y para frcc para el sistema C40+ . Valores medios y desviación standard con N = 4.

Figura 2. Porcentajes de respuestas correctas para transiciones vocálicas en función del número de
electrodos activos para frci y para frcc . Valores medios y desviación standard con N = 4.

En general, la información relacionada con el “place” cae mucho cuando se reduce el número de electrodos activos; la información relacionada con la envolvente se mantiene cuando el número de electrodos activos se reduce; la relacionada con el “voicing”, la nasalidad y la fricación se mantienen aún con muy pocos electrodos activos.

Efecto de la frecuencia de repetición por canal (FR/ch)

La frecuencia de repetición por canal se define como el número de pulsos por segundo sobre cada electrodo. Elevadas frecuencias de repetición por canal significan una mejor representación de las variaciones temporales finas contenidas en la señal del habla. Sin embargo, no siempre resulta que la máxima frecuencia de repetición por canal provista por un sistema es la óptima para todos los pacientes. Variaciones en las características individuales como resto neuronal, patología, antigüedad de la sordera, podrían influir en el valor de la óptima FR/ch para cada individuo.
Resultados interesantes al respecto se obtuvieron en numerosos trabajos tales como el realizado por Wilson y colaboradores (15). En un trabajo realizado en sujetos utilizando la estrategia SPEAK a 250, 800 y 1600 pps, Vandali (16) demostró que los pacientes, en términos generales, respondían significativamente peor a medida que aumentaban las frecuencias de estimulación por canal. Asimismo observó importantes diferencias inter-sujeto. Para algunos de ellos, la alta frecuencia resultaba beneficiosa mientras que para otros, era mejor la baja frecuencia de estimulación.
En un trabajo realizado en 12 pacientes adultos calibrados con estrategia CIS se estudió la influencia de la frecuencia de repetición por canal sobre la percepción del habla (17). Se observó que para todos los pacientes y todos los tests administrados, los porcentajes de aciertos decrecen al disminuir la frecuencia de repetición del estímulo, indicando la influencia de este parámetro en la percepción. Esta influencia parece estar relacionada con el tipo de test administrado. La figura 3 permite ver los porcentajes de aciertos obtenidos en pacientes a los que se les suministró el test de identificación de consonantes en contexto vocálico /VCV/ en función de la frecuencia de repetición por canal, la que se varió desde 1515 hasta 200 pps/ch. La figura 4 muestra el mismo tipo de estudio donde los pacientes fueron expuestos a tests de identificación de transiciones formánticas de vocales. La figura 5 ilustra la influencia de la FR/ch en la velocidad de comunicación (habla fluida) medida en palabras por minuto (ppm).

Figura 3. Identificación de consonantes en función de la FR/ch. Valor medio para
8 pacientes.

Figura 4. Idem para identificación de transiciones vocálicas en función de la FRC.

Figura 5. Idem para la velocidad de comunicación medida en ppm en función de la FR/ch.

Discusión y Conclusiones

La cóclea actúa como un analizador de espectros: descompone los sonidos complejos en sus componentes espectrales. Actualmente, los sistemas de implante multicanal abordan la modalidad de trasmisión de la información del habla reproduciendo lo más fielmente posible el comportamiento coclear normal, a través de la codificación de las señales acústicas. Las técnicas de procesamiento de señales apuntan a copiar el comportamiento de una cóclea sana.
Respecto a la codificación de los estímulos auditivos, es necesario recordar que los espectros de los fonemas cambian con el tiempo y que la máxima información está en las transiciones que sufren esos espectros y no en sus estados estacionarios, los que sólo proveen información redundante (18).
La trayectoria de los formantes, como se mencionó, da información acerca de sonidos continuos ó transicionales tales como vocales ó consonantes plosivas y movimientos temporales del habla fluida en general.
Para poder transportar las características de la voz, los formantes altos y las componentes de alta frecuencia de las consonantes, es necesario trasmitir en un rango de frecuencias entre 0.1 y 8 KHz.
Clark (19) señala que para comprender cómo mejorar el procesamiento de las señales, es útil pensar que un implante coclear es un “cuello de botella neural” que restringe el flujo de la información acústica al cerebro. Para mejorar la recepción del habla y lograr sonidos de alta fidelidad es necesario, según Clark, seleccionar las mejores características del habla para pasarlas a través del “cuello de botella”, presentar la información a altas velocidades y reproducir la codificación del sonido más efectivamente. Propone lograr lo mencionado en primer lugar mediante la técnica de optimización del rango dinámico (ADRO, Adaptive Dynamic Range Optimizacion) y el énfasis de las transiciones formánticas (20). Con esta técnica, basicamente, un algoritmo matemático ajusta los niveles de corriente con que van a ser estimulados cada uno de los electrodos activos de acuerdo a la señal entrante en cada banda, actuando de modo diferente a como lo hace un AGC. Como resultado de la acción del AGC, cuando la señal entrante contiene ruido, el rango de intensidad de la estimulación eléctrica se reduce para todas las frecuencias; la técnica ADRO reduce la compresión en las zonas correspondientes a las frecuencias del habla y permite un mayor rango de estimulación eléctrica. Es decir, ajusta el rango dinámico para cada banda de la señal entrante, al rango dinámico de cada electrodo.
En lo que respecta a las transiciones formánticas, la propuesta que sugiere Vandali (21) es enfatizar las amplitud de la transición formántica para las vocales, utilizando el procesador TESM (Transient Emphasis Speech Processor).

Referente a la codificación más efectiva del sonido, la propuesta de los investigadores es la de lograr mejor reproducción de la codificación de las frecuencias mediante la producción de patrones de respuestas temporo-espaciales finos en grupos pequeños de fibras neuronales (22).
En lo que respecta al mecanismo de procesamiento de la información, es bueno recordar que muchos pacientes pueden tener el mismo procesador del habla, pero muy diferente mecanismo de procesamiento de la información que reciben. Existen importantes diferencias individuales en la habilidad para procesar la información. Puede ocurrir que el brindar información adicional signifique proveer de elementos que interfieran en la percepción del habla. Cada paciente tiene su propia capacidad de canal que puede no permitirle utilizar la ventajas de ciertos sistema de estimulación muy rápida: cada paciente tiene su propio sistema de canales diferenciales en intensidad, frecuencia y tiempo. El procesador propio de cada paciente, o sea su propio procesador central, puede no ser capaz de usar la información contenida en los fonemas o entre sus transiciones como para procesarla en tiempo real.
Puesto que los sistemas de implante posibilitan, actualmente, elegir entre un amplio rango de frecuencias de estimulación por canal, una correcta actitud clínica podría ser que el paciente experimente diferentes condiciones de estimulación en lo que a FR/ch respecta, para poder determinar en forma individual la mejor condición posible.
La elección del óptimo número de canales para cada individuo, así como la determinación de qué canales son los más adecuados para ser estimulados cuando se le ofrece al paciente estrategias CIS de diferente número de canales activos, parecen ser de relevancia para optimizar la calidad de la percepción.
Sabemos que en los tests de habilidad auditiva administrados a pacientes con prótesis multicanal, independiente del idioma del paciente, se observan grandes diferencias entre los resultados obtenidos. Los factores que producen estas diferencias están en la cantidad de neuronas supervivientes como así también en la localización de las mismas, en la ubicación y número de electrodos implantados, en la permeabilidad del las vías auditivas y en diferencias individuales en el desarrollo de los procesos cognitivos (22).
La posibilidad de realizar ajustes individuales utilizando elementos “fisiológicos” de cada paciente, como su respuesta neural y los valores telemétricos que puedan obtenerse, debe usarse en forma muy cuidadosa, detallada y sistemática.
Pero quizá antes de usar esos lujos tecnológicos, la principal ocupación de los que trabajan para optimizar los beneficios de las prótesis multicanal debiera ser investigar las características particulares de percepción de cada paciente, o más bien su capacidad de discriminar elementos del habla, para luego adaptar las características del respectivo implante a las específicas condiciones del paciente.

REFERENCIAS

1. Seligman P, Mc Dermott H. Architecture of the Spectra 22 speech processor. Annals of Otology, Rhinology and Laryngology 1994; Suppl 2, Vol 15: 15-27.
2. Wilson BS, Lawson DT, Zerbi M, & Finley CC, Recent Development with the CIS strategies. In Hochmair – Desoyer IJ, Hochmair ES, eds. Advances in Cochlear Implants. Vienna: Manz, 1994:103-112.
3. Wilson BS, Lawson DT, Finley CC & Wolford RD. New processing strategies in cochlear implantation. American Journal of Otology 1995; 16: 669-675.
4. Wilson BS , Finley C et al. Comparative studies of speech processing strategies for cochlear implants. Laryngoscope 1988; 98: 1069-1077.
5. Wilson BS , Finley CC, Lawson Dt & Zerbi M. Temporal representations with cochlear implants. The American Journal of Otology 1997; 18 S30-S34.
6. Borden G, Harris K y Raphael L. Speech Science Primer: Physiology Acoustics and Perception of Speech. Baltimore, Maryland: Williams and Wilkins, 1994
7. Malmberg B. La Fonética. 1954.
8. Tye-Murray, Lowder M, Tyler R. Comparison of the F0/F2 and the F0/F1/F2 processing sytrategies for the Cochlear Corporation Implant. Ear and Hearing 1990; 11: 195-200
9. Patrick J, Seligman P, Money D, Kuzma J. Engineering in Cochlear Prostheses. Edit: Clark G Tong Y , Patrick J. Edinburgh: Churchill Livingstone 1990: 99-124.
10. McDermott HJ, McKay CM & Vandali AE. A new portable sound processor for The University of Melbourne/Nucleus Limited multielectrode cochlear implant. Journal of the Acoustical Society of America 1992, 91:3367-3371.
11. Eddington DK. Speech discrimination in deaf subjects with cochlear implants. Journal Acoustical Society of America 1980; 68:885-891.
12. Dorman MF. Cochlear Implants. Audiological Foundations. RS Tyler Editor. Singular Publishing 1993.
13. Aronson L, Cansler A y Alietti M. Percepción del habla variando el número de electrodos activos y la velocidad de estimulación por canal en pacientes con prótesis coclear con estrategia CIS. Otolaringológica 2000, XXII: 21-29.
14. Brill S, Gstöttner W, Helms J, Ilberg C, Baumgartner W, Müller J & KieFER J. Optimization of Electrode Number and Stimulation Rate for the Fast Continuous Interleaved Sampling Strategy in the COMBI 40+. The American Journal of Otology 1997; 18:S104-S106.
15. Wilson BS, Lawson D & Zerbi M. Advances in coding strategies for cochlear implants. Advances in Otolaryngology. Head and Neck Surgery 1995, Vol 9: 105-129.
16. Vandali A E, Whitford LA , Olant KL , Clark GM. Speech perception as a function of electrical stimulation rate: using the Nucleus 24 cochlear implant system. Ear and Hearing 2000, 21: 608-624.
17. Aronson L, Pallares N. Efectos de la frecuencia de estimulación en la percepción del habla en pacientes con prótesis coclear con estrategia CIS. Otolaringológica 2000, XXIII: 37-43.
18. Dowel R, Selligman P, Blamey P & Clark G. Evaluation of a two-formant speech processig strategy for a multichannel cochlear prosthesis. Anals of Otology, Rhinology and Laryngology 1987, Vol 96 (Suppl 128): 132-134
19. Clark G. Cochlear implants: climbing new mountains. The Graham Frase Memorial Lecture 2001. Cochlear Implants International 2001, 2(2):75-97.
20. Clark GM , Carte TD, Maffi CL,Shepherde RK. Temporal coding of frequency: neuron firing probabilities for acoustic and electric stimulation of the auditory nerve. Annals of Otology, Rhinology and Laryngology 1995. Suppl 166: 109-111.
21. Vandali. Emphasis of short-duration acoustic speech cues for cochlear implant users. Journal of Acoustical Society of America 2001, 109: 2049-2061.
22. Wilson BS. The future of cochlear implants. British Journal of Audiology 1997, 31: 205-225.

Sitios en Internet consultados

www.bionics.com
www.cochlear.com
www.medel.com
www.rti.org/capr