Descubre Cómo la Separación de Fuentes Sonoras Revoluciona con Muestreo Compresivo e ICA

En la actualidad, es común encontrar situaciones en las que múltiples señales se mezclan e interfieren entre sí, lo que requiere su separación para su posterior procesamiento. Esto ha impulsado el desarrollo de diversos esquemas para recuperar las señales originales, basándose únicamente en el conocimiento de las mezclas recibidas en un grupo de sensores, un proceso conocido como separación a ciegas de fuentes (BSS, por sus siglas en inglés).

Antecedentes y Desarrollo del BSS

Una de las primeras propuestas para resolver el problema de BSS fue desarrollada por Herault et al. (1985) y Jutten y Herault (1988), quienes buscaban solucionar problemas en neurofisiología. Los resultados obtenidos proporcionaron una solución matemática adaptativa, en la cual los autores intentaban obtener la posición angular y la velocidad del movimiento a partir de la información obtenida.

El proceso BSS se puede clasificar en mezclas instantáneas, mezclas convolutivas, mezclas lineales instantáneas o mezclas no lineales (Pertila, 2013). Debido a que la naturaleza de las mezclas es diferente en cada caso, se requieren esquemas de separación diferentes, pese a que en todos los casos se considera que las señales originales son independientes entre sí y que solo se dispone de las señales mezclas arribando a los micrófonos.

Este artículo aborda el problema de separación de mezclas lineales instantáneas con ganancias desconocidas, conocido como el problema de la fiesta de cóctel (Tharwat et al., 2018), donde existen n fuentes sonoras captadas por un arreglo de n micrófonos, a partir de los cuales se desea obtener cada una de las fuentes (Kitamura y col., 2018; Laufer-Goldshtein y Ronen, 2018).

ICA y sus Limitaciones

Este procedimiento permite separar cada una de estas señales y procesarlas una a una sin influencia de las demás, como si sólo una de las señales estuviera presente. Sin embargo, uno de los requerimientos principales para el adecuado funcionamiento del ICA es el hecho de que las señales mezcladas no sean de tipo Gaussiano, o que solo una de ellas lo sea. Esto limita su empleo en la separación de señales de audio ya que éstas, son en general de naturaleza Gaussiana.

El método ICA se puede aplicar a diversos problemas en donde las mezclas no son ortogonales y las señales originales no tiene características Gaussianas; mismas que poseen una gran cantidad de señales útiles.

Atendiendo a las características de las señales mezcladas, existen diversas variables que pueden ser tomadas en cuenta para mejorar el desempeño del ICA. Así, es importante decidir si es necesario realizar un preprocesamiento de los datos de entrada como lo son: la reducción de la correlación, el centrado y reducción de dimensión de los datos utilizando análisis de componentes principales (PCA) Mosquera et al. (2018), Fontalvo-Herrera et al. (2018), etc. Una vez hecho esto se debe decidir la forma en la cual se estimarán las señales originales, en la mayoría de los casos por medio del inverso de la matriz de mezcla W. Para lo cual se pueden considerar algoritmos que incluyan la eliminación de las características Gaussianas, la estimación de la máxima verosimilitud, la reducción al mínimo de la información mutua, los métodos tensoriales, la decorrelación no lineal, entre otros.

Una que se ha hecho lo anterior, las componentes independientes se pueden encontrar empleando algunos de los métodos reportados en la literatura (Udin et al.

Muestreo Compresivo e ICA

Durante los últimos años, el interés en el muestreo compresivo se ha incrementado de manera importante (Eldar y Kutyniok, 2012), pues esta rama emergente del procesamiento de señales permite muestrear y comprimir simultáneamente, entre otras, las señales de audio (Moreno et al., 2014). Tomando en cuenta la reducción de las tasas de muestreo y el hecho de que el muestreo compresivo permite modificar las características Gaussianas de las señales de audio, varios esquemas para llevar a cabo la separación ciega de fuentes se han desarrollado empleando el muestreo compresivo (Xu et al., 2014, Karahanoglu y Erdogan, 2013; Xu y Wang, 2010, Xu, 2009, Eldar y Kutynoik, 2012; Bao, 2013).

Entre ellos tenemos el algoritmo desarrollado por Karahanoglu y Erdogan (Karahanoglu y Erdogan, 2014), en el cual inicialmente a las señales mezcladas se les aplica el muestreo compresivo para modificar las características Gaussianas de las mismas. Seguidamente las señales muestreadas se descomprimen y posteriormente se aplica el ICA para estimar la matriz de mezcla W, resolviendo con ello, el problema BSS. Si bien este esquema modifica significativamente la naturaleza Gaussiana de las mezclas, la complejidad del sistema es en general alta dado que implica la descompresión de las mezclas y la solución del ICA, empleando señales de dimensión N.

Otro esquema de BSS basado en muestreo compresivo e ICA fue propuesto por Xu et al. (2014), en el cual se aplica el muestreo compresivo distribuido (Baron et al., 2009) a las mezclas de entrada. Posteriormente usando las mezclas comprimidas se calcula el inverso de la matriz de mezcla directamente, sin reconstruir las mezclas originales, usando tramas de 512 puntos comprimidas a 300 puntos. Sin embargo, aunque no se reconstruyen las mezclas originales, usando el DCS las señales de mezcla se reducen únicamente de 512 a 300 puntos, al llevar a cabo la estimación de la matriz de mezclas mediante ICA.

Algoritmo Propuesto

Para resolver los problemas mencionados, este artículo propone un algoritmo basado en muestreo compresivo e ICA el cual opera con tramas de 512 y 1024 puntos, empleando para la estimación del inverso de la matriz de mezclas, un número de muestras que va desde 15 hasta un máximo de 50 puntos lo cual reduce significativamente el tiempo y costo computacional. A continuación, se presenta el desarrollo del sistema propuesto.

En el esquema propuesto inicialmente se reciben n señales mezcladas a las cuales se les aplica la DCT (Khayam, 2003; Ramos et al., 2016) para obtener la representación dispersa de cada mezcla. A continuación, estas representaciones dispersas se comprimen empleando técnicas de muestreo compresivo. Posteriormente se lleva a cabo la estimación del inverso de la matriz de mezclado, mediante el ICA usando las versiones comprimidas de las mezclas. Esto permite reducir el espacio en la memoria y el tiempo de procesamiento requerido.

La teoría del muestreo compresivo subyace sobre dos principios: el de dispersión y el de incoherencia y con estos. donde K es el número de muestras diferentes de cero, en una señal dispersa o compresible. Aunque las señales de audio no son dispersas de origen, estas si son compresibles, lo que significa que se pueden trasladar a otro dominio y con esto dispersar, mediante el empleo de la transformada Coseno Discreta (DCT por sus siglas en inglés). De esta forma, es posible obtener una señal compresible en el dominio de la frecuencia (Khayam, 2003).

Donde y es un vector de dimensión M×1 mientras que  representa una matriz de dimensión de M×N, la cual es incoherente en base a las funciones de la DCT (Candes y Wakin,2008; Donoho y Huo, 2001). Finalmente, con esta información, en caso de ser necesario, se procede a recuperar la señal por medio de la minimización de la norma l1.

Existen diversos algoritmos que permite obtener W a partir del conjunto de mezclas Y. Uno de los más usados es el algoritmo del gradiente ascendente (Udin et al., 2018; J.

Considere que se tienen n señales mezcladas, cada una con N muestras de entrada por trama, las cuales se reducen a M nuestras por trama usando técnicas de muestreo compresivo. Con este fin inicialmente se calcula la DCT de la trama de N muestras. lo cual tiene una complejidad del orden de O(Nlog2N). Seguidamente el vector obtenido se multiplica por una matriz de sensado de M×N, lo cual tiene una complejidad del orden de O(MN).

Complejidad Computacional

La Tabla 1 muestra una comparación entre la complejidad computacional del algoritmo propuesto y aquellos propuestos por (Xu et al., 2014; D.

Algoritmo	Complejidad Computacional por Muestra
Algoritmo Propuesto	O(Nlog2N) + O(MN)
Xu et al. (2014)	[Completar con datos del artículo original]

Evaluación del Algoritmo Propuesto

Para evaluar el algoritmo propuesto, se generó una base de datos, que consiste en 100 señales de audio con 35,000 muestras cada una. Posteriormente, se propusieron dos matrices de mezcla A para efectuar las mezclas con 2 y 3 señales cuyas dimensiones son 2×2 y 3×3 respectivamente. A continuación, se dividió cada señal de mezcla en tramas de 512 muestras para un primer experimento y posteriormente 1024 para un segundo experimento, para después aplicar el algoritmo propuesto a cada una de las tramas, evaluando en esta etapa la naturaleza Gaussiana de las señales de audio por medio de la medición de la kurtosis normalizada.

Evaluación de las Características Gaussianas

Siendo requisito para poder usar ICA en la separación ciega de fuentes, que las señales mezcladas sean no gaussianas o cuando mucho solo una de ellas lo sea, se evalúa la kurtosis de cada mezcla, después de aplicar el muestreo compresivo, como método para conocer la naturaleza Gaussiana de las señales.

Donde E{s2} y E{s4} son el segundo y el cuarto momento de las mezclas de entrada. Cuando el resultado es igual a 0 implica que la señal bajo análisis, s, es Gaussiana. Por su parte cuando el resultado es mayor a 0, s sigue una distribución súper-Gaussiana, y finalmente, si el resultado es menor a 0, s sigue una distribución sub-Gaussiana.

Para este trabajo, utilizamos señales de voz y música de naturaleza gaussiana, de tal forma que nos permiten evaluar el desempeño del muestreo compresivo en la reducción de las características Gaussianas de este tipo de señales.

Los resultados obtenidos muestran que, con el empleo del CS, se modifica la naturaleza Gaussiana de las señales utilizadas, principalmente en las señales de voz, haciéndolas sub-Gaussianas o super-Gaussianas según sea el caso de manera que la herramienta ICA puede ser empleada.

Correlación entre Señales Recuperadas y Originales

Para cumplir con el objetivo planteado, el cual consiste en encontrar el inverso de la matriz A, y con el fin de realizar una comparación con el artículo publicado por Xu et al.

Analizando los valores de correlación cruzada obtenidos cuando el sistema propuesto se emplea para separar dos y tres señales mezcladas, podemos observar que en ambos casos el valor de la correlación se mantiene alto, asegurando de esta forma que las señales separadas son claramente audibles. Así bien, el algoritmo arroja buenos resultados para tramas de 512 y 1014 puntos cuando se requiere separar ya sean dos o tres señales mezcladas entre sí.

Como se puede analizar en los datos mostrados en las Figuras 6-9, en algunos casos la correlación cruzada entre las señales originales y las recuperadas es ligeramente superior a 0.7, cuando las señales son de baja frecuencia y la taza de compresión es alta, (512/15) o (1024/15) cuando se emplean 512 o 1024 muestras por trama respectivamente.

Así si se incrementa la complejidad computacional del sistema es posible mejorar la calidad de las señales recuperadas. Esto implica que, para cierto tipo de señales, es necesario un mayor número de muestras para poder calcular el inverso de la matriz de mezcla, de forma tal, que el valor de la correlación entre las señales original y recuperada este por encima de 0.5, a pesar de que éstas están contaminadas por señales inter-clase, es decir, señales que corresponden a otras fuentes involucradas en la mezcla. El índice de correlación cruzada obtenido es similar al reportado por otros esquemas con una complejidad computacional mucho mayor (Calderón-Piedras et al., 2014).

De esta forma la señal de entrada del algoritmo puede ser cualquier señal de audio como voz, instrumentos musicales, etc.

En el siguiente ejemplo, se muestran los resultados obtenidos de la separación de dos señales de audio mezcladas, las cuales corresponden a una voz de mujer y a una voz de hombre.

Como se puede analizar en las imágenes anteriores, las cuales representan una trama de la separación de 2 y 3 señales mezcladas, se puede visualizar que las señales recuperadas son muy parecidas a las señales originales, sin embargo, cabe mencionar que una característica de ICA es que esta herramienta no puede determinar la varianza de las componentes independientes que conforman la mezcla, es decir, que se presenta una diferencia en la amplitud original de las fuentes sonoras. Otro punto que mencionar es que cuando una de las señales mezcladas contiene silencios, en la etapa de separación, estos silencios presentarán sonidos inter-clase, sin embargo,...

TAG: #Trabaja

Separación de Fuentes Sonoras Mediante Muestreo Compresivo e ICA