Secciones
Referencias
Resumen
Servicios
Descargas
HTML
ePub
PDF
Buscar
Fuente


Detección y seguimiento de nadadores en ambientes hidrodinámicos mediante absorbancia de la luz usando el modelo de color HSV y la descomposición de matrices de bajo rango
Detection and tracking of swimmers in hydrodynamic environments by light absorbance using the HSV color model and low-range matrix decomposition
Scientia Et Technica, vol. 24, núm. 3, pp. 463-471, 2019
Universidad Tecnológica de Pereira

Sistemas y Computación



Recepción: 26 Enero 2018

Aprobación: 23 Septiembre 2019

Resumen: La biomecánica es la ciencia que estudia la relación entre las fuerzas y los movimientos del cuerpo humano con el objetivo de realizar análisis cinemáticos. En el estudio cinemático enfocado al deporte, los entrenadores se apoyan en el análisis de video para estudiar el movimiento y mejorar el rendimiento, gesto deportivo y desempeño de los atletas. Particularmente, en natación, a partir del análisis y estudio del movimiento, se busca reducir la fricción con el medio, prevenir lesiones y mejorar registros. Actualmente, estos estudios se realizan mediante análisis de video combinados con datos de goniómetros, giroscopios y acelerómetros. Sin embargo, estos métodos presentan limitaciones asociadas con portabilidad, fabricación de equipos altamente especializados, costos elevados y técnicas invasivas. Además, la literatura muestra que los sistemas para realizar captación de video y los algoritmos empleados para analizar el movimiento de deportistas a través de secuencias de video están enfocados al estudio de los nadadores fuera del agua debido a que la predominancia de las tonalidades de azul y verde, la difracción, la refracción, el ruido producido por las olas, la turbulencia y la oclusión por el movimiento del agua, son retos que aún no han sido resueltos por los algoritmos tradicionales. Este trabajo presenta un sistema de adquisición de video bajo el agua y un algoritmo que modela la absorción de luz en la etapa de preprocesamiento para la entrada de un modelo realiza la segmentación de cada frame, combinando las técnicas de descomposición de matrices de bajo rango; la clasificación, con el método de difusión; y el seguimiento del nadador mediante el filtro kalman. El algoritmo fue probado en 10 secuencias de video captadas con el sistema propuesto, y los resultados muestran que se detecta y hace seguimiento al nadador con una efectividad del 93% en ambientes hidrodinámicos.

Palabras clave: Biomecánica, detección de nadador bajo el agua, HSV, matriz de bajo rango, procesamiento de video..

Abstract: Biomechanics is the science that studies the relationship between the forces and movements of the human body with the objective of performing kinematic analysis. In the kinematic study focused on sports, the coaches rely on video analysis to study the movement and improve the performance, sports gesture and performance of the athletes. Particularly, in swimming, from the analysis and study of movement, we seek to reduce friction with the environment, prevent injuries and improve records. Currently, these studies are carried out through video analysis combined with data from goniometers, gyroscopes and accelerometers. However, these methods have limitations associated with portability, manufacturing of highly specialized equipment, high costs and invasive techniques. In addition, the literature shows that the systems to capture video and the algorithms used to analyze the movement of athletes through video sequences are focused on the study of swimmers out of the water because the predominance of shades of blue and green, diffraction, refraction, noise produced by waves, turbulence and occlusion by the movement of water, are challenges that have not yet been solved by traditional algorithms. This work presents an underwater video acquisition system and an algorithm that models the absorption of light in the preprocessing stage for the entry of a model performs the segmentation of each frame, combining the decomposition techniques of low-rank matrices; the classification, with the diffusion method; and the follow-up of the swimmer by the kalman filter. The algorithm was tested in 10 video sequences captured with the proposed system, and the results show that the swimmer is detected and followed up with an efficiency of 93% in hydrodynamic environments.

Keywords: Biomechanics, HSV, low-range matrix, underwater swimmer detection, video processing.

I. INTRODUCCIÓN

La biomecánica deportiva estudia el gesto de los atletas con el objetivo de cuantificar el movimiento, mejorar el rendimiento de los deportistas y prevenir lesiones. Entre las herramientas más empleadas en biomecánica se encuentra la adquisición de secuencias de imágenes en el tiempo para estimar la cinemática del deportista [1].

Particularmente, en el análisis biomecánico en natación se emplea la adquisición de video para realizar los procesos de detección y seguimiento de los deportistas, donde, además del video, se agregan técnicas software y hardware. Específicamente, las técnicas hardware emplean acelerómetros, que pueden ser ubicados en las gafas del nadador para inferir detalles del biomovimiento como aceleración y ángulos de la cabeza [2], [3], o sensores inerciales, ubicados en la cintura y espalda para seguir parámetros cinemáticos como aceleración longitudinal y diferencia de ángulos [4].

Por otra parte, las técnicas software usan algoritmos adaptativos que procesan las secuencias de video y permiten mejorar la luminosidad o brillo de las imágenes adquiridas [5]. Otros algoritmos han implementado el modelo de color YUV combinado con la segmentación de video espacio-temporal geodésica, que permite segmentar la zona de interés pixel a pixel con base en un marco bayesiano para marcar cada píxel como cero para el fondo y uno para la zona de interés en los fotogramas de una secuencia de video [6]. De la misma manera, es posible combinar las técnicas descritas a través del procesamiento de video y sensores como en [3] y [4] donde proponen estudiar parámetros cinemáticos del nadador a través de la adquisición de datos mediante acelerómetros y giroscopios ubicados en el cuerpo del deportista.

Las dificultades presentes al combinar técnicas de video con hardware se evidencian en la sincronización de los sensores y el video, además la creación de interfaces electrónicas representa elementos invasivos con problemas de portabilidad asociados a la contextura física del atleta, sumado a la adquisición de software adicional para realizar calibraciones e interpretación de las señales adquiridas. Uno de los inconvenientes de las técnicas descritas es que son invasivas para los deportistas. Además, la información proporcionada se limita a la parte del cuerpo donde se ubique el elemento hardware, y en software, implican alta complejidad computacional.

La bibliografía actual [7] muestra que un sistema para el análisis de movimiento humano tiene cinco etapas: la adquisición de secuencias de video, el preprocesamiento, la segmentación, clasificación y seguimiento.

En la primera etapa se realiza la adquisición de video subacuático, utilizando principalmente una cámara sumergible y un soporte. Existen diversos enfoques para la adquisición de secuencias de video bajo el agua. Uno de estos enfoques emplea dos cámaras de video fijas como en [8], que a través de una cámara sobre el agua y otra sumergida capta secuencias para estudiar el gesto del nadador y las fases de viraje bajo el agua desde la plataforma de salto. Por otra parte, en [9] se emplea un arreglo de varias cámaras sincronizadas y fijas dentro y fuera de la piscina para estudiar la eficiencia en la fase de inicio de los nadadores. Otro enfoque, plantea el uso de cámaras móviles como en [4], donde la captación de imágenes es realizada al sumergir una cámara sujeta a un soporte y es impulsada por el entrenador o un seguidor mecánico que varía la velocidad de acuerdo con el desplazamiento del deportista. Los sistemas de captación anteriormente descritos presentan problemas de portabilidad y sincronización, ya que algunos deben ser utilizados en piscinas de corriente o requieren adecuaciones físicas al sitio de toma de video.

En la etapa de preprocesamiento, dado que bajo el agua existe oclusión total debido a las tonalidades verde y azul, autores han empleado diversas metodologías para mejorar la visualización las imágenes y secuencias de video como en [10] donde las imágenes son ecualizadas para mejorar el color, en [6] emplean el modelo de color YUV con el fin de segmentar al nadador, en [11] se estudian las secuencias en escala de grises para detectar marcadores anatómicos de color negro. Sin embargo, las metodologías descritas no tienen en cuenta los cambios abruptos de luz, el ruido producido por las olas o los fenómenos de refracción y difracción.

En la etapa de segmentación, el procesamiento de imágenes y secuencias de video requiere tiempos de cómputo considerables, debido a la alta resolución de las imágenes y cantidad de fotogramas que componen una secuencia de video. Recientemente, la descomposición de matrices de bajo rango se ha presentado como una técnica empleada para el procesamiento de matrices y reducción del tiempo de procesamiento en la segmentación de secuencias de video llevando los fotogramas, o imágenes tomadas en el tiempo, a otro dominio con un número menor de muestras. Este método ha sido implementado en aplicaciones tales como vigilancia, detección de objetivos, entre otras [12], [13].

En la etapa de clasificación, se emplea el tensor de difusión en imágenes, para caracterizar y clasificar el movimiento en varios fotogramas de video, el cual caracteriza el movimiento como isotrópico o anisotrópico. El movimiento isotrópico corresponde a ambientes sin gradiente de concentración, donde el movimiento es igual en todas las direcciones, y el movimiento anisotrópico corresponde a un medio con orientación definida [14] tal como lo realiza un nadador. Esta técnica ha sido utilizada en aplicaciones como el estudio del cerebro humano [15] e imágenes de diagnóstico médico [16].

La etapa de seguimiento emplea el filtro de Kalman, debido a que es un algoritmo ampliamente utilizado para realizar seguimiento y predicción de posición a objetos y personas en secuencias de video de una forma eficiente, incluso para secuencias de gran tamaño tanto espacial como temporal [17] [18].

En este trabajo, se propone la implementación de las cinco etapas descritas para la detección y seguimiento de un nadador bajo el agua, esto a través de un sistema compuesto por un protocolo para la adquisición de secuencias de video subacuáticas junto con un algoritmo de procesamiento basado en el modelo de color HSV y la descomposición de matrices de bajo rango. El protocolo de adquisición subacuático provee los pasos y medidas para ser empleado con una cámara sumergible de alta velocidad sujeta a un trípode ajustable. El algoritmo propuesto procesa las secuencias de video adquiridas aprovechando la absorbancia de la luz para mejorar la detección y seguimiento del nadador bajo el agua. Específicamente, el algoritmo aplica una formulación matemática basada en el modelo de color HSV que destaca los elementos que absorben luz, emplea la descomposición de matrices de bajo rango para realizar segmentación, la técnica de difusión para clasificación y el filtro Kalman para realizar la detección y seguimiento.

Con la implementación del sistema propuesto se brinda a los deportistas y entrenadores una herramienta que no representa elementos invasivos para los atletas y no requiere equipos adicionales. De esta forma, es posible realizar el análisis de la técnica y movimientos ejecutados por los nadadores para evitar lesiones, mejorar la plusmarca y el rendimiento.

II. ANÁLISIS DE MOVIMIENTO EN NATACIÓN

Actualmente, para realizar estudios de los nadadores se emplea el análisis biomecánico cualitativo y/o cuantitativo para mejorar el rendimiento deportivo, la postura y prevenir lesiones en los atletas [1].

El análisis cualitativo es realizado a través de la observación visual de un experto, quien describe el movimiento de acuerdo con su percepción en términos del lenguaje natural, haciendo reconocimiento de los momentos relevantes realizados en el gesto deportivo. Las conjeturas del análisis pueden ser aceptadas o rechazadas con metodologías que puedan generalizarse mediante técnicas numéricas que validen sus resultados.

El análisis cuantitativo consiste en realizar estudios de traslación, rotación y movimiento mixto o general en términos de la cinemática y la cinética. Particularmente, en natación tradicionalmente, el análisis cinemático es la herramienta más empleada dado que entrega información para realizar estudios descriptivos del movimiento dentro y fuera del agua, y sus resultados son expresados en desplazamientos, velocidades y aceleraciones lineales o angulares. Los equipos comúnmente usados en el análisis cinemático incluyen acelerómetros, goniómetros, plataformas de contacto o fotocélulas, y cámaras de video [19].

Dado que la natación es una disciplina cíclica cuyo gesto deportivo se repite periódicamente, mediante el análisis cinemático del gesto del nadador es posible generar información para determinar el rendimiento del atleta, detectar ventajas y debilidades de la técnica ejecutada para realizar la planificación del entrenamiento del deportista [3]. El dispositivo más empleado en la natación para realizar análisis cinemáticos es la cámara de video debido a que es un método no invasivo, que permite realizar análisis de fotogrametría del cuerpo humano, a través de la simplificación a un modelo de segmentos articulados delimitados por marcadores anatómicos que determinan las partes del cuerpo humano a estudiar [1].

Habitualmente, un sistema para el análisis de movimiento a deportistas consta de un montaje con una o varias cámaras de video, y un conjunto de elementos electrónicos para realizar medidas de velocidad y parámetros cinéticos. Posteriormente, los datos adquiridos son procesados mediante un software y se procede a la detección y seguimiento del atleta, los datos arrojados son estudiados por el entrenador obteniendo un análisis del movimiento del deportista.

En medios no acuáticos, los algoritmos se enfocan en la detección y seguimiento a nadadores con el fin de determinar la técnica ejecutada [20]. Por otra parte, para medios acuáticos, diversos autores han desarrollado algoritmos que se enfocan en mejorar la calidad de imágenes con el fin de destacar o detectar objetos y/o nadadores [10], [21]. Adicionalmente, algunos algoritmos, que estudian secuencias de videos en medios acuáticos y no acuáticos, son mezclados con elementos externos como sensores para determinar parámetros cinéticos y cinemáticos de los nadadores [4]. En general, los algoritmos que procesan secuencias de video bajo el agua se enfrentan a oclusión, turbulencias, movimiento no lineal del agua y fenómenos físicos como difracción y refracción que crean camuflaje al nadador dificultando su detección.

Las metodologías para realizar detección y seguimiento a seres humanos han sido generalizadas en cuatro etapas: la primera inicia con la captura de la secuencia de video que desea estudiarse, en la segunda se procede a la detección del nadador donde son segmentadas las áreas en las cuales puede estar el deportista, la tercera es la clasificación de los objetos seleccionados donde se busca identificar al atleta y la cuarta es el seguimiento del nadador en cada fotograma de video procesado [20]. Cada etapa posee diferentes algoritmos propios, lo cual requiere del desarrollo de una metodología en cada nivel.

III. METODOLOGÍA

El sistema de análisis de video propuesto plantea dos etapas, en la primera etapa se realiza la adquisición de secuencias de video a través de un montaje que funcione bajo el agua y con el cual se controlan ciertas variables del entorno como el ángulo de grabación, la distancia entre el montaje y el nadador. Esta etapa incluye un protocolo para emplear el montaje propuesto. La segunda etapa incluye el procesamiento de la secuencia captada a través de un algoritmo que realiza preprocesamiento, segmentación, detección y seguimiento del nadador.

A. Adquisición de secuencias de video bajo el agua

El objetivo principal del sistema de adquisición es realizar captura de video bajo el agua, para ello se debe emplear una cámara fijada a una base fija o móvil.

En la literatura se encuentran montajes como el de Khoo [3], en el cual una cámara de video es desplazada por el entrenador en un riel a lo largo de la piscina para captar el movimiento lateral del nadador. Sin embargo, la implementación del montaje descrito requiere la construcción de un carril dedicado y adecuaciones en la piscina, lo que genera turbulencias asociadas al movimiento de la cámara que implica ruido adicional en la escena. En [22] la captura de video es realizada a través de ventanas externas en una piscina de ambientes controlados que genera corrientes de agua; aunque la adquisición de secuencias de video es posible con cualquier cámara de video, las piscinas son construidas específicamente para tener ambientes controlados, el ruido asociado a la turbulencia, los altos costos y la portabilidad limitan su implementación y accesibilidad a entrenadores y deportistas. En [8], [23], la captura de video se realiza empleando un arreglo que mantiene fijo el sistema de detección, que sufre movimiento horizontal o vertical por el desplazamiento del agua lo que añade turbulencia a las tomas realizadas. Tradicionalmente, la contaminación del agua y el diseño de las piscinas dificulta la construcción de un sistema fijo o móvil sumergible que sostenga una cámara y presente claridad en las imágenes obtenidas.

Teniendo en cuenta los inconvenientes mencionados en los sistemas de captura de video, el sistema propuesto para la captura de video ilustrado en la Fig. 1 consta de una cámara de video de alta velocidad sumergible sujetada a un trípode de altura variable, que se sumerge en una piscina para realizar la captación de video, las tomas pueden ser realizadas en diversas piscinas que tengan fondo claro y en presencia de la luz solar.


Fig. 1.
Montaje propuesto para realizar la adquisición de secuencias de video bajo el agua.
Autor

Los parámetros que se deben tener en cuenta al emplear el montaje son: la luz debe ser natural y no iluminar perpendicularmente la superficie de la piscina, ya que la reflexión de luz en el fondo genera sombras; la distancia del nadador a la cámara de forma perpendicular debe ser 5 metros; el fondo de la piscina debe tener una tonalidad clara; en cuanto al trípode, que es la base de la cámara, debe ajustarse de tal forma que la cámara se ubique a 0.1 m de profundidad respecto al nivel de la piscina y se le debe atar una pesa forrada en plástico al centro; por último, el ángulo de visión o amplitud de la cámara debe oscilar entre 90 grados y 140 grados para obtener mínimo dos ciclos de la técnica ejecutada por el nadador. El montaje descrito y los parámetros seleccionados hacen que el sistema pueda ser empleado en cualquier piscina, y que no requiera de elementos adicionales o calibraciones.

IV. ALGORITMO PARA LA DETECCIÓN Y SEGUIMIENTO DE UN NADADOR BAJO EL AGUA.

Una secuencia de video puede ser representada como un conjunto de fotogramas donde CxD es la resolución de cada fotograma y L representa los canales de color RGB a través del tiempo, donde i denota el i-ésimo fotograma de la secuencia, como a cada fotograma que se muestra en la Fig. 2. Este conjunto puede expresarse como un arreglo , con coordenadas espaciales x, en cada fotograma . Dado que en medios acuáticos la predominancia de tonalidades azul y verde dificulta las tareas de detección de los objetos, es necesario realizar un preprocesamiento a cada fotograma de la secuencia con el fin de determinar los objetos que absorben la mayor cantidad de luz en la escena acuática, que a su vez están asociados al cuerpo del nadador.


Fig. 2.
Representación de una secuencia de video dividida en fotogramas a través del tiempo t. Importar tabla
Autor

Específicamente, cuando los rayos de luz provenientes del exterior entran en el agua y caen sobre el cuerpo del nadador, son absorbidos por la piel y el traje que posee, de esta manera al realizarse el preprocesamiento para reducir el efecto de la tonalidad del agua se puede identificar el cuerpo del nadador.

A. Medición de la luz y preprocesamiento

La absorbancia es una medida entre la intensidad de la luz que incide sobre un cuerpo y la intensidad de esa misma luz que es transmitida [24] además es el principio óptico empleado por los dispositivos de captura de imágenes. Por otra parte, la representación del color en las imágenes se realiza a través de los espacios de color, tales como RGB, CMYK, HSL y HSV [25]. Las cámaras de video tradicionales emplean el modelo RGB para realizar la captación de la luz. Sin embargo, a través de métodos matemáticos es posible realizar transformaciones de un espacio de color a otro [25].

Particularmente, el modelo de color HSV ilustrada, posee las componentes H(hue) que representa el matiz, S(saturation) la saturación o cantidad de blanco presente en el matiz y V(value) el brillo o grado de luminosidad en una escena. La Fig 3. ilustra el modelo de color HSV, el cual puede ser representado como un cono donde la base es el matiz (H), el radio de la base es la saturación (S), y la altura es el brillo (V). Cuando se toma una sección del cono, es posible observar una relación existente entre y para obtener los objetos con mayor absorbancia. Debido a que H es invariante a los cambios de luz, la hipotenusa de la diferencia entre los vectores y relaciona los elementos que absorben y reflejan la luz, de manera que al restarse se obtiene una matriz compuesta por las componentes vectoriales de cada pixel . Con esto es posible resaltar los píxeles que absorben la luz en una escena.


Fig. 3.
Representación del modelo HSV, el vector representa los componentes de mayor luminosidad. Fuente autor.
Autor

n una secuencia de video los canales , y del i-ésimo fotograma , son modelados computacionalmente a partir de cada fotograma RGB, de manera que es el resultado del preprocesamiento del i-ésimo fotograma de la secuencia de video. De esta forma, el arreglo representa el resultado del preprocesamiento para toda la secuencia de video, donde

(1)

Al elevar la al cuadrado se atenúan los elementos con la mayor absorbancia de luz, por lo que la Ec. 1 se puede reescribir como Ec.2.:

(2)

asimismo es la saturación, el brillo y (x,y) las coordenadas del píxel procesado.

B. Segmentación

La segmentación en una imagen consiste en agrupar los pixeles que pertenecen a en dos clases, uno que contenga al nadador y otra clase con los elementos que componen el fondo de la escena. Para la etapa de segmentación, se emplea la descomposición de bajo rango sobre el conjunto de secuencias preprocesadas . Esta descomposición permite separar el nadador del fondo de la escena.

De esta manera, es posible observar que la matriz puede ser representada como dos matrices, una que contiene el fondo y otra el nadador. Para recuperar como la composición de dos matrices, se emplea la metodología descrita en [12], que recupera una matriz N como la composición de una matriz L de bajo rango que representa el fondo de la escena y una matriz escasa S que representa el nadador, de un conjunto de medidas lineales de la forma Ec.3.

(3)

Debido a que la recuperación de requiere encontrar una solución a un sistema lineal indeterminado, se abarca la intersección de tres clases de problemas que son: el muestreo compresivo (CS por su sigla en inglés), la minimización de rango afín y el análisis de componentes principales robustos (RPCA). CS se refiere a la recuperación de un vector escaso x, en el cual las mediciones de los datos tienen la forma , donde A es un operador lineal indeterminado, y para recuperar x se debe resolver siendo el número de componentes no nulos en x. La recuperación mediante CS se realiza vía relajación convexa [26].

Dado que es posible extender el concepto de CS a matrices de bajo rango, puede observarse que las mediciones lineales en la minimización de rango afín [27], [28] son de la forma , dondeLes una matriz de bajo rango y A toma la forma de operador de muestreo para completar la matriz L [29]. En la recuperación de la matriz se debe resolver mediante relajación convexa. Por último, en el problema RPCA robusto [30], se busca descomponer una matriz N en una matriz de bajo rango L y una matriz escasa S tal que , la solución es estable cuando y son suficientemente incoherentes, es decir, no son correlacionadas.

La intersección de las tres metodologías expuestas se da en la recuperación de las entradas de una matriz N en términos de una matriz de bajo rango L y la matriz escasa S de un conjunto de medidas comprimidas . En una secuencia de video acuática cada columna N de corresponde a un fotograma de video , de esta forma la iluminación cambiante o fondo tiene propiedades de bajo rango, mientras que el movimiento del primer plano que comprende al nadador, sombras producidas por la luz y elementos en movimiento presenta estructuras escasas [30].

Asimismo, el problema de optimización que une las tres metodologías mencionadas está dado por Ec.4.

(4)

donde r es el parámetro que define el número de medidas a adquirir,K define el nivel de escasez asumido en la señal y es una función que obtiene la representación vectorial de una matriz. Para más información sobre el proceso de segmentación dirigirse a [12].

El resultado de la segmentación para el conjunto de fotogramas puede escribirse como , que son los nuevos fotogramas, los cuales contienen los elementos que absorben la mayor luminosidad e identifican al nadador.

C. Clasificación

La etapa de clasificación toma el resultado de la etapa de segmentación y aplica el tensor de difusión para separar el movimiento del nadador del movimiento del ruido presente en la secuencia de fotogramas S.

Dado que S contiene el nadador y el ruido que proviene de los elementos que absorben la mayor luminosidad en fotogramas consecutivos, para detectar al nadador presente es posible emplear la metodología de difusión descrita en [31], que estudia el movimiento de partículas en escenas dinámicas para establecer propiedades de los materiales. Este método consiste en tomar una imagen que se compara con tres fotogramas de video consecutivos, también llamados grados de libertad, para encontrar la dirección del gradiente de difusión. Para esto se emplea el tensor de difusión que determina los grupos de pixeles que tienen movimiento y su dirección a través de los fotogramas. El tensor de difusión puede expresarse como Ec.5.

(5)

donde S representa la intensidad ponderada de la señal de difusión, la intensidad señal ponderada sin difusión, indica la dirección del pulso de gradiente de difusión,b el factor de sensibilidad de difusión, y representa el coeficiente aparente de difusión del agua. Tradicionalmente, el tensor de difusión es modelado en 3-D para estudiar el movimiento de fluidos en imágenes de resonancia magnética MRI del cerebro humano, y tiene en cuenta las coordenadas x,y,z de la imagen. Sin embargo, en la secuencia de imágenes acuáticas en las cuales los objetos estudiados son en 2-D, el tensor de difusión debe reescribirse en términos de las dimensiones y como Ec.6.

(6)

donde las componentes y representan las coordenadas del tensor de difusión de segundo orden en movimiento 2-D de los objetos en la escena. Debido a que el tensor de difusión es una matriz simétrica con parámetros desconocidos, las Ec. (5) y (6) pueden ser representados mediante la expresión Ec.7.

(7)

donde

(8)

donde en Ec.8. representa la dirección del gradiente del fotograma . La Ec. (5) se puede solucionar mediante la regresión lineal dada por [14] y los parámetros y son determinados mediante la expresión Ec.9. [32]

(9)

donde es una matriz compuesta por los eigenvectores del vector de difusión D, y es una matriz diagonal cuyos elementos son los eigenvalores de D. Asignando , y tomando el mayor valor del eigenvalor que corresponde al eigenvector , se determina el gradiente de difusión predominante del píxel. El gradiente del punto será . El resultado en la determinación del tensor de difusión son los elementos que poseen movimiento en varios fotogramas de video consecutivos, que puede escribirse como .

D. Seguimiento

El seguimiento del nadador en la secuencia de imágenes se basa en el filtro kalman, donde la dinámica de cada pixel es modelada como: el pixel del fotograma D en el tiempo i dado por la secuencia de video. Sin embargo, en el primer fotograma se debe garantizar la presencia del nadador. Así mismo, los pixeles del nadador se pueden modelar como Ec.10.

(10)

donde U es la matriz que indica la dinámica de los pixeles que comprenden al nadador,B es la estimación del valor de una serie de imágenes en el pixel (x,y), es el cambio en el punto que representa al nadador cuando se procesa un nuevo fotograma, D es el fotograma de entrada en el tiempo i, y K es la ganancia de Kalman. La matriz U puede ser representada como Ec.11.

(11)

siendo para representar el fondo en medios acuáticos [18]. Por otro lado, K es la ganancia de kalman descrita como Ec.12.

(12)

donde toma el valor de 0 cuando se trata del fondo y 1 cuando se detecta al nadador.

Para determinar al nadador se emplea la condición,Ec.13.

(13)

, si , entonces K es de otra manera es [18].

es una constante (cte) que denota el umbral máximo de los pixeles que representan al nadador en la escena, la cual es determinada mediante la desviación estándar del fotograma procesado. En la práctica, el resultado de la presente etapa se puede visualizar con un fotograma rojo en el cual se encuentra el nadador.

V. PRUEBAS Y ANÁLISIS DE RESULTADOS

El montaje y la metodología propuesta fueron evaluados mediante la captura y procesamiento de 10 secuencias de video en una piscina con variaciones en las condiciones lumínicas, ambientales y tonalidades de agua. Para probar el desempeño de la propuesta bajo diferentes condiciones del medio.

En la Fig. 4 se observa la implementación del montaje empleado para la captura de video, este se compone de un trípode de aluminio con altura graduable que va desde 64 cm a un máximo de 195 cm. Para la adquisición de video se emplea una cámara GoPro Hero 4, que tiene opciones como sensibilidad a la luz entre 100 y 6400 ISO, velocidad de grabación de 24 a 240 fotogramas por segundo, 12 megapíxeles, apertura de diafragma f2.8, campo de visión entre 17.2mm y 34.4mm y amplitud entre 90º y 170º. La cámara fue sumergida utilizando el trípode y las secuencias de video fueron adquiridas a 30 fotogramas/segundo, y el campo de visión empleado fue de 135 º.

El uso del trípode graduable permite adquirir secuencias de video en piscinas entre 54 y 185 cm de profundidad sin calibraciones adicionales. La operación correcta del trípode se ve afectada cuando el movimiento del agua genera olas mayores a 7 cm, debido a que transmite movimiento al trípode, y con ello se afecta la captura de video.


Fig. 4.
Implementación del montaje para la adquisición del video.
Autor

Para realizar pruebas a la metodología desarrollada se emplearon las 10 secuencias tomadas con el montaje de la Fig. 4, la duración de las secuencias oscila entre 6 y 10 segundos, y en cada una el nadador ejecutó al menos dos veces el gesto deportivo. Para determinar los parámetros K y r de la etapa de segmentación, se realizaron 15 simulaciones, las cuales determinaron como medidas ideales y para segmentar en la secuencia de video el cuerpo del nadador.

La Tabla I presenta los resultados en la detección y seguimiento del nadador con la metodología propuesta.

Específicamente, los resultados mostrados en la Tabla 1 son: fotogramas en la secuencia de video (CDS) corresponde a la cantidad de fotogramas de video procesados; verdadero positivo (VP), que corresponde a los fotogramas en la secuencia donde el nadador es detectado correctamente; tasa de detección (TD), que es el porcentaje de fotogramas de la secuencia de video en los cuales se detecta al nadador; pérdida del seguimiento (PS) es el número de fotogramas en los que el algoritmo perdió el seguimiento; falso negativo (FN) es el número de trayectorias falsas seguidas por el algoritmo; falsos positivos (FP) indica el número de fotogramas en los que el algoritmo no siguió trayectoria y no detectó al nadador.

Los resultados de la Tabla I muestran que el rendimiento (TD%) del algoritmo es mejor para las secuencias de video 1, 6 y 10. Esto se debe a la similitud de condiciones de la piscina en cada una de las secuencias. Específicamente los tres videos fueron tomados cuando el cielo estaba nublado o bajo la sombra y había pocos nadadores en ese momento en la piscina, lo que provocaba una menor cantidad de movimiento y olas en el agua. Para las secuencias 5, 8 y 9 las condiciones eran que el sol incidía en la superficie de la piscina en ángulos de 90º a 135º además lloviznó durante la toma y se encontraban una gran cantidad de nadadores en la piscina.

TABLA I
Resultados del seguimiento en diez secuencias de video (CDS-fotogramas en la secuencia de video, VP-verdadero positivo, PS- pérdida del seguimiento, TD%-tasa de detección, FN- falso negativo, FP- falso positivo).

Autor

Sin embargo, a pesar de las condiciones desfavorables para el procesamiento de video, el algoritmo propuesto obtuvo una tasa de detección en promedio del 93%, lo cual muestra la efectividad del algoritmo propuesto en diferentes condiciones de iluminación y ruido presentes en escenas acuáticas.

La Fig.5 presenta el resultado de cada una de las etapas del algoritmo ilustrada para 5 imágenes extraídas de la secuencia 1, donde se muestran: (a) el fotograma de video original con dimensiones 854x241, (b) el resultado del preprocesamiento (Ec. 1), (c), (d) el resultado de la etapa de segmentación: la matriz escasa que representa al nadador y la matriz de bajo rango que representa el fondo de la escena, (e) el resultado de la etapa de clasificación, donde es posible observar el nadador, y (f) el nadador detectado y seguido mediante el filtro de kalman.

La reproducibilidad para realizar la captación de secuencias de video mostró que debe ser empleada la luz del sol sin que sea directa en la superficie del agua, para reducir la cantidad de destellos de luz y sombras producidas por la luz del sol cuando atraviesa el agua, esto puede ser observado en los falsos positivos que en su mayoría son producto del reflejo de la luz cuando rebota y se refleja en las paredes de la piscina con gran intensidad.

Mediante el empleo de la descomposición de matrices de bajo rango, se incrementa el rendimiento en el procesamiento de cada fotograma de video ya que se tiene un menor número de datos a procesar cuando se emplea la metodología de difusión y el filtro de kalman.

Al realizar la captación de video se observó que la tasa de detección mejora cuando el nadador ejecuta correctamente la técnica, debido a que la correcta ejecución disminuye la cantidad de burbujas y olas en la piscina, mejorando la estabilización del montaje. Las pruebas realizadas muestran que la efectividad en la detección y seguimiento del nadador fue en promedio del 93%. Sin embargo, se observaron limitaciones en el algoritmo asociadas a elementos tales como la sombra del nadador que se proyecta en el fondo de la piscina o en las olas, así como los destellos de gran intensidad o reflejo de elementos externos de la piscina que aparecen en la escena.


Fig. 5
Resultado de aplicar la metodología en una secuencia de video con 854 x 241 pixeles espaciales x 290 fotogramas en el tiempo.

(a) Fotograma original. (b) Preprocesamiento . (c) Matriz escasa nadador . (d) Matríz bajo rango fondo . (e) Salida del tensor de difusión . (f) Salida, detección y seguimiento con base en el filtro kalman.

Autor

VI. Conclusiones

En este trabajo se presentó una metodología para detectar y seguir un nadador bajo el agua, que comprende un montaje con protocolo para la adquisición de secuencias de video bajo el agua y un algoritmo que toma la secuencia captada para realizar detección y seguimiento de un nadador.

El uso de las componentes S y V del modelo de color HSV en el preprocesamiento de los fotogramas de video, permite destacar los elementos que absorben la mayor luminosidad, lo que reduce la complejidad al realizar cálculos matemáticos para identificar los objetos de interés de una escena acuática.

Los resultados muestran que es posible detectar y seguir al nadador con una tasa de detección en promedio del 93%, lo cual comprueba que la metodología propuesta representa una herramienta para que los entrenadores realicen análisis cuantitativos y cualitativos a partir del seguimiento del nadador.

El diseño del montaje y el protocolo para realizar adquisición de video permite la reproducibilidad para que los entrenadores realicen captación de video y análisis del gesto deportivo.

Agradecimientos

Este trabajo ha sido financiado por Colciencias - Coldeportes a través del proyecto con contrato número CT.371-2014 - 1102-626-38785.

REFERENCIAS

[1] G. Suarez. Biomecánica Deportiva y Control del Entrenamiento. Medellín: Funambulos Editores 2009.

[2] J. Pansiot, B. Lo, and G. Zhong Yang. "Swimming stroke kinematic analysis with BSN". International Conference on Body Sensor Networks, BSN 2010, pages 153-158, 2010. DOI: 10.1109/BSN.2010.11

[4] S. Daukantas, V. Marozas, A. Lukosevicius, D. Jegelevicius & D. Kybartas. "Video and inertial sensors-based estimation of kinematical parameters in swimming sport". Proceedings of the 6th IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, IDAACS’2011, 1(September), 408–411. DOI: 10.1109/IDAACS.2011.6072785

[3] B. H. Khoo, B. K Lee, S. Arosha, and B. Wilson. "System for determining within-stroke variations of speed in swimming (SWiSS)". IEEE/ASME International Conference on Advanced Intelligent Mechatronics, AIM, pages 1927-1932, 2009. DOI: 10.1109/AIM.2009.5229771

[5] R. P. Dubois, D. V. Thiel, & D. James. "Using image processing for biomechanics measures in swimming". Procedia Engineering, 34, 807–812, 2012. DOI:10.1016/j.proeng.2012.04.138

[6] J. Karlekar, & A. Fang (2010). "Underwater swimmer segmentation". IEEE International Conference on Multimedia and Expo, ICME 2010, 619–624. DOI: 10.1109/ICME.2010.5582608

[7] L. Wang, W. Hu, and T. Tan. "Recent developments in human motion analysis". Pattern recognition, 36(3):585-601, 2003. DOI: 10.1016/S0031-3203(02)00100-0

[8] M. Elipot, G. Dietrich, P. Hellard, and N. Houel. "High-level swimmers kinetic eficiency during the underwater phase of a grab start". Journal of Applied Biomechanics, 26(4):501-507, 2010. DOI: 10.1123/jab.26.4.501

[9] M. Elipot, P. Hellard, R. Taiar, E. Boissiére, J. L. Rey, S. Lecat, and N. Houel. "Analysis of swimmers velocity during the underwater gliding motion following grab start". Journal of Biomechanics, 42(9):1367-1370, 2009. DOI: 10.1016/j.jbiomech.2009.03.032

[10] J. Y. Chiang and Y. C. Chen. "Underwater image enhancement by wavelength compensation and dehazing". IEEE Transactions on Image Processing, 21(4):1756-1769, 2012. DOI: 10.1109/TIP.2011.2179666

[11] F. a. Magalhaes, Z. Sawacha, R. Di Michele, M. Cortesi, G. Gatta, and S. Fantozzi. "Efectiveness of an automatic tracking software in underwater motion analysis". Journal of Sports Science and Medicine, 12(4):660-667, 2013.

[12] A. E Waters, A. C Sankaranarayanan, and R. G Baraniuk."SpaRCS: Recovering low-rank and sparse matrices from compressive measurements". Advances in Neural Information Processing Systems, (2):1-9, 2011.

[13] C. V. Correa, D. F. Galvis, and H. Arguello. "Sparse representations of dynamic scenes for compressive spectral video sensing". Dyna, 83(195):42-51, 2016. DOI: 10.15446/dyna.v83n195.47873

[14] S. Jiang, P. Zhang, T. Han, W. Liu, and M. Liu. "Tri-linear interpolation-based cerebral white matter fiber imaging". Neural Regeneration Research, 8(23):2155-2164, 2013. DOI: 10.3969/j.issn.1673-5374.2013.23.005

[15] M. Lazar, D. M. Weinstein, J. S. Tsuruda, K. M. Hasan, K. Arfanakis, M. E. Meyerand, B. Badie, H. A. Rowley, V. Haughton, A. Field, and A. L. Alexander. "White matter tractography using difusion tensor detection". Human Brain Mapping, 18(4):306-321, 2003. DOI: 10.1002/hbm.10102

[16] D. A. Gutman, P. E. Holtzheimer, T. E. J. Behrens, H. Johansen-Berg, and H. S. Mayberg, “A tractography analysis of two deep brain stimulation white matter targets for depression”. Biol Psychiatry. 2009 Feb 15; 65(4): 276–282. DOI: 10.1016/j.biopsych.2008.09.021

[17] T. Z. and R. Nevatia. "Tracking multiple humans in complex situations". IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(9):1208-1221, 2004. DOI: 10.1109/TPAMI.2004.73

[18] F. Lei and X. Zhao. "Adaptive background estimation of underwater using Kalman-Filtering". Proceedings - 2010 3rd International Congress on Image and Signal Processing, CISP 2010, 1:64-67, 2010. DOI: 10.1109/CISP.2010.5647080

[19] S. Belloch. El Análisis Biomecánico En Natación de la Actividad Física y el Deporte. Facultad de Ciencias de la Actividad Física y el Deporte. Universitat de València, 2002.

[20] G. Telem and S. Filin. "Photogrammetric modeling of the relative orientation in underwater environments". ISPRS Journal of Photogrammetry and Remote Sensing, 86(5):150-156, 2013. DOI: 10.1016/j.isprsjprs.2013.10.001

[21] D. Zecha. "Key-Pose Prediction in Cyclic Human Motion". Multimedia Computing and Computer Vision Lab, University of Augsburg 2010. DOI: 10.1109/WACV.2015.19

[22] D. Zecha, T. Greif, and R. Lienhart. "A Swimmer Detection and Pose Determination" T Augsburg Universit Informatik Institut. 2011.

[23] H. Li, S. Lin, Y. Zhang, and K. Tao. "Automatic videobased analysis of athlete action". Proceedings - 14th International conference on Image Analysis and Processing, ICIAP 2007, (Iciap):205-210, 2007. DOI: 10.1109/ICIAP.2007.4362780

[24] X. Zhao, T. Jin, and S. Qu. "Deriving inherent optical properties from background color and underwater image enhancement". Ocean Engineering, 94:163-172, 2015. DOI: 10.1016/j.oceaneng.2014.11.036

[25] A. R. Smith. "Color gamut transform pairs". ACM SIGGRAPH Computer Graphics, 12(3):12-19, 1978.

[26] W. Yin, S. Osher, D. Goldfarb, and J. Darbon. "Bregman iterative algorithms for L1-minimization with applications to compressed sensing". SIAM Journal on Imaging Sciences, 1(1):143-168, 2008. DOI. 10.1137/070703983

[27] M. Fazel, E. Candes, B. Recht, and P. Parrilo. "Compressed sensing and robust recovery of low rank matrices". Conference Record - Asilomar Conference on Signals, Systems and Computers, (1):1043-1047, 2008. DOI: 10.1109/ACSSC.2008.5074571

[28] B. Recht, M. Fazel, and P. a. Parrilo. "Guaranteed Minimum-Rank Solutions of Linear Matrix Equations via Nuclear Norm Minimization". arXiv preprint arXiv:0706.4138, pages 471-501, 2007.

[29] B. Recht. "A Simpler Approach to Matrix Completion". Journal of Machine Learning Research, 12:1-13, 2009. https://arxiv.org/pdf/0910.0651v1.pdf

[30] S. Huang, Y. Yeh, and S. Eguchi. "Robust principal component analysis?". Neural computation, 21(11):3179{3213, 2009. DOI: 10.1145/1970392.1970395

[31] J. Gao, J. Xing, W. Hu, and S. Maybank. "Discriminant tracking using tensor representation with semi-supervised improvement". Proceedings of the IEEE International Conference on Computer Vision, pages 1569-1576, 2013. DOI: 10.1109/ICCV.2013.198

[32] B. Chen and E. W. Hsu. "Noise removal in magnetic resonance difusion tensor imaging". Magnetic Resonance in Medicine, 54(2):393-401, 2005. DOI: 10.1002/mrm.20582

Notas de autor

1

Carlos E. Reyes

Recibió los títulos de Ingeniero de Sistemas y Magíster en Ingeniería de Sistemas e Informática de la Universidad Industrial de Santander, Bucaramanga, Colombia, en 2012 y 2018, respectivamente. Actualmente es Coinvestigador y Desarrollador de software fullstack .Net en la Universidad Industrial de Santander. Sus intereses de investigación incluyen programación distribuida, aplicaciones en tiempo real, mineria de datos, y procesamiento de video e imagenes.

2

Claudia V. Correa

Recibió los títulos de Ingeniera de Sistemas y Magíster en Ingeniería de Sistemas e Informática de la Universidad Industrial de Santander, Bucaramanga, Colombia, en 2009 y 2013, respectivamente, y los títulos de Magíster y Ph.D. en Ingeniería Eléctrica y Computación de la Universidad de Delaware, Newark, DE, EE.UU., en 2013 y 2017, respectivamente. Actualmente es investigador postdoctoral en la Escuela de Ingeniería de Sistemas e Informática de la Universidad Industrial de Santander. Sus intereses de investigación incluyen adquisición compresiva de imágenes espectrales, óptica computacional, y muestreo compresivo.

3

Henry Arguello Fuentes

Recibió el título de Magíster en Ingeniería Eléctrica de la Universidad Industrial de Santander, Bucaramanga, Colombia, en 2003, y el título de Ph.D. en Ingeniería Eléctrica y Computación de la Universidad de Delaware, Newark, DE, EE.UU., en 2013. Actualmente es profesor titular en la Escuela de Ingeniería de Sistemas e Informática de la Universidad Industrial de Santander. El Dr. Arguello es miembro senior de IEEE y OSA; además es el presidente del capítulo de procesamiento de señales de IEEE Colombia, y es miembro del Comité Técnico de óptica computacional de IEEE. Sus intereses de investigación incluyen procesamiento de señales, codificación de señales de altas dimensiones, óptica computacional, y muestreo compresivo.



Buscar:
Ir a la Página
IR
Visor de artículos científicos generados a partir de XML-JATS4R por