Tecnología

El Motor de ETIQMEDIA

Audio

ETIQMEDIA ha establecido una estrecha colaboración con el grupo de investigación VivoLab del Instituto de Investigación en Ingeniería de Aragón de la Universidad de Zaragoza. Vivolab está centrado en la investigación de Tecnologías del habla y Procesado Multimedia y posee una amplia y reconocida experiencia en este ámbito. Esta colaboración permite a ETIQMEDIA estar a la vanguardia en el análisis de audio para su utilización en la catalogación de contenido audiovisual.
ASR

ASR

Reconocimiento automático del habla.

La principal fuente de información para la catalogación de un vídeo está presente en el audio del mismo. Para ello necesitamos extraer de forma automática la información de dicho audio. Esto nos requiere la utilización de tecnologías del habla. Las tecnologías del habla centran su estudio en facilitar la comunicación oral entre personas y máquinas. En este proceso podemos definir tres bloques: emisión del mensaje, transmisión del mensaje y recepción del mensaje. En la emisión se encuentran las tecnologías de conversión texto-audio, en la transmisión encontraremos las centradas en la codificación del audio y en la recepción se encuentra el reconocimiento del habla o conversión audio-texto. Por lo tanto, en ETIQMEDIA nos centramos en el reconocimiento del habla como herramienta capaz de generar etiquetas de texto partiendo del audio de los vídeos. Estas etiquetas de texto llevan asociado el tiempo en el que se han encontrado, lo que permite la búsqueda de palabras clave en el vídeo.

Sincronización audio-subtítulos

Reajuste de la sincronía audio-subtítulos para contenidos capturados de la señal de difusión.

Otra de las problemáticas que podemos encontrar habitualmente en la catalogación de contenido audiovisual es la de contar con una fuente de información textual asociada a un vídeo, pero sin estar sincronizada con el audio. Puede tratarse tanto de una trascripción del audio sin marcas temporales, como de unos subtítulos que no están perfectamente sincronizados por haber sido generados en directo mediante herramientas automáticas, como sucede en gran parte de los contenidos emitidos en TDT en España. Para ambas situaciones, ETIQMEDIA cuenta con la tecnología capaz de alinear la transcripción o los subtítulos desincronizados, para generar unos subtítulos finales perfectamente sincronizados.

Sincronización audio-subtítulos

Video

El equipo que forma ETIQMEDIA cuenta con expertos en el ámbito de análisis de imagen con experiencia probada en este ámbito. ETIQMEDIA basa todo su análisis de vídeo en tecnologías propias, no se utiliza ninguna tecnología propietaria de terceras partes. Estas tecnologías nacen del trabajo de los profesionales que componen ETIQMEDIA, por lo que todo el conocimiento reside dentro de nuestro equipo. Esto nos da la capacidad de seguir evolucionando sin depender de terceros y adaptarnos a las necesidades de nuestros clientes para darles la mejor solución posible.
Face detection and recognition

Detección y reconocimiento de caras

Detección de las caras de la imagen, almacenamiento en la BBDD y reconocimiento del protagonista.

ETIQMEDIA analiza cada vídeo frame a frame para detectar las caras presentes en el mismo. Se aplica un algoritmo basado en un sistema de inteligencia artificial alimentado con los datos de años de trabajo, de esta forma se ha logrado una muy elevada tasa de acierto en la detección de caras. Adicionalmente, para evitar falsos positivos, se aplican filtros que utilizan las características de los vídeos, para mejorar los resultados del algoritmo inicial. Una vez detectadas las caras se reconocen trabajando con repositorios de protagonistas, y en caso de que se trate de un nuevo personaje el usuario puede realimentar el algoritmo con esta nueva información. De esta manera ese personaje será reconocido en futuras apariciones.

OCR

Detección de texto en pantalla y transcripción del mismo.

Las tecnologías OCR se centran en transcribir los textos que aparecen en la imagen, de esta forma se convierte la imagen de un texto en el propio texto. ETIQMEDIA divide el proceso de lectura del texto en imagen en dos fases: en la primera fase se detecta la presencia de texto en la imagen y se recortan las regiones correspondientes. A continuación, se transcribe el texto de dichas regiones. ETIQMEDIA utiliza las características del vídeo en el que aparece el texto para mejorar los resultados de la transcripción de textos frente a un OCR aplicado únicamente frame a frame. Los filtros desarrollados en ETIQMEDIA para agrupar esta información suponen una mejora diferencial frente a otros sistemas.

OCR
Scene understanding

Scene understanding

Segmentación e identificación de los planos y escenas que componen el vídeo.

Las tecnologías de scene understanding se centran en la comprensión de una imagen o un vídeo, de tal manera que un sistema sea capaz de percibir y extraer información de la misma manera que lo haría un humano. Dentro de este amplio campo, ETIQMEDIA se centra en el reconocimiento de planos y escenas. Mediante un motor de inteligencia artificial entrenado con miles de planos y escenas, nuestro algoritmo es capaz de identificar cada uno de los planos y escenas que componen un vídeo. Así, para un partido de fútbol, ETIQMEDIA es capaz de segmentar el vídeo en las sucesivas jugadas: gol, falta, fuera, córner, etc. Y, a su vez, para cada jugada es capaz de identificar los diferentes planos que la forman, plano de juego, primer plano jugador, repetición, grada, etc.

Detección de logos

Detección de logos y marcas.

Existe una gran cantidad de tecnologías en el análisis de imagen orientadas a la detección de patrones en una imagen. ETIQMEDIA ha profundizado en estas tecnologías para ser capaz de aplicar la mejor opción para la detección de logos. De este análisis y desarrollo, ha surgido un sistema de detección de logos robusto ante cambios de tamaño, rotación o iluminación. Esto nos permite detectar un logo en cualquier situación, desde fotocalls a cortinillas de patrocinio.

Detección y reconocimiento de logos
GPU y Multithreading

GPU y Multithreading

Utilización de las últimas técnicas de programación multithread y GPU para optimizar el rendimiento de la plataforma.

Una de las prioridades de ETIQMEDIA es optimizar los tiempos de computación para reducir al máximo el tiempo desde que un contenido entra en el flujo hasta que está preparado para ser consumido por el usuario. Para ello trabajamos con las dos tecnologías más utilizadas para reducir tiempo de computación paralelizando procesos independientes dentro de un análisis de vídeo: computación GPU (Graphics Processor Unit) y multithreading. La GPU es una unidad de procesamiento optimizada para el análisis de imagen, ya que es capaz de llevar a cabo gran número de operaciones simples en paralelo. Las operaciones sobre imágenes trabajan con operaciones matriciales, que se llevan a cabo de forma óptima gracias a la arquitectura GPU. Esto además libera al procesador principal del servidor (CPU) que puede dedicarse a realizar otras operaciones al mismo tiempo. El multithreading es la capacidad de un sistema de trabajar con múltiples procesos o threads al mismo tiempo. En este caso la CPU es capaz de trabajar con múltiples procesos avanzando en paralelo en aquellas operaciones que no estén relacionadas. Esta arquitectura evita el tener que ejecutar de forma consecutiva trabajos que no requieren transferencia de información entre ellos, de nuevo acelerando el tiempo de ejecución del sistema global. ETIQMEDIA hace uso de estas tecnologías reduciendo en un factor 10x el tiempo de ejecución frente a un sistema sin paralelizar.

Texto

Para el análisis de textos, ETIQMEDIA ha establecido una colaboración estratégica con el Instituto Tecnológico de Aragón (ITAINNOVA) que lo posiciona a la vanguardia en este campo. ITAINNOVA cuenta con una amplia experiencia en la utilización de la Inteligencia Artificial aplicada al ámbito de las Tecnologías del Lenguaje Natural, especialmente en la ayuda a la gestión, categorización y documentación de textos.
Natural language technologies

Procesamiento del lenguaje natural

Conjunto de tecnologías aplicadas para analizar de forma automática los textos detectados.

El objetivo de este campo es encontrar mecanismos computacionales que permitan reconocer, comprender y generar el lenguaje de la forma más próxima posible a cómo lo haría un humano. ETIQMEDIA en colaboración con ITAINNOVA utiliza tecnologías capaces de analizar la sintaxis de una oración y categorizar un contenido trabajando con ontologías. El análisis sintáctico está dirigido a la extracción de entidades semánticas que nos den información sobre la función de las palabras en la oración. Así, nuestros algoritmos son capaces de determinar si una palabra actúa como protagonista, lugar, organización o acción dentro de una frase. Esto permite realizar una búsqueda de una palabra restringiendo los resultados a aquellas ocasiones en las que tenga el significado que nos interese: podemos buscar Madrid como lugar o como apellido de un protagonista. La categorización puede trabajar con ontologías estándares como IPTC, asignando de forma automática un segmento de un contenido a la categoría asociada. Igualmente, se permite que el usuario pueda definir su propia ontología, definiendo las categorías y subcategorías en las que le interesa dividir la información.