Nuestra solución automática de transcripción e indexación de vídeo está certificada en Oracle Cloud Infrastructure (OCI). Gracias a nuestra colaboración con OCI y Telefónica Servicios Audiovisuales, hemos logrado optimizar nuestra tecnología para ofrecer una transcripción más eficiente y rápida, demostrando nuestra capacidad para procesar una amplia gama de contenido multimedia.
Como fruto de los resultados de esta colaboración, hemos elaborado este artículo de manera conjunta donde explicamos técnicamente cómo ha sido el proceso y los interesantísimos resultados obtenidos.
Sin duda, es un gran paso ya que hemos alcanzado un mayor rendimiento con nuestros algoritmos en comparación con pruebas anteriores realizadas en el resto de nubes del mercado utilizando recursos de hardware similares. Os invitamos a descubrirlo.
Post original: blogs.oracle.com
17 de abril de 2024 | 5 minutos de lectura
En este artículo, pretendemos evaluar la eficiencia del sistema de transcripción automática de ETIQMEDIA en OCI.
La inteligencia artificial (IA) es un mercado en alza y su adopción está creciendo en todos los sectores verticales. Para los profesionales de los medios de comunicación, la IA está cambiando las reglas del juego, ofreciendo una plétora de 90 aplicaciones que mejoran la eficiencia, elevan la calidad de los contenidos y revolucionan las experiencias de los usuarios. Desde los sistemas de recomendación de contenidos hasta la creación automatizada de contenidos mediante modernas tecnologías de IA generativa, el abanico de aplicaciones es enorme, e incluye la transcripción automatizada, la traducción, el análisis de sentimientos, la publicidad personalizada y la mejora de los procesos de posproducción.
TSA, OCI y ETIQMEDIA
Telefónica Servicios Audiovisuales (TSA) ha impulsado una prueba de concepto (POC) pionera en el sector audiovisual, utilizando la tecnología de OCI y ETIQMEDIA para el análisis de contenidos multimedia mediante IA. A través de LABTSA, su laboratorio de innovación, TSA se consolida como empresa líder en la exploración y aplicación de soluciones de IA para el análisis de media, audio y vídeo en el ámbito de los servicios audiovisuales de Telefónica. ETIQMEDIA es una empresa española especializada en el desarrollo de soluciones basadas en IA y está presente en la mayor parte del sector audiovisual nacional. Entre sus soluciones se encuentran la visión por computador, la indexación de contenidos multimedia y la transcripción automática de voz, entre otras.
Se ha probado la funcionalidad de dos grandes tecnologías de transcripción: Una basada en Redes Neuronales Convolucionales y otra en Transformadores. El enfoque basado en Redes Neuronales Convolucionales permite una mayor flexibilidad en su aplicación porque está diseñado para ser evaluado en una CPU, con un carácter modular y personalizable para cada dominio, tanto en los aspectos acústicos como contextuales. Además, permite el procesamiento en tiempo real.
Por otro lado, la tecnología basada en Transformers ofrece una potencia de procesamiento acústico mucho mayor, siendo más robusta en entornos con peores condiciones de grabación y en contenidos con habla más espontánea, como series de televisión y películas. Se han realizado pruebas para diferentes tipos de contenidos: Institucionales, informativos y ficción, proporcionando una comprobación exhaustiva de la velocidad de cálculo de ambos sistemas.
OCI ofrece una amplia selección de formas de cálculo basadas en la GPU NVIDIA que resultan muy adecuadas para cargas de trabajo de aprendizaje automático (ML), como la inferencia y el entrenamiento de modelos.
Por ejemplo, las formas basadas en la GPU NVIDIA A10 Tensor Core pueden ofrecer ventajas económicas. La oferta de OCI incluye máquinas virtuales (VM) con 1 GPU, 2 GPU e incluso una forma bare metal con 4 GPU A10. Las VM basadas en A10 pueden iniciarse y detenerse rápidamente para adaptar elásticamente los recursos a una demanda variable.
Para el entrenamiento e inferencia de modelos a mediana y gran escala, considere las formas basadas en la GPU NVIDIA A100 Tensor Core y la GPU NVIDIA H100 Tensor Core y la forma recientemente anunciada basada en la GPU NVIDIA L40S. Pueden escalar los trabajos de entrenamiento a miles de GPU utilizando la red de alto rendimiento OCI basada en el protocolo RoCE acelerado y las NVIDIA ConnectX NIC. Para modelos de pequeña escala, el entrenamiento de formas basadas en A10 puede seguir resultando valioso.
Desarrollo de las pruebas
Los sistemas descritos han sido evaluados con el objetivo de maximizar el número de horas procesadas al día (throughput/día). Para ello, hemos realizado pruebas en OCI, aprovechando al máximo sus recursos.
Para estas pruebas, utilizamos la forma VM.GPU.A10.1, que incluye una única GPU A10, 15 núcleos físicos de CPU (OCPU) y 240 GB de memoria RAM. Esta configuración proporciona una VM de cálculo equilibrada para ejecutar inferencia basada tanto en la GPU como en la CPU. El acceso a ambos tipos de procesamiento, CPU y GPU, en la misma forma permite la ejecución eficiente de tareas complejas que implican flujos de audio de distintas fuentes y con características diferentes. Además, permite optimizar la gestión de la infraestructura en la nube, eliminando la necesidad de mantener y gestionar múltiples instancias para distintos tipos de procesamiento, con la consiguiente reducción de costes operativos.
Los vídeos utilizados para estas pruebas tienen una duración media aproximada de 2 horas. En ASR Convolucional utilizando la CPU, empleamos tres configuraciones: Una instancia de aplicación con dos hilos (Conv-1), cinco instancias de aplicación con cinco hilos cada una (Conv-5) y 10 instancias de aplicación con dos hilos por instancia (Conv-10). La siguiente tabla muestra el rendimiento obtenido con cada una de las distintas configuraciones.
Prueba (Thread count) | Conv-1 (2) | Conv-5 (25) | Conv-10 (20) |
horas/día de vídeo (mejora con respecto a Conv-1) | 144.93 | 449.18 (3.09 veces) | 440.29 (3.03 veces) |
Al aumentar el número de instancias de la aplicación en paralelo, podemos maximizar el uso de la CPU, lo que se traduce en un aumento significativo del rendimiento. En concreto, se consiguen mejoras de 3,09x (Conv-5) y 3,03x (Conv-10) en la eficiencia en comparación con Conv-1. También observamos que ejecutando menos instancias de aplicación en paralelo (Conv-5) pero proporcionando más recursos (hilos) a cada una, conseguimos una mejora de aproximadamente un 2% en comparación con Conv-10.
En el caso de Transformers, el número máximo de instancias de aplicación en paralelo que admite una sola GPU A10 es de 3, aunque depende del tamaño del modelo y del tipo de forma de cálculo. Así, el rendimiento se compara utilizando una única instancia de aplicación (TF-1), dos instancias de aplicación (TF-2) y tres instancias de aplicación (TF-3). Cada instancia de aplicación obtuvo la siguiente mejora de rendimiento en horas/día, lo que demuestra que la mejora lograda por la TF-3 es 2,04 veces, en comparación con el uso de una única instancia de aplicación.
- TF-1: 401,67
- TF-2: 730,01
- TF-3: 818,45 (mejora de 2,04 veces)
Observamos cómo OCI puede adaptarse fácilmente a las necesidades de cada sistema, optimizando el uso de CPU o GPU según sea necesario.
Conclusión
Las pruebas realizadas en el servidor OCI han arrojado resultados positivos en cuanto al rendimiento obtenido, tanto en Convolutional ASR como en Transformers. La configuración que mejor se adapta a la máquina (15 OCPUs 240GB de RAM) para Convolutional ASR tiene cinco instancias de aplicación con 5 hilos por instancia, lo que resulta en un rendimiento de transcripción de vídeo de 449 horas/día. En el caso de Transformers, la capacidad de procesamiento está estrechamente ligada a la GPU disponible. En esta forma (NVIDIA A10 de 24 GB), el sistema puede procesar tres instancias de aplicación en paralelo, con lo que alcanza un rendimiento de 818,45 horas/día, lo que representa una mejora de 1,8 veces. Además, OCI ha permitido a ETIQMEDIA alcanzar un mayor rendimiento con sus algoritmos en comparación con pruebas anteriores realizadas en el resto de nubes del mercado utilizando recursos de hardware similares.
En los talleres y cursos de formación sobre IA se ofrecen recursos de aprendizaje gratuitos para ayudarle a sacar el máximo partido a su experiencia de desarrollo e implantación de Oracle AI. Para obtener más información sobre las capacidades de Oracle Cloud Infrastructure, visítenos en GPU compute and AI infrastructure.