La tecnología de NVIDIA acelera la plataforma Apache Spark
Las soluciones de GPU de NVIDIA Enterprise fortalecen la principal plataforma líder en el de análisis de datos a nivel global Apache Spark 3.0.
NVIDIA anunció la colaboración con los líderes de la comunidad de código abierto para incorporar la aceleración por GPU integral a Apache Spark 3.0, un motor de análisis para el procesamiento de big data que utilizan más de 500,000 científicos de datos alrededor de todo el mundo.
Con esta colaboración los científicos de datos y los ingenieros de Machine Learning (ML) podrán aplicar una revolucionaria aceleración del GPU a las cargas de trabajo de procesamiento de datos de ETL (Extraer, Transformar y Cargar) que se llevan a cabo en las operaciones con bases de datos SQL.
“El análisis de datos es el mayor desafío informático de alto rendimiento que enfrentan las empresas e investigadores actuales”, dijo Manuvir Das, jefe de Informática Empresarial de NVIDIA. “La aceleración del GPU nativa para toda la línea de Spark 3.0, desde ETL hasta capacitación e inferencia, ofrece el rendimiento y la escalabilidad necesarios para finalmente conectar el potencial de big data con el poder de la IA”.
El avance en el rendimiento en Spark 3.0 mejora la precisión del modelo ya que permite a los científicos entrenar modelos con conjuntos de datos más grandes y repetir los entrenamientos con mayor frecuencia. Esto proporciona nuevas y poderosas capacidades para aquellos que necesitan procesar terabytes de datos nuevos todos los días, como los científicos de datos que respaldan los sistemas recomendados en línea o analizan nuevos datos de investigación.
Apache Spark es una creación de los fundadores de Databricks, cuya plataforma de análisis de datos unificada y basada en la nube, se ejecuta en más de un millón de máquinas virtuales cada día. NVIDIA y Databricks también han colaborado para optimizar el conjunto de software RAPIDSTM para Databricks, que ejecuta cargas de trabajo de Ciencia de Datos y Machine Learning para la atención de la salud, las finanzas, la venta minorista y muchas otras industrias.
NVIDIA aporta un nuevo acelerador de RAPIDS con código abierto para Apache Spark para ayudar a los científicos de datos a aumentar el rendimiento de sus procesos de forma integral. El acelerador intercepta funciones previamente realizadas por las CPUs y en su lugar, utiliza las GPUs para hacer lo siguiente:
- Acelerar los procesos de ETL en Spark mejorando drásticamente el rendimiento de las operaciones de Spark SQL y DataFrame sin requerir ningún cambio de código.
- Acelerar la preparación de datos y la capacitación de modelos en el mismo conjunto de infraestructura, donde no se requiere un clúster separado para Machine Learning y Deep Learning.
- Acelerar el rendimiento de la transferencia de datos a través de nodos en un clúster distribuido de Spark. Estas bibliotecas aprovechan el marco de trabajo de código abierto UCX (Unified Communication X) y minimizan la latencia, ya que permiten que los datos se muevan directamente entre la memoria de la GPU.