GetUSB.info Logo

Posts Tagged ‘procesamiento cerca del almacenamiento’

Por qué la IA está moviendo el procesamiento más cerca del almacenamiento

Diagrama de la serie sobre infraestructura de memoria para IA que muestra NAND, HBM, SCM, High Bandwidth Flash, limitaciones de DRAM, discos duros y procesamiento moviéndose más cerca del almacenamiento

Si has seguido las entregas anteriores de esta serie, probablemente ya notaste que empieza a aparecer un patrón.

En el primer artículo hablamos de cómo la memoria flash NAND no está desapareciendo, sino que se está convirtiendo en parte de una jerarquía de memoria para IA mucho más amplia. Después vimos la High Bandwidth Memory (HBM) y por qué las GPU modernas dependen de tener los datos físicamente más cerca del procesador. Luego pasamos a Storage Class Memory, High Bandwidth Flash, las limitaciones de escalar DRAM y, finalmente, por qué incluso los discos duros tradicionales siguen siendo críticos, porque la infraestructura de IA opera a una escala que la mayoría de las personas subestima enormemente.

A primera vista, esos pueden parecer temas separados.

No lo son.

Todos son síntomas de la misma presión de fondo: los sistemas de IA ya no están luchando principalmente con la potencia de cálculo. Están luchando con la eficiencia con la que pueden mover datos.

Ese cambio modifica casi todo sobre cómo se diseña la infraestructura.

Durante décadas, la computación siguió un modelo bastante estable. El almacenamiento guardaba los datos, la memoria los preparaba y los procesadores tomaban lo que necesitaban. A medida que los procesadores se volvieron más rápidos, el sistema simplemente trató de alimentarlos de forma más eficiente usando mejores buses, cachés más grandes y tecnologías de memoria más rápidas.

La IA cambió la escala del problema.

Los clusters modernos de GPU pueden procesar información a una velocidad tan enorme que el simple acto de mover datos por el sistema ha empezado a convertirse en uno de los mayores cuellos de botella de toda la arquitectura. En algunos entornos, el procesador en sí ya no es la parte lenta. La demora viene de llevar los datos correctos al procesador con la suficiente rapidez y consistencia para mantenerlo plenamente ocupado.

Esa realidad está empujando silenciosamente a la industria hacia una nueva dirección.

En lugar de mover continuamente cantidades cada vez mayores de datos de ida y vuelta por el sistema, la infraestructura de IA está empezando a mover partes del procesamiento más cerca de donde los datos ya viven.

Y una vez que entiendes por qué está ocurriendo eso, muchos de los artículos anteriores de esta serie empiezan a encajar con mucha más claridad.

La IA está empezando a chocar contra un muro de movimiento de datos

Una de las ideas más importantes del artículo anterior sobre HBM fue que los sistemas modernos de IA muchas veces se ralentizan no porque al procesador le falte capacidad de cálculo, sino porque el sistema no puede entregar datos lo bastante rápido como para mantener ocupado al procesador.

Ese problema se vuelve mucho más serio cuando las cargas de trabajo de IA se expanden a racks y clusters completos.

Un acelerador moderno de IA puede consumir cantidades asombrosas de información en paralelo. El problema es que los conjuntos de datos ya no son lo bastante pequeños como para caber por completo dentro de los niveles de memoria más rápidos. Incluso con HBM y grandes pools de DRAM, enormes cantidades de datos todavía necesitan viajar a través de interconexiones, buses, fabrics, capas de almacenamiento e infraestructura de red.

Ese movimiento tiene un costo.

Aparece como latencia, pero esa es solo una parte de la historia. También aparece como consumo eléctrico, calor, demanda de enfriamiento, congestión, retrasos de sincronización y ciclos de cómputo inactivos. Como comentamos en la entrega sobre DRAM, incluso demoras diminutas se vuelven sorprendentemente caras cuando miles de GPU están operando al mismo tiempo. Una pequeña pausa multiplicada por un gran cluster de IA puede representar una enorme cantidad de utilización perdida.

Eso cambia las prioridades de ingeniería.

Durante años, la infraestructura se diseñó en gran parte alrededor de maximizar el rendimiento de cálculo. Los sistemas de IA ahora obligan a los ingenieros a pensar con la misma seriedad en la localidad de los datos, es decir, dónde se encuentra físicamente la información en relación con el procesador que intenta usarla.

Dicho de forma simple, la distancia ahora importa mucho más que antes.

Las GPU se volvieron tan rápidas que el resto del sistema empezó a quedarse atrás

Una de las cosas curiosas de la infraestructura de IA es que el progreso en un área tiende a exponer debilidades en otra.

A medida que las GPU se hicieron más rápidas, el ancho de banda de memoria se convirtió en el cuello de botella. Eso llevó a HBM. Cuando las limitaciones de capacidad de HBM se volvieron más evidentes, la industria empezó a introducir capas intermedias como Storage Class Memory. Cuando escalar DRAM se volvió caro y físicamente difícil, los sistemas empezaron a apoyarse más en NAND, mientras también exploraban conceptos como High Bandwidth Flash.

Y a medida que los conjuntos de datos de IA siguieron creciendo hasta el rango de petabytes y exabytes, los discos duros siguieron siendo silenciosamente esenciales, porque la economía de almacenar tanta información simplemente no podía funcionar de otra manera.

Cada artículo de esta serie, en realidad, ha estado apuntando hacia la misma conclusión desde un ángulo distinto.

La vieja suposición de que el procesamiento está aquí mientras el almacenamiento está allá empieza a romperse. La razón es bastante simple: las GPU ahora pueden procesar datos más rápido de lo que las arquitecturas tradicionales pueden entregarlos cómodamente.

Eso crea una situación en la que enormes cantidades de actividad del sistema se gastan simplemente transportando información de un lugar a otro. En términos prácticos, algunos entornos de IA empiezan a parecer menos problemas de cómputo puro y más problemas de logística.

La industria empezó a hacer una pregunta diferente

Durante mucho tiempo, la innovación en almacenamiento se enfocó principalmente en hacer que los dispositivos de almacenamiento fueran más rápidos. SSD más rápidos, interfaces más rápidas, NAND más rápida y controladores más rápidos importaban, y todavía importan hoy.

Pero las cargas de trabajo de IA empezaron a revelar un problema más profundo debajo de todo eso.

En algún momento, los ingenieros empezaron a darse cuenta de que el problema no siempre era la velocidad del dispositivo de almacenamiento en sí. El problema era el movimiento repetido de cantidades masivas de datos de ida y vuelta a través de todo el sistema.

Esa distinción sutil importa, porque una vez que el problema se convierte en movimiento de datos en lugar de simple velocidad de almacenamiento, la solución también empieza a cambiar.

En vez de preguntar eternamente cómo hacer más rápido el almacenamiento, la industria empezó a preguntar qué tan lejos deben viajar los datos en primer lugar.

Esa pregunta ahora influye en casi cada parte del diseño moderno de infraestructura para IA.

Mover el procesamiento más cerca de donde ya viven los datos

Aquí es donde la arquitectura empieza a cambiar.

En lugar de tratar el almacenamiento como una capa completamente pasiva que simplemente espera solicitudes, los sistemas más nuevos están empezando a realizar ciertas tareas más cerca de los datos mismos. No necesariamente procesamiento completo a escala de GPU, sino operaciones localizadas que reducen movimiento innecesario por el resto del sistema.

Algunos sistemas ahora realizan filtrado, indexación, operaciones de búsqueda, compresión, preparación para recuperación y organización de datos más cerca de la capa de almacenamiento antes de que la información llegue siquiera a los motores principales de cómputo.

El objetivo no es eliminar las GPU ni reemplazar la memoria rápida. El objetivo es reducir el desperdicio.

Si el sistema puede evitar transportar enormes cantidades de datos innecesarios a través de la infraestructura, toda la plataforma se vuelve más eficiente. Esta es una de las razones por las que la línea entre procesamiento y almacenamiento empieza a difuminarse.

El almacenamiento ya no se comporta como un destino completamente inactivo sentado al fondo de la jerarquía. Está participando más en cómo se preparan, organizan, filtran y entregan los datos hacia arriba.

Si recuerdas el artículo anterior sobre High Bandwidth Flash, esta dirección tiene mucho sentido. Ese artículo mostró cómo la propia NAND estaba siendo empujada hacia un comportamiento más parecido al de la memoria. Este artículo extiende la misma idea un paso más, mostrando cómo la arquitectura alrededor también se está adaptando al costo de mover datos.

La analogía del almacén empieza a verse diferente

La analogía del almacén que hemos usado a lo largo de esta serie todavía funciona aquí, pero el propio almacén ha empezado a evolucionar porque la carga de trabajo dentro de él ha cambiado.

En las entregas anteriores, la distribución era bastante sencilla. HBM representaba el muelle de carga donde el siguiente pallet ya estaba esperando junto a los trabajadores. DRAM actuaba como el piso activo donde ocurrían la clasificación y el manejo inmediatos. Storage Class Memory se convirtió en el área de preparación justo detrás del muelle, mientras que NAND representaba los estantes principales del almacén más al fondo. Los discos duros manejaban el almacenamiento masivo más profundo, donde vivía el inventario de largo plazo, porque la capacidad importaba más que la velocidad de acceso inmediato.

Ese modelo todavía se mantiene en general, pero los sistemas de IA están empezando a exponer ineficiencias en cuánto movimiento ocurre entre esas áreas.

Imagina un almacén donde los trabajadores pasan más tiempo manejando montacargas de un lado a otro del edificio que procesando realmente el inventario. Al principio, la administración responde comprando montacargas más rápidos, ampliando los pasillos y mejorando los muelles de carga. Esas mejoras ayudan por un tiempo, pero eventualmente la operación llega a un punto en el que el transporte mismo se convierte en el problema. Las demoras ya no son causadas por trabajadores lentos o equipo insuficiente. Las demoras vienen de la enorme cantidad de movimiento necesaria para mantener funcionando el flujo de trabajo.

Eso es cada vez más lo que enfrentan los grandes sistemas de IA.

El problema ya no es solo qué tan rápido pueden procesarse los datos una vez que llegan a la GPU. El problema es cuánto esfuerzo de infraestructura se gasta transportando repetidamente esos datos por el sistema desde el principio.

Así que, en lugar de optimizar eternamente el transporte, la distribución empieza a cambiar. Pequeñas estaciones de trabajo comienzan a aparecer más cerca de los propios estantes. Ciertas tareas de clasificación ocurren localmente. El filtrado ocurre localmente. La preparación de datos empieza a suceder más cerca de donde la información ya reside, reduciendo la frecuencia con la que el sistema tiene que mover cantidades masivas de material de ida y vuelta por toda la operación.

Ese cambio es, en esencia, lo que la infraestructura de IA está empezando a hacer a nivel arquitectónico. El objetivo no es convertir el almacenamiento en un procesador ni eliminar por completo el cómputo centralizado. El objetivo es reducir el movimiento innecesario porque, a escala de IA, incluso las pequeñas ineficiencias se vuelven sorprendentemente costosas cuando se multiplican por miles de aceleradores operando simultáneamente.

La infraestructura de IA se está volviendo más distribuida por necesidad

Una de las consecuencias más interesantes de este cambio es que la infraestructura de IA empieza a volverse mucho más distribuida de lo que los entornos de computación tradicionales alguna vez necesitaron ser.

Las arquitecturas más antiguas asumían que la mayor parte del trabajo importante ocurriría en ubicaciones centralizadas de cómputo, mientras que el almacenamiento permanecería en gran medida pasivo y separado de la capa de procesamiento. Ese modelo funcionó razonablemente bien durante décadas porque la cantidad de datos moviéndose por el sistema todavía era manejable en relación con la velocidad de los procesadores que los consumían.

La IA cambia por completo la escala de la ecuación.

La cantidad de información que se procesa, se revisita, se prepara, se almacena en caché, se indexa y se recupera ahora es tan grande que el movimiento centralizado empieza a crear ineficiencias por sí mismo. En lugar de que el procesamiento simplemente baje hacia el almacenamiento cada vez que necesita algo, los sistemas intentan cada vez más mantener los datos útiles posicionados más cerca de donde probablemente se usarán después.

Ese es parte del motivo por el que tecnologías como bases de datos vectoriales, sistemas de inferencia distribuida, capas de recuperación, caché localizado y procesamiento cerca de los datos han empezado a recibir tanta atención. En la superficie, pueden parecer tecnologías separadas que resuelven problemas no relacionados, pero por debajo todas responden a la misma presión. La industria intenta reducir la frecuencia con la que enormes cantidades de información deben viajar largas distancias a través de la infraestructura antes de que pueda empezar el trabajo útil.

Como probablemente has notado a lo largo de esta serie, la propia jerarquía de memoria se está volviendo poco a poco menos rígida que antes. La separación limpia entre “procesamiento aquí” y “almacenamiento allá” empieza a suavizarse, porque las cargas de trabajo de IA premian a los sistemas que mantienen los datos físicamente más cerca de donde ocurre el procesamiento.

Es probable que esa tendencia continúe, porque la economía de la IA a gran escala favorece cada vez más la eficiencia del movimiento tanto como la capacidad de cómputo bruto.

La jerarquía de memoria empieza a difuminarse

Uno de los temas más silenciosos debajo de cada entrega de esta serie ha sido la erosión gradual de las viejas fronteras entre memoria, almacenamiento y procesamiento.

En el artículo sobre HBM, vimos cómo la memoria se movió físicamente más cerca del procesador mismo, porque incluso la ubicación tradicional de DRAM empezó a introducir demoras lo bastante grandes como para importar a escala de IA. En la entrega sobre Storage Class Memory, el enfoque cambió hacia reducir la transición brusca entre memoria rápida y almacenamiento persistente más lento. High Bandwidth Flash empujó a NAND hacia un papel más activo dentro de la ruta de datos de trabajo, mientras que el artículo sobre DRAM mostró por qué simplemente escalar la memoria tradicional hacia arriba indefinidamente se vuelve difícil tanto económica como físicamente.

Ahora este artículo lleva esa misma progresión un paso más adelante al mostrar cómo la arquitectura misma se está adaptando alrededor del costo de mover datos.

Lo que hace que esto sea particularmente interesante es que ninguna de estas tecnologías está reemplazando realmente a las demás. La industria no abandonó NAND cuando llegó HBM. No reemplazó DRAM simplemente porque apareció Storage Class Memory. Los discos duros también siguen siendo profundamente relevantes, a pesar de décadas de predicciones que afirmaban que el almacenamiento de estado sólido los eliminaría por completo.

En cambio, el sistema se está volviendo más estratificado, más especializado y más consciente de dónde existen físicamente los datos en relación con los recursos de cómputo que intentan consumirlos.

Esa distinción importa porque cambia cómo deberíamos pensar en el futuro de la infraestructura de IA. La evolución no ocurre porque una tecnología revolucionaria haya resuelto todo de repente. La evolución ocurre porque la propia carga de trabajo obligó a la industria a reorganizar cómo participa cada capa para alimentar información hacia el lado del cómputo de forma eficiente.

Cuando das un paso atrás y miras el panorama completo, el patrón se vuelve mucho más fácil de ver. Cada gran cambio que hemos discutido en esta serie apunta, en última instancia, hacia el mismo objetivo: reducir cuánto tiempo, energía y sobrecarga de infraestructura se gastan simplemente moviendo información de un lugar a otro.

El futuro puede depender más de la ubicación de los datos que del cómputo bruto

Durante mucho tiempo, la industria tecnológica midió el progreso principalmente a través de la capacidad de cómputo bruto. Procesadores más rápidos, aceleradores más grandes, más núcleos y mayor paralelismo se trataban como los principales indicadores de avance, porque para la mayoría de las cargas de trabajo tradicionales mejorar el rendimiento de cómputo generalmente mejoraba el sistema completo.

La IA está obligando a tener una conversación más matizada.

Una vez que los procesadores se vuelven lo bastante rápidos, el desafío mayor deja de ser la capacidad de ejecutar operaciones y empieza a ser la capacidad de mantener esos procesadores abastecidos con datos útiles de forma lo bastante constante como para evitar tiempo muerto costoso. Ese cambio sutil ahora influye en casi todas las decisiones arquitectónicas importantes dentro de la infraestructura moderna de IA.

La parte interesante es que la solución ya no consiste simplemente en construir dispositivos de almacenamiento más rápidos o pools de memoria más grandes de manera aislada. En cambio, la industria se enfoca cada vez más en dónde viven los datos dentro del sistema, con qué frecuencia se mueven y qué tan inteligentemente la arquitectura puede minimizar el transporte innecesario antes de que los recursos de cómputo siquiera entren en juego.

Por eso la proximidad se ha convertido en un tema tan recurrente en cada artículo de esta serie. HBM movió la memoria físicamente más cerca de la GPU. Storage Class Memory redujo la brecha entre memoria y almacenamiento. High Bandwidth Flash intentó hacer que NAND participara de forma más activa en la jerarquía de memoria. Los sistemas de almacenamiento distribuido y las arquitecturas de procesamiento cerca de los datos ahora intentan reducir cuánto movimiento ocurre dentro de la propia infraestructura.

Todos estos desarrollos responden a la misma conclusión.

A escala de IA, mover datos de forma eficiente se está volviendo casi tan importante como procesar los datos una vez que llegan.

Y eso puede terminar convirtiéndose en uno de los cambios arquitectónicos que definan toda la era de la IA.


Serie sobre infraestructura de memoria para IA

Este artículo forma parte de nuestra serie en curso sobre cómo la infraestructura de IA está remodelando la relación entre memoria, almacenamiento y procesamiento. Si estás entrando a la conversación desde aquí, las entregas anteriores ofrecen la base para entender por qué está ocurriendo este cambio.

Entrega uno:
NAND no va a desaparecer, pero los servidores de IA ahora dependen de algo más que solo flash

Entrega dos:
Qué es la High Bandwidth Memory (HBM) y por qué la IA depende de ella

Entrega tres:
Storage Class Memory explicada: la capa que falta entre DRAM y NAND

Entrega cuatro:
High Bandwidth Flash: por fin la NAND puede comportarse como memoria

Entrega cinco:
Por qué la DRAM sola ya no puede seguirle el ritmo a la IA

Entrega seis:
Por qué los discos duros siguen siendo críticos para la infraestructura de IA

Entrega siete:
Por qué la IA está moviendo el procesamiento más cerca del almacenamiento

Nota editorial: Este artículo forma parte de la serie en curso sobre infraestructura de IA y arquitectura de memoria publicada por GetUSB.info. El artículo fue investigado y escrito con apoyo editorial asistido por IA para estructura y legibilidad, y luego revisado y refinado por el equipo editorial de GetUSB para precisión técnica, continuidad y claridad.

Sobre el autor
Este artículo fue desarrollado bajo la dirección de Matt LeBoff, colaborador de larga trayectoria en GetUSB.info con más de dos décadas de experiencia en tecnología USB, comportamiento de memoria flash y sistemas de almacenamiento de datos. La perspectiva presentada aquí refleja conocimiento práctico de la industria y análisis continuo de cómo funcionan los sistemas reales bajo cargas de trabajo en evolución, incluida la infraestructura de IA.

Continue Reading

Copyright

Copyright © 2006-2019

USB Powered Gadgets and more…

Todos los derechos reservados.

GetUSB Publicidad

Las oportunidades en nuestro sitio web alcanzan al menos 1,000 visitas únicas por día.

Para más información

Visite nuestra página de publicidad

Nexcopy Proporciona

Protección de copia USB con gestión de derechos digitales para datos cargados en unidades flash USB.

Contáctenos aprender más.