GetUSB.info Logo

Posts Tagged ‘infraestructura de IA’

Por qué la IA está moviendo el procesamiento más cerca del almacenamiento

Diagrama de la serie sobre infraestructura de memoria para IA que muestra NAND, HBM, SCM, High Bandwidth Flash, limitaciones de DRAM, discos duros y procesamiento moviéndose más cerca del almacenamiento

Si has seguido las entregas anteriores de esta serie, probablemente ya notaste que empieza a aparecer un patrón.

En el primer artículo hablamos de cómo la memoria flash NAND no está desapareciendo, sino que se está convirtiendo en parte de una jerarquía de memoria para IA mucho más amplia. Después vimos la High Bandwidth Memory (HBM) y por qué las GPU modernas dependen de tener los datos físicamente más cerca del procesador. Luego pasamos a Storage Class Memory, High Bandwidth Flash, las limitaciones de escalar DRAM y, finalmente, por qué incluso los discos duros tradicionales siguen siendo críticos, porque la infraestructura de IA opera a una escala que la mayoría de las personas subestima enormemente.

A primera vista, esos pueden parecer temas separados.

No lo son.

Todos son síntomas de la misma presión de fondo: los sistemas de IA ya no están luchando principalmente con la potencia de cálculo. Están luchando con la eficiencia con la que pueden mover datos.

Ese cambio modifica casi todo sobre cómo se diseña la infraestructura.

Durante décadas, la computación siguió un modelo bastante estable. El almacenamiento guardaba los datos, la memoria los preparaba y los procesadores tomaban lo que necesitaban. A medida que los procesadores se volvieron más rápidos, el sistema simplemente trató de alimentarlos de forma más eficiente usando mejores buses, cachés más grandes y tecnologías de memoria más rápidas.

La IA cambió la escala del problema.

Los clusters modernos de GPU pueden procesar información a una velocidad tan enorme que el simple acto de mover datos por el sistema ha empezado a convertirse en uno de los mayores cuellos de botella de toda la arquitectura. En algunos entornos, el procesador en sí ya no es la parte lenta. La demora viene de llevar los datos correctos al procesador con la suficiente rapidez y consistencia para mantenerlo plenamente ocupado.

Esa realidad está empujando silenciosamente a la industria hacia una nueva dirección.

En lugar de mover continuamente cantidades cada vez mayores de datos de ida y vuelta por el sistema, la infraestructura de IA está empezando a mover partes del procesamiento más cerca de donde los datos ya viven.

Y una vez que entiendes por qué está ocurriendo eso, muchos de los artículos anteriores de esta serie empiezan a encajar con mucha más claridad.

La IA está empezando a chocar contra un muro de movimiento de datos

Una de las ideas más importantes del artículo anterior sobre HBM fue que los sistemas modernos de IA muchas veces se ralentizan no porque al procesador le falte capacidad de cálculo, sino porque el sistema no puede entregar datos lo bastante rápido como para mantener ocupado al procesador.

Ese problema se vuelve mucho más serio cuando las cargas de trabajo de IA se expanden a racks y clusters completos.

Un acelerador moderno de IA puede consumir cantidades asombrosas de información en paralelo. El problema es que los conjuntos de datos ya no son lo bastante pequeños como para caber por completo dentro de los niveles de memoria más rápidos. Incluso con HBM y grandes pools de DRAM, enormes cantidades de datos todavía necesitan viajar a través de interconexiones, buses, fabrics, capas de almacenamiento e infraestructura de red.

Ese movimiento tiene un costo.

Aparece como latencia, pero esa es solo una parte de la historia. También aparece como consumo eléctrico, calor, demanda de enfriamiento, congestión, retrasos de sincronización y ciclos de cómputo inactivos. Como comentamos en la entrega sobre DRAM, incluso demoras diminutas se vuelven sorprendentemente caras cuando miles de GPU están operando al mismo tiempo. Una pequeña pausa multiplicada por un gran cluster de IA puede representar una enorme cantidad de utilización perdida.

Eso cambia las prioridades de ingeniería.

Durante años, la infraestructura se diseñó en gran parte alrededor de maximizar el rendimiento de cálculo. Los sistemas de IA ahora obligan a los ingenieros a pensar con la misma seriedad en la localidad de los datos, es decir, dónde se encuentra físicamente la información en relación con el procesador que intenta usarla.

Dicho de forma simple, la distancia ahora importa mucho más que antes.

Las GPU se volvieron tan rápidas que el resto del sistema empezó a quedarse atrás

Una de las cosas curiosas de la infraestructura de IA es que el progreso en un área tiende a exponer debilidades en otra.

A medida que las GPU se hicieron más rápidas, el ancho de banda de memoria se convirtió en el cuello de botella. Eso llevó a HBM. Cuando las limitaciones de capacidad de HBM se volvieron más evidentes, la industria empezó a introducir capas intermedias como Storage Class Memory. Cuando escalar DRAM se volvió caro y físicamente difícil, los sistemas empezaron a apoyarse más en NAND, mientras también exploraban conceptos como High Bandwidth Flash.

Y a medida que los conjuntos de datos de IA siguieron creciendo hasta el rango de petabytes y exabytes, los discos duros siguieron siendo silenciosamente esenciales, porque la economía de almacenar tanta información simplemente no podía funcionar de otra manera.

Cada artículo de esta serie, en realidad, ha estado apuntando hacia la misma conclusión desde un ángulo distinto.

La vieja suposición de que el procesamiento está aquí mientras el almacenamiento está allá empieza a romperse. La razón es bastante simple: las GPU ahora pueden procesar datos más rápido de lo que las arquitecturas tradicionales pueden entregarlos cómodamente.

Eso crea una situación en la que enormes cantidades de actividad del sistema se gastan simplemente transportando información de un lugar a otro. En términos prácticos, algunos entornos de IA empiezan a parecer menos problemas de cómputo puro y más problemas de logística.

La industria empezó a hacer una pregunta diferente

Durante mucho tiempo, la innovación en almacenamiento se enfocó principalmente en hacer que los dispositivos de almacenamiento fueran más rápidos. SSD más rápidos, interfaces más rápidas, NAND más rápida y controladores más rápidos importaban, y todavía importan hoy.

Pero las cargas de trabajo de IA empezaron a revelar un problema más profundo debajo de todo eso.

En algún momento, los ingenieros empezaron a darse cuenta de que el problema no siempre era la velocidad del dispositivo de almacenamiento en sí. El problema era el movimiento repetido de cantidades masivas de datos de ida y vuelta a través de todo el sistema.

Esa distinción sutil importa, porque una vez que el problema se convierte en movimiento de datos en lugar de simple velocidad de almacenamiento, la solución también empieza a cambiar.

En vez de preguntar eternamente cómo hacer más rápido el almacenamiento, la industria empezó a preguntar qué tan lejos deben viajar los datos en primer lugar.

Esa pregunta ahora influye en casi cada parte del diseño moderno de infraestructura para IA.

Mover el procesamiento más cerca de donde ya viven los datos

Aquí es donde la arquitectura empieza a cambiar.

En lugar de tratar el almacenamiento como una capa completamente pasiva que simplemente espera solicitudes, los sistemas más nuevos están empezando a realizar ciertas tareas más cerca de los datos mismos. No necesariamente procesamiento completo a escala de GPU, sino operaciones localizadas que reducen movimiento innecesario por el resto del sistema.

Algunos sistemas ahora realizan filtrado, indexación, operaciones de búsqueda, compresión, preparación para recuperación y organización de datos más cerca de la capa de almacenamiento antes de que la información llegue siquiera a los motores principales de cómputo.

El objetivo no es eliminar las GPU ni reemplazar la memoria rápida. El objetivo es reducir el desperdicio.

Si el sistema puede evitar transportar enormes cantidades de datos innecesarios a través de la infraestructura, toda la plataforma se vuelve más eficiente. Esta es una de las razones por las que la línea entre procesamiento y almacenamiento empieza a difuminarse.

El almacenamiento ya no se comporta como un destino completamente inactivo sentado al fondo de la jerarquía. Está participando más en cómo se preparan, organizan, filtran y entregan los datos hacia arriba.

Si recuerdas el artículo anterior sobre High Bandwidth Flash, esta dirección tiene mucho sentido. Ese artículo mostró cómo la propia NAND estaba siendo empujada hacia un comportamiento más parecido al de la memoria. Este artículo extiende la misma idea un paso más, mostrando cómo la arquitectura alrededor también se está adaptando al costo de mover datos.

La analogía del almacén empieza a verse diferente

La analogía del almacén que hemos usado a lo largo de esta serie todavía funciona aquí, pero el propio almacén ha empezado a evolucionar porque la carga de trabajo dentro de él ha cambiado.

En las entregas anteriores, la distribución era bastante sencilla. HBM representaba el muelle de carga donde el siguiente pallet ya estaba esperando junto a los trabajadores. DRAM actuaba como el piso activo donde ocurrían la clasificación y el manejo inmediatos. Storage Class Memory se convirtió en el área de preparación justo detrás del muelle, mientras que NAND representaba los estantes principales del almacén más al fondo. Los discos duros manejaban el almacenamiento masivo más profundo, donde vivía el inventario de largo plazo, porque la capacidad importaba más que la velocidad de acceso inmediato.

Ese modelo todavía se mantiene en general, pero los sistemas de IA están empezando a exponer ineficiencias en cuánto movimiento ocurre entre esas áreas.

Imagina un almacén donde los trabajadores pasan más tiempo manejando montacargas de un lado a otro del edificio que procesando realmente el inventario. Al principio, la administración responde comprando montacargas más rápidos, ampliando los pasillos y mejorando los muelles de carga. Esas mejoras ayudan por un tiempo, pero eventualmente la operación llega a un punto en el que el transporte mismo se convierte en el problema. Las demoras ya no son causadas por trabajadores lentos o equipo insuficiente. Las demoras vienen de la enorme cantidad de movimiento necesaria para mantener funcionando el flujo de trabajo.

Eso es cada vez más lo que enfrentan los grandes sistemas de IA.

El problema ya no es solo qué tan rápido pueden procesarse los datos una vez que llegan a la GPU. El problema es cuánto esfuerzo de infraestructura se gasta transportando repetidamente esos datos por el sistema desde el principio.

Así que, en lugar de optimizar eternamente el transporte, la distribución empieza a cambiar. Pequeñas estaciones de trabajo comienzan a aparecer más cerca de los propios estantes. Ciertas tareas de clasificación ocurren localmente. El filtrado ocurre localmente. La preparación de datos empieza a suceder más cerca de donde la información ya reside, reduciendo la frecuencia con la que el sistema tiene que mover cantidades masivas de material de ida y vuelta por toda la operación.

Ese cambio es, en esencia, lo que la infraestructura de IA está empezando a hacer a nivel arquitectónico. El objetivo no es convertir el almacenamiento en un procesador ni eliminar por completo el cómputo centralizado. El objetivo es reducir el movimiento innecesario porque, a escala de IA, incluso las pequeñas ineficiencias se vuelven sorprendentemente costosas cuando se multiplican por miles de aceleradores operando simultáneamente.

La infraestructura de IA se está volviendo más distribuida por necesidad

Una de las consecuencias más interesantes de este cambio es que la infraestructura de IA empieza a volverse mucho más distribuida de lo que los entornos de computación tradicionales alguna vez necesitaron ser.

Las arquitecturas más antiguas asumían que la mayor parte del trabajo importante ocurriría en ubicaciones centralizadas de cómputo, mientras que el almacenamiento permanecería en gran medida pasivo y separado de la capa de procesamiento. Ese modelo funcionó razonablemente bien durante décadas porque la cantidad de datos moviéndose por el sistema todavía era manejable en relación con la velocidad de los procesadores que los consumían.

La IA cambia por completo la escala de la ecuación.

La cantidad de información que se procesa, se revisita, se prepara, se almacena en caché, se indexa y se recupera ahora es tan grande que el movimiento centralizado empieza a crear ineficiencias por sí mismo. En lugar de que el procesamiento simplemente baje hacia el almacenamiento cada vez que necesita algo, los sistemas intentan cada vez más mantener los datos útiles posicionados más cerca de donde probablemente se usarán después.

Ese es parte del motivo por el que tecnologías como bases de datos vectoriales, sistemas de inferencia distribuida, capas de recuperación, caché localizado y procesamiento cerca de los datos han empezado a recibir tanta atención. En la superficie, pueden parecer tecnologías separadas que resuelven problemas no relacionados, pero por debajo todas responden a la misma presión. La industria intenta reducir la frecuencia con la que enormes cantidades de información deben viajar largas distancias a través de la infraestructura antes de que pueda empezar el trabajo útil.

Como probablemente has notado a lo largo de esta serie, la propia jerarquía de memoria se está volviendo poco a poco menos rígida que antes. La separación limpia entre “procesamiento aquí” y “almacenamiento allá” empieza a suavizarse, porque las cargas de trabajo de IA premian a los sistemas que mantienen los datos físicamente más cerca de donde ocurre el procesamiento.

Es probable que esa tendencia continúe, porque la economía de la IA a gran escala favorece cada vez más la eficiencia del movimiento tanto como la capacidad de cómputo bruto.

La jerarquía de memoria empieza a difuminarse

Uno de los temas más silenciosos debajo de cada entrega de esta serie ha sido la erosión gradual de las viejas fronteras entre memoria, almacenamiento y procesamiento.

En el artículo sobre HBM, vimos cómo la memoria se movió físicamente más cerca del procesador mismo, porque incluso la ubicación tradicional de DRAM empezó a introducir demoras lo bastante grandes como para importar a escala de IA. En la entrega sobre Storage Class Memory, el enfoque cambió hacia reducir la transición brusca entre memoria rápida y almacenamiento persistente más lento. High Bandwidth Flash empujó a NAND hacia un papel más activo dentro de la ruta de datos de trabajo, mientras que el artículo sobre DRAM mostró por qué simplemente escalar la memoria tradicional hacia arriba indefinidamente se vuelve difícil tanto económica como físicamente.

Ahora este artículo lleva esa misma progresión un paso más adelante al mostrar cómo la arquitectura misma se está adaptando alrededor del costo de mover datos.

Lo que hace que esto sea particularmente interesante es que ninguna de estas tecnologías está reemplazando realmente a las demás. La industria no abandonó NAND cuando llegó HBM. No reemplazó DRAM simplemente porque apareció Storage Class Memory. Los discos duros también siguen siendo profundamente relevantes, a pesar de décadas de predicciones que afirmaban que el almacenamiento de estado sólido los eliminaría por completo.

En cambio, el sistema se está volviendo más estratificado, más especializado y más consciente de dónde existen físicamente los datos en relación con los recursos de cómputo que intentan consumirlos.

Esa distinción importa porque cambia cómo deberíamos pensar en el futuro de la infraestructura de IA. La evolución no ocurre porque una tecnología revolucionaria haya resuelto todo de repente. La evolución ocurre porque la propia carga de trabajo obligó a la industria a reorganizar cómo participa cada capa para alimentar información hacia el lado del cómputo de forma eficiente.

Cuando das un paso atrás y miras el panorama completo, el patrón se vuelve mucho más fácil de ver. Cada gran cambio que hemos discutido en esta serie apunta, en última instancia, hacia el mismo objetivo: reducir cuánto tiempo, energía y sobrecarga de infraestructura se gastan simplemente moviendo información de un lugar a otro.

El futuro puede depender más de la ubicación de los datos que del cómputo bruto

Durante mucho tiempo, la industria tecnológica midió el progreso principalmente a través de la capacidad de cómputo bruto. Procesadores más rápidos, aceleradores más grandes, más núcleos y mayor paralelismo se trataban como los principales indicadores de avance, porque para la mayoría de las cargas de trabajo tradicionales mejorar el rendimiento de cómputo generalmente mejoraba el sistema completo.

La IA está obligando a tener una conversación más matizada.

Una vez que los procesadores se vuelven lo bastante rápidos, el desafío mayor deja de ser la capacidad de ejecutar operaciones y empieza a ser la capacidad de mantener esos procesadores abastecidos con datos útiles de forma lo bastante constante como para evitar tiempo muerto costoso. Ese cambio sutil ahora influye en casi todas las decisiones arquitectónicas importantes dentro de la infraestructura moderna de IA.

La parte interesante es que la solución ya no consiste simplemente en construir dispositivos de almacenamiento más rápidos o pools de memoria más grandes de manera aislada. En cambio, la industria se enfoca cada vez más en dónde viven los datos dentro del sistema, con qué frecuencia se mueven y qué tan inteligentemente la arquitectura puede minimizar el transporte innecesario antes de que los recursos de cómputo siquiera entren en juego.

Por eso la proximidad se ha convertido en un tema tan recurrente en cada artículo de esta serie. HBM movió la memoria físicamente más cerca de la GPU. Storage Class Memory redujo la brecha entre memoria y almacenamiento. High Bandwidth Flash intentó hacer que NAND participara de forma más activa en la jerarquía de memoria. Los sistemas de almacenamiento distribuido y las arquitecturas de procesamiento cerca de los datos ahora intentan reducir cuánto movimiento ocurre dentro de la propia infraestructura.

Todos estos desarrollos responden a la misma conclusión.

A escala de IA, mover datos de forma eficiente se está volviendo casi tan importante como procesar los datos una vez que llegan.

Y eso puede terminar convirtiéndose en uno de los cambios arquitectónicos que definan toda la era de la IA.


Serie sobre infraestructura de memoria para IA

Este artículo forma parte de nuestra serie en curso sobre cómo la infraestructura de IA está remodelando la relación entre memoria, almacenamiento y procesamiento. Si estás entrando a la conversación desde aquí, las entregas anteriores ofrecen la base para entender por qué está ocurriendo este cambio.

Entrega uno:
NAND no va a desaparecer, pero los servidores de IA ahora dependen de algo más que solo flash

Entrega dos:
Qué es la High Bandwidth Memory (HBM) y por qué la IA depende de ella

Entrega tres:
Storage Class Memory explicada: la capa que falta entre DRAM y NAND

Entrega cuatro:
High Bandwidth Flash: por fin la NAND puede comportarse como memoria

Entrega cinco:
Por qué la DRAM sola ya no puede seguirle el ritmo a la IA

Entrega seis:
Por qué los discos duros siguen siendo críticos para la infraestructura de IA

Entrega siete:
Por qué la IA está moviendo el procesamiento más cerca del almacenamiento

Nota editorial: Este artículo forma parte de la serie en curso sobre infraestructura de IA y arquitectura de memoria publicada por GetUSB.info. El artículo fue investigado y escrito con apoyo editorial asistido por IA para estructura y legibilidad, y luego revisado y refinado por el equipo editorial de GetUSB para precisión técnica, continuidad y claridad.

Sobre el autor
Este artículo fue desarrollado bajo la dirección de Matt LeBoff, colaborador de larga trayectoria en GetUSB.info con más de dos décadas de experiencia en tecnología USB, comportamiento de memoria flash y sistemas de almacenamiento de datos. La perspectiva presentada aquí refleja conocimiento práctico de la industria y análisis continuo de cómo funcionan los sistemas reales bajo cargas de trabajo en evolución, incluida la infraestructura de IA.

Continue Reading

¿Sabías que la amenaza de huelga de Samsung podría afectar el suministro de memoria?

La amenaza de huelga de Samsung podría afectar el suministro de memoria, imagen de una fábrica

Por qué un conflicto laboral dentro de la división de semiconductores de Samsung de pronto tiene atenta a la industria global de memoria

La mayoría de las personas escucha “Samsung” y piensa de inmediato en teléfonos inteligentes o televisores. Pero detrás de escena, Samsung también es una de las compañías de semiconductores más importantes del mundo, especialmente cuando se trata de producción de memoria.

Por eso la posible huelga laboral de la empresa en Corea del Sur está recibiendo tanta atención dentro de la industria tecnológica.

El conflicto actual involucra a empleados de Samsung Electronics ligados a las operaciones de semiconductores, incluidos trabajadores de fabricación de chips, ingenieros, personal técnico y equipos de soporte. Según los reportes, el sindicato amenaza con una huelga de 18 días si fracasan las negociaciones sobre salarios y estructuras de bonos.

A primera vista, quizá no parezca algo que le importe al consumidor promedio. Pero aquí está el punto: Samsung es uno de los mayores productores de memoria flash NAND y DRAM del mundo. Esos componentes impulsan todo, desde SSDs y laptops hasta servidores de IA e infraestructura en la nube.

En otras palabras, esto no es solamente una historia laboral local.

Por qué la industria de memoria está prestando atención

La fabricación de semiconductores es muy distinta al trabajo tradicional de fábrica. Las fábricas modernas de chips funcionan de manera continua con equipos altamente especializados, sistemas robóticos de manejo, salas limpias y calendarios de producción estrictamente controlados.

Aunque las instalaciones están muy automatizadas, todavía dependen de ingenieros con experiencia y trabajadores técnicos para mantener la producción avanzando de forma eficiente.

Si una acción laboral a gran escala ralentiza la producción, el impacto puede extenderse más allá de las fechas de la huelga. La fabricación de semiconductores tiene ciclos de producción largos, lo que significa que los inicios de obleas perdidos o los calendarios interrumpidos pueden seguir afectando la producción incluso después de que los trabajadores regresen.

Esa es una de las razones por las que los analistas están observando la situación de cerca.

Una interrupción que involucre a Samsung podría afectar potencialmente:

  • el suministro de memoria flash NAND
  • los calendarios de producción de SSDs
  • los sistemas de almacenamiento empresarial
  • la infraestructura de servidores de IA
  • los precios de la memoria

El momento también importa porque la demanda de hardware para IA sigue creciendo rápidamente. La memoria se ha convertido en uno de los cuellos de botella críticos en la infraestructura moderna de IA.

La situación laboral de Samsung ha cambiado

Históricamente, Samsung no era conocida por huelgas laborales. De hecho, durante décadas la compañía tuvo fama de ser firmemente antisindical.

Eso empezó a cambiar en 2024, cuando trabajadores de Samsung realizaron varias acciones laborales, incluidas salidas de trabajo y huelgas de corto plazo relacionadas con compensación y bonos.

La situación actual se siente más significativa porque el propio mercado de semiconductores se ha vuelto más importante a nivel global. Samsung compite agresivamente en tecnologías avanzadas de memoria, incluidos productos utilizados en servidores de IA y sistemas de cómputo de alto rendimiento.

Los trabajadores parecen creer que deberían participar de manera más directa en las ganancias creadas por el auge de la IA.

El problema más grande que la mayoría de los consumidores nunca ve

Una parte interesante de esta historia es lo invisible que suele ser la industria de semiconductores para los consumidores comunes.

La gente nota cuando un teléfono inteligente se lanza tarde o cuando las tarjetas gráficas se vuelven caras. Pero rara vez piensa en la cadena de suministro de memoria que está debajo de esos productos.

La realidad es que la tecnología moderna depende en gran medida de que compañías como Samsung, SK Hynix, Micron y Kioxia sigan fabricando memoria a una escala enorme.

Incluso una interrupción temporal puede crear efectos en cadena en toda la industria del almacenamiento.

Para los lectores interesados en el lado más profundo de fabricación y mercado NAND de esta historia, el análisis completo está disponible en GFM aquí:

Samsung Strike Threat Explained: What It Means for Memory Chips and NAND Supply

La conversación más amplia sobre el mercado de memoria también se conecta con la creciente importancia del almacenamiento para infraestructura de IA, especialmente mientras los discos duros tradicionales y la memoria flash NAND siguen trabajando juntos dentro de enormes centros de datos. Recientemente cubrimos ese tema en nuestro artículo sobre por qué los servidores de IA ahora dependen de algo más que solo flash.

En resumen: la mayoría de los consumidores quizá nunca escuche sobre la situación de la huelga en Samsung, pero dentro del mundo de los semiconductores la gente está prestando mucha atención.

Continue Reading

Por qué los discos duros siguen siendo críticos para la infraestructura de IA

Cuando la mayoría de la gente escucha hablar de infraestructura de IA, la conversación normalmente gira alrededor de las GPU, la High Bandwidth Memory (HBM) o el almacenamiento de estado sólido ultrarrápido. La suposición es que la inteligencia artificial funciona por completo sobre hardware de última generación, donde todo se mide en nanosegundos y terabytes por segundo.

Esa suposición no está equivocada, pero está incompleta.

Por qué los discos duros siguen siendo críticos para la infraestructura de IA

La realidad es que los sistemas modernos de IA todavía dependen en gran medida de una de las tecnologías más antiguas del centro de datos: el disco duro mecánico.

Eso puede sonar extraño si consideramos que ya hablamos de cómo los servidores de IA se están moviendo más allá de la memoria flash tradicional en nuestro artículo: NAND no va a desaparecer, pero los servidores de IA ahora dependen de algo más que solo flash. También exploramos por qué tecnologías como la High Bandwidth Memory (HBM) se están volviendo esenciales para mantener los sistemas de IA alimentados con datos lo bastante rápido como para evitar cuellos de botella en las GPU.

Pero hay otro lado de esta historia que no recibe casi tanta atención: la escala pura.

La IA no solo necesita almacenamiento rápido. La IA necesita una cantidad de almacenamiento casi inimaginable.

Y los discos duros siguen siendo la única tecnología capaz de entregar esa capacidad a un costo que la industria puede sostener de manera realista.

Entendiendo la jerarquía de almacenamiento de la IA

La forma más sencilla de entender la infraestructura moderna de IA es dejar de pensar en una sola computadora y empezar a pensar en toda una operación logística.

La HBM actúa como el muelle de carga donde los datos se mueven a una velocidad increíble. La DRAM funciona como el espacio de trabajo activo donde la información se manipula constantemente. La NAND flash se comporta más como estanterías cercanas, donde el acceso rápido sigue importando, pero la persistencia a largo plazo también empieza a ser importante.

Los discos duros, sin embargo, son el almacén.

No la parte más vistosa de la operación. Tampoco la más rápida. Pero sin duda la más grande.

Tecnología Capacidad típica Fortaleza principal Papel principal en IA
HBM 80GB–192GB Ancho de banda extremo Cálculo activo en GPU
DRAM Cientos de GB Baja latencia Memoria de trabajo
SSD NAND Múltiples TB Almacenamiento persistente rápido Preparación de datasets y caché
Discos duros Petabytes a exabytes Eficiencia de capacidad Almacenamiento masivo y archivos

Esa distinción importa porque los sistemas de entrenamiento de IA consumen datos a una escala que la mayoría de las personas nunca encuentra en la computación normal.

Una laptop de consumo puede almacenar algunos terabytes de datos. Incluso una estación de trabajo de gama alta quizá solo almacene decenas de terabytes. La infraestructura de IA opera varios órdenes de magnitud por encima de eso.

Mientras una laptop de consumo piensa en terabytes, los clústeres de IA piensan en exabytes.

Un solo exabyte equivale a un millón de terabytes.

Si un disco duro empresarial moderno almacena 30TB, aun así se necesitarían más de 33.000 discos duros para construir un solo exabyte de capacidad de almacenamiento sin procesar.

Los grandes operadores de IA no construyen un exabyte. Construyen múltiples exabytes entre regiones, capas de redundancia, entornos de entrenamiento, sistemas de respaldo y almacenamiento de archivo.

El problema del exabyte

Entrenar un modelo de lenguaje grande puede involucrar petabytes de texto, imágenes, video, telemetría, checkpoints y estados de entrenamiento archivados. Una vez que esos datasets se recopilan, rara vez se eliminan. Siguen creciendo a medida que los modelos se vuelven a entrenar, se refinan y se expanden.

Durante el entrenamiento de IA, los sistemas crean checkpoints continuamente, que básicamente son enormes estados guardados del modelo mientras aprende. Si un clúster falla a mitad de un ciclo de entrenamiento de varias semanas, esos checkpoints pueden ser lo único que evita perder millones de dólares en tiempo de cómputo.

Eso significa que la infraestructura de almacenamiento deja de tratarse solo de velocidad y pasa a tratarse de mantener gigantescos grupos de datos accesibles.

Aquí es donde los discos duros siguen dominando silenciosamente.

En 2010, un disco duro de 2TB se sentía enorme. Los entornos empresariales comúnmente usaban discos SAS de 300GB o 600GB, y cualquier cosa por encima de unos cuantos terabytes se consideraba capacidad premium.

Hoy, los discos duros empresariales de 24TB y 30TB se están convirtiendo en implementaciones estándar dentro de los grandes centros de datos. Los fabricantes ya están probando discos de más de 40TB usando tecnologías como HAMR (Heat-Assisted Magnetic Recording), que aumenta la densidad areal sin aumentar el tamaño físico del disco.

Para poner ese crecimiento en perspectiva, un solo rack de almacenamiento moderno ahora puede contener más datos que todo un centro de datos empresarial mediano de 2010.

Así de drásticamente ha cambiado la demanda de almacenamiento.

Y la IA es una de las principales razones.

La IA funciona con algo más que velocidad

La discusión pública sobre IA tiende a enfocarse en las GPU porque las GPU hacen el trabajo visible. Generan las respuestas, crean las imágenes y procesan los tokens.

El almacenamiento hace el trabajo invisible de preservar la propia tubería de inteligencia.

Las GPU solo son útiles si pueden acceder continuamente a enormes cantidades de datos de entrenamiento.

Esos datos tienen que vivir en algún lugar.

No dentro de la HBM. No dentro de la DRAM. Y desde luego no completamente dentro de costosas capas de almacenamiento NAND.

Viven principalmente en una infraestructura masiva de discos duros.

Un centro de datos moderno de IA puede contener cientos de petabytes de datos almacenados. Algunos entornos hyperscale probablemente van mucho más allá, hacia arquitecturas en escala de exabytes. Intentar almacenar todo eso completamente en NAND flash sería financieramente irrealista, incluso para los proveedores de nube más grandes.

Esta es la parte que mucha gente pasa por alto cuando habla de hardware para IA.

El rendimiento importa, pero la economía también importa.

A la industria le encanta promocionar IOPS y números de benchmark, pero las grandes implementaciones de IA al final están limitadas por el costo total de propiedad.

Los discos duros siguen ofreciendo el costo por terabyte más bajo en implementaciones a gran escala. También siguen siendo extremadamente eficientes para almacenar datos fríos, datasets archivados, snapshots de respaldo, checkpoints de modelos e información masiva de entrenamiento que no necesita tiempos de acceso de nanosegundos.

Por qué los discos duros todavía funcionan para la IA

También hay otro malentendido que vale la pena aclarar: muchas personas asumen que los discos duros son demasiado lentos para ser útiles en entornos de IA.

Eso no es del todo cierto.

Un solo disco duro es lento comparado con DRAM o NAND flash, sí. Pero los centros de datos de IA no operan con discos individuales. Operan con enormes arreglos de almacenamiento con acceso paralelo a través de miles de discos al mismo tiempo.

Más importante aún, muchas cargas de trabajo de IA implican streaming secuencial de grandes datasets en lugar de pequeñas transacciones aleatorias. Las cargas secuenciales resultan ser una de las áreas donde los arreglos modernos de discos duros empresariales todavía rinden sorprendentemente bien.

En otras palabras, la infraestructura de IA no siempre está preguntando: “¿Cuál es el almacenamiento más rápido posible?”

A veces está preguntando:

¿Cuál es la forma práctica más rápida de almacenar 500 petabytes sin llevar a la empresa a la quiebra?

Ese es un problema de ingeniería muy diferente.

La infraestructura de IA se está convirtiendo en un ecosistema de memoria por capas

Esto también explica por qué las tecnologías más nuevas se están incorporando en capas dentro de los sistemas de IA, en lugar de reemplazar por completo a las tecnologías más antiguas.

En nuestro artículo sobre Storage Class Memory: la capa que falta entre DRAM y NAND, exploramos cómo la industria sigue creando capas intermedias para equilibrar velocidad, persistencia y economía.

También analizamos cómo NAND intenta acercarse al rendimiento de nivel memoria en: High Bandwidth Flash: ¿por fin la NAND puede comportarse como memoria?.

La infraestructura de IA se está convirtiendo exactamente en eso: un ecosistema de memoria por capas.

La HBM maneja el cálculo inmediato. La DRAM gestiona las cargas de trabajo activas. La NAND flash absorbe tareas rápidas de almacenamiento persistente. Las tecnologías storage-class intentan cerrar las brechas de latencia. Los discos duros proporcionan la enorme base de capacidad debajo de todo lo demás.

El futuro del almacenamiento para IA no es una tecnología reemplazando a otra.

Son múltiples tecnologías apilándose juntas porque ningún tipo de memoria resuelve bien todos los problemas.

Ese probablemente sea el mayor malentendido alrededor de la infraestructura de IA hoy. La gente asume que la tecnología más nueva automáticamente elimina a la anterior.

Pero la historia rara vez funciona así en la computación.

Los discos duros sobrevivieron a los SSD porque el mundo siguió produciendo más datos más rápido de lo que los precios de la flash podían bajar. Ahora la IA está acelerando todavía más esa tendencia. La cantidad de información que se genera, conserva, copia y vuelve a entrenar está explotando tan rápido que la capacidad misma se ha convertido en un recurso estratégico.

Irónicamente, mientras más avanzada se vuelve la IA, más importante se vuelve también la infraestructura de almacenamiento a gran escala.

Lo que significa que una de las tecnologías más antiguas del centro de datos puede seguir desempeñando un papel crítico en la IA durante mucho más tiempo de lo que la mayoría esperaba.


Nota editorial: Este artículo forma parte de la serie continua sobre infraestructura de IA y arquitectura de memoria publicada por GetUSB.info. El artículo fue investigado y escrito con apoyo editorial asistido por IA para estructura y legibilidad, y después fue revisado y refinado por el equipo editorial de GetUSB para precisión técnica, continuidad y claridad.

La imagen que acompaña este artículo es una fotografía original capturada por el equipo de GetUSB.info y no es fotografía de stock.

Continue Reading

Por qué la DRAM sola ya no puede seguirle el ritmo a la IA

fast compute slow data idle gpu wasted cost ai doesnt wait

En cuanto empiezas a fijarte en cómo están construidos realmente los sistemas de IA, hay una conclusión muy natural a la que la gente suele llegar y, para ser justos, al principio suena perfectamente razonable.

Si NAND es demasiado lento para ciertas partes de la carga de trabajo, e incluso las arquitecturas flash avanzadas siguen introduciendo suficiente retraso como para importar, entonces la respuesta obvia parecería ser agregar más DRAM. Después de todo, la DRAM siempre ha sido la capa rápida. Es donde viven los datos activos, responde con rapidez y, durante décadas, ha sido la parte del sistema en la que te apoyas cuando no quieres que el procesador se quede inactivo esperando a que algo llegue.

Así que la suposición es fácil de hacer: si el problema es la velocidad, entonces amplía lo más rápido que ya tienes.

Esa lógica se sostiene bastante bien hasta que entra la IA en escena y empieza a empujar a la DRAM hacia un papel para el que nunca fue realmente diseñada. El problema no es que la DRAM se haya vuelto de repente lenta, obsoleta o de algún modo menos útil que antes. El problema es que las cargas de trabajo de IA le están pidiendo mucho más que simplemente actuar como una capa rápida de trabajo entre compute y almacenamiento.

Para entender mejor el marco general detrás de este cambio, este artículo se conecta directamente con la pieza principal de esta serie: NAND no va a desaparecer, pero los servidores de IA ahora dependen de algo más que solo flash.

La DRAM fue construida para la velocidad, no para cargar con todo el sistema

Lo primero que hay que entender es que la DRAM siempre ha estado optimizada para la velocidad y la capacidad de respuesta, no para almacenar cantidades enormes de datos a gran escala. En la computación tradicional, esa diferencia rara vez era un problema porque la mayoría de las cargas de trabajo tenían una separación bastante clara entre los datos activos y los datos almacenados. El sistema mantenía en memoria lo que necesitaba de inmediato, traía el resto desde el almacenamiento cuando hacía falta y esa transferencia normalmente era lo bastante buena como para que nadie pensara demasiado en ello.

La IA cambia ese equilibrio de forma bastante drástica. En lugar de trabajar con pequeños bloques de datos activos y seguir adelante, los modelos de IA tienden a volver una y otra vez sobre grandes conjuntos de datos, mover información en paralelo y mantener una parte mucho más grande del working set al alcance de la capa de compute durante períodos mucho más largos. Eso significa que ya no se le pide a la DRAM simplemente que conserve la tarea actual. Ahora se le pide ayudar a sostener una enorme masa de datos, en constante cambio, que el sistema quiere tener cerca prácticamente todo el tiempo.

Ese es un trabajo muy distinto.

Y esa es también la razón por la que las tecnologías por encima y alrededor de la DRAM se han vuelto más importantes. En el artículo anterior sobre qué es la High Bandwidth Memory y por qué la IA depende de ella, el enfoque estaba en mover una cantidad más pequeña de datos críticos extremadamente cerca del procesador para que la GPU siga alimentada. Ese artículo deja claro que la proximidad importa, pero también revela silenciosamente el siguiente problema, porque una vez que el working set crece más allá de esa capa inmediata, el sistema todavía tiene que decidir dónde va a vivir todo lo demás.

La primera pared es el costo, y aparece muy rápido

Una de las razones por las que a la gente le gusta la idea de “simplemente agregar más DRAM” es que suena limpia y directa. En la práctica, se vuelve costosa muy rápido. La DRAM simplemente no tiene el mismo precio que NAND y, en cuanto empiezas a escalar sistemas al terreno de la IA, ya no estás hablando de agregar un poco más de memoria a un servidor. Estás hablando de cientos de gigabytes, a veces mucho más, repartidos entre muchos nodos, racks y clústeres.

En ese punto, la DRAM deja de sentirse como una mejora de rendimiento y empieza a parecer una carga de infraestructura. La curva de costos no sube suavemente. Sube con suficiente rapidez como para que la idea de usar DRAM para resolver todos los problemas de localidad de datos empiece a desmoronarse bajo su propia economía.

Esa es una de las razones por las que la pila de memoria se está volviendo más profunda en lugar de más simple. La industria no se está alejando de la DRAM porque haya dejado de ser valiosa. Se está alejando de la suposición de que la DRAM sola puede ser la respuesta a todos los problemas sensibles a la latencia a escala de IA.

La segunda pared es la energía, y ese problema nunca duerme

Incluso si el costo fuera más fácil de justificar, la DRAM todavía tropieza con otro problema que se vuelve imposible de ignorar una vez que los sistemas alcanzan cierto tamaño, y ese problema es la energía. La DRAM debe mantenerse constantemente alimentada para conservar su estado. Eso es simplemente parte de la tecnología. Así que, cuanto más agregas, más energía consume el sistema solo para mantener esos datos ahí, listos para usarse.

En entornos pequeños, esa sobrecarga puede parecer aceptable. En sistemas de IA densos que funcionan de manera continua, empieza a convertirse en un problema operativo importante. Más DRAM significa más consumo eléctrico, más calor, más refrigeración y más presión de diseño sobre toda la plataforma. De pronto, la decisión ya no trata solo de capacidad de memoria. Trata de límites térmicos, eficiencia del centro de datos y de si la infraestructura de soporte puede absorber el costo de mantener viva tanta memoria activa las veinticuatro horas del día.

Aquí es también donde el papel de las capas intermedias empieza a tener más sentido. En la entrega anterior sobre Storage Class Memory, la capa que falta entre DRAM y NAND, la idea no era reemplazar la DRAM, sino aliviar parte de la presión sobre ella introduciendo una capa que mantenga más datos cerca del compute sin obligar a que todo termine en el nivel más costoso y más hambriento de energía.

Luego está la realidad física de la proximidad

Hay otra razón por la que la DRAM no escala infinitamente bien en los sistemas de IA, y tiene menos que ver con el presupuesto y más con la física. La DRAM aporta valor en parte porque se encuentra relativamente cerca del procesador. Cuanto más cerca está la memoria del compute, menor suele ser la latencia y más ágil se siente el sistema en general. Pero la proximidad no es algo que puedas expandir para siempre sin consecuencias.

Existen límites físicos a la cantidad de memoria que puede colocarse cerca de una CPU o GPU antes de que la complejidad del diseño, la longitud de las trazas, la integridad de la señal y las restricciones de encapsulado empiecen a jugar en tu contra. Esa es exactamente la razón por la que apareció el empaquetado avanzado de memoria en primer lugar. La HBM existe porque la colocación tradicional de la DRAM solo puede llegar hasta cierto punto, y una vez que el lado de compute se vuelve lo bastante rápido, esas distancias y esos recorridos empiezan a importar más de lo que importaban antes.

Pero la HBM tampoco es una respuesta completa en términos de capacidad. Ofrece un ancho de banda increíble, pero no un volumen ilimitado. Así que el sistema termina viviendo en un equilibrio constante entre lo que puede colocarse muy cerca y lo que tiene que permanecer más lejos. Las cargas de trabajo de IA tensan ese equilibrio mucho más de lo que jamás lo hicieron los sistemas convencionales.

La IA hace que los pequeños retrasos salgan caros

Una de las cosas más interesantes de la infraestructura de IA es que expone ineficiencias que las cargas de trabajo más antiguas podían ocultar casi por completo. En un sistema más tradicional, un pequeño retraso en el acceso a los datos quizá no signifique gran cosa. El procesador espera un poco, la tarea termina un poco más tarde y el usuario ni se entera. Los sistemas de IA son mucho menos tolerantes porque operan con muchísimo paralelismo y con una enorme cantidad de dinero atada a la capa de compute.

Si una GPU no recibe los datos cuando los necesita, eso no es solo una molestia técnica. Es tiempo muerto costoso. Multiplica eso por muchos aceleradores funcionando en paralelo y hasta retrasos muy pequeños empiezan a aparecer como pérdidas reales de utilización.

Eso cambia el objetivo. El objetivo no es simplemente tener memoria rápida. El objetivo es mantener una entrega de datos lo bastante consistente, a una escala lo bastante grande, como para mantener ocupadas todo el tiempo las partes más caras del sistema. Ese es un requisito mucho más duro, y es exactamente por eso que la DRAM sola empieza a parecer insuficiente una vez que la infraestructura de IA crece más allá de cierto punto.

ai warehouse analogy data flow memory hierarchy dram bottleneck loading dock

La analogía del almacén sigue funcionando, solo que ahora es más grande

Si seguimos usando la misma analogía del almacén de los artículos anteriores, la DRAM sigue siendo el muelle de carga. Es donde ocurre el trabajo activo, donde los elementos se abren, se clasifican y se mueven hacia el uso inmediato. Durante años, ese modelo funcionó bien porque la cantidad de actividad en el muelle era manejable y el sistema no exigía que todo estuviera preparado ahí al mismo tiempo.

La IA cambia la escala de toda la operación. Ahora se espera que el muelle soporte un flujo casi constante de material, con mucha más actividad ocurriendo en paralelo y con mucha menos tolerancia al retraso. En algún punto, incluso el mejor muelle de carga no puede seguir creciendo sin más. Solo hay cierto espacio, solo cierto número de movimientos paralelos que pueden ocurrir con eficiencia y solo cierta cantidad de inventario que puedes mantener directamente en el punto de uso antes de que el propio diseño se convierta en parte del problema.

Así que la respuesta no es hacer el muelle infinitamente más grande. La respuesta es rediseñar el flujo de trabajo alrededor de él.

Ahí es donde el resto de la jerarquía de memoria empieza a ganarse su lugar. La HBM mantiene los datos más sensibles al tiempo justo al lado del procesador. La Storage Class Memory ayuda a suavizar la transición entre la memoria activa y el almacenamiento más lento. Y en el artículo más reciente sobre por qué los sistemas modernos de inteligencia artificial consumen tanta memoria, el enfoque se desplazó hacia cómo también se está rediseñando el lado del almacenamiento para que pueda participar de forma más inteligente en alimentar al sistema.

Ninguna de esas capas existe porque la DRAM haya fallado. Existen porque la IA ya superó la idea de que una sola capa rápida pudiera cargar por sí sola con toda la carga de trabajo.

Lo que esto realmente significa para la pila de memoria de la IA

La verdadera conclusión aquí no es que la DRAM vaya a desaparecer, porque claramente no es así. La DRAM sigue siendo una de las partes más importantes de toda la pila. Lo que está cambiando es su papel. En vez de ser el lugar donde se supone que vive todo lo activo, la DRAM se está convirtiendo en el lugar donde viven los datos más urgentes y más sensibles al tiempo, mientras otras capas se encargan de la creciente carga de escala, costo y capacidad.

Ese es un cambio sutil, pero importante. Significa que la infraestructura de IA se está alejando de la vieja idea de un modelo simple de dos capas – memoria aquí, almacenamiento allá – y se está moviendo hacia algo mucho más matizado, donde a cada tecnología se le pide manejar la parte de la carga de trabajo para la que está mejor adaptada.

Dicho de forma simple, la DRAM sigue siendo esencial, pero por sí sola ya no basta. La IA ha cambiado el tamaño del working set, la velocidad del compute, el costo del retraso y la economía de mantenerlo todo cerca. Cuando todo eso cambia al mismo tiempo, la jerarquía de memoria también tiene que cambiar con ello.

Hacia dónde lleva esto después

Una vez que aceptas que la DRAM no puede estirarse lo suficiente como para contener todo lo que la IA quiere cerca del compute, la siguiente pregunta se vuelve bastante obvia. ¿Dónde vive realmente el resto de esos datos, especialmente cuando la cantidad de información involucrada es demasiado grande como para justificar mantenerla en memoria?

Ahí es donde la conversación vuelve a girar, y una tecnología que mucha gente supone que ya quedó relegada empieza a importar de una manera sorprendentemente importante. Porque, mientras la DRAM lucha con la escala y el flash sigue arrastrando sus propias compensaciones de costo y latencia, los discos duros siguen ofreciendo algo que el resto de la pila no puede reemplazar fácilmente: capacidad práctica a volumen masivo.

Y exactamente por eso la próxima parte de esta serie tendrá que examinar por qué los discos duros siguen siendo críticos para la infraestructura de IA.

Sobre el autor
Este artículo fue desarrollado bajo la dirección de Greg Morris, colaborador de larga trayectoria en GetUSB.info con más de dos décadas de experiencia en tecnología USB, comportamiento de la memoria flash y sistemas de almacenamiento de datos. La perspectiva presentada aquí refleja conocimiento práctico de la industria y un análisis continuo de cómo se comportan los sistemas reales bajo cargas de trabajo en evolución, incluida la infraestructura de IA.

Cómo se creó este artículo
Los conceptos, la estructura y la dirección técnica de este artículo fueron elaborados y revisados por un experto humano en la materia. Se utilizaron herramientas de IA para ayudar con el ritmo, la fluidez y la legibilidad, organizando ideas complejas en una narrativa más natural sin alterar la precisión técnica subyacente ni la intención original.

Sobre las imágenes
Las imágenes utilizadas en este artículo fueron creadas específicamente para ilustrar conceptos que son difíciles de capturar con fotografía de stock tradicional, como cuellos de botella en el flujo de datos, comportamiento de la jerarquía de memoria e ineficiencias a nivel de sistema. Las imágenes están diseñadas para reforzar las explicaciones técnicas y mejorar la claridad para los lectores.

Continue Reading

Dentro de una computadora de IA: por qué los sistemas modernos de inteligencia artificial consumen tanta memoria

Escalado de un servidor de IA desde una sola máquina hasta racks completos y un centro de datos, lo que ilustra por qué los sistemas modernos de IA requieren tanta memoria

Cómo se ve realmente un servidor de IA cuando se abre la cubierta

En este momento hay mucho ruido sobre la IA usando “demasiada memoria”. Los precios están subiendo. El suministro es limitado. Todo el mundo dice que la demanda está explotando. Probablemente ya lo hayas leído.

Pero la mayoría de lo que se escribe omite la parte más importante: cómo es físicamente una computadora de IA y por qué necesita tanta memoria en primer lugar. No en gráficos abstractos ni en previsiones de mercado, sino en términos que se puedan visualizar. Una vez que entiendes lo que realmente consume un solo sistema de IA, el resto de la historia deja de sonar dramática y empieza a sonar inevitable.

Hace poco terminé explicando esto en un lugar que no tiene nada que ver con los centros de datos. Estaba en la escuela de mi hijo durante un “día de padres”, de pie en un aula, y algunos estudiantes comenzaron a hacer preguntas sobre la IA. No preguntas sobre chatbots. Preguntas reales. ¿Cómo se ve la computadora? ¿A dónde van los datos? ¿Por qué todo el mundo sigue hablando de “memoria” como si fuera lo único que importa?

Continue Reading

Copyright

Copyright © 2006-2019

USB Powered Gadgets and more…

Todos los derechos reservados.

GetUSB Publicidad

Las oportunidades en nuestro sitio web alcanzan al menos 1,000 visitas únicas por día.

Para más información

Visite nuestra página de publicidad

Nexcopy Proporciona

Protección de copia USB con gestión de derechos digitales para datos cargados en unidades flash USB.

Contáctenos aprender más.