Una gran cantidad de datos desdibuja intencionalmente la línea entre el almacenamiento y la base de datos
Dependiendo de cómo se mire, una base de datos es una especie de sistema de almacenamiento sofisticado o el almacenamiento es una especie de reducción de una base de datos. En el mundo real, donde las bases de datos y el almacenamiento están separados, sin duda existe una cooperación continua entre ambos. No hay duda de que las bases de datos relacionales impulsaron la creación de sistemas de almacenamiento tanto (y los impulsaron en direcciones muy diferentes) como lo hicieron las cargas de trabajo de servicio de archivos y luego de objetos.
¿Qué pasaría si no tuvieras que tomar esas decisiones? ¿Qué pasaría si su almacenamiento fuera una base de datos real, genuina y honesta? ¿Qué pasaría si Vast Data, el nuevo fabricante de clústeres de almacenamiento totalmente flash que hablan mejor Network File System y con mucha más escala que los más complejos (y menos útiles) NoSQL o los almacenes de objetos, estuviera pensando en esto desde el mismo momento de su fundación? ¿Que crear un nuevo tipo de almacenamiento para impulsar un nuevo tipo de base de datos integrada fue siempre el plan? ¿Qué pasaría si la IA fuera siempre el plan y la simulación y el modelado HPC pudieran acompañarlo?
Bueno, la Vast Data Platform, como ahora se llama este híbrido de almacenamiento y base de datos, siempre fue el plan. Y ese plan siempre fue más que el Almacenamiento Universal que fue concebido a principios de 2016 por los cofundadores, Renen Hallak, director ejecutivo de la compañía, Shachar Fienblit, vicepresidente de investigación y desarrollo, y Jeff Denworth, vicepresidente de productos y director de marketing y se lanzó en febrero de 2019. Esta es la próxima plataforma por derecho propio, lo que significa que también tendrá que hacer cosas inteligentes con la computación. Entonces, ¿tal vez, al final, simplemente se llamará Plataforma Vasta? Pero no nos adelantemos.
Por otra parte, ¿por qué no? Los cofundadores de Vast Data lo hicieron hace mucho tiempo.
"En 2015, en mi plataforma de presentación, había una diapositiva sobre el almacenamiento en toda esa plataforma, que tenía quizás quince diapositivas", le dice Hallak a The Next Platform. “Uno de ellos tenía almacenamiento, el resto tenía otras partes que debían construirse para que esta revolución de la IA realmente sucediera como debería. Hace ocho años, la IA era que los gatos en los videos de YouTube eran identificados como gatos. No estaba cerca de lo que es hoy. Pero estaba muy claro que si algo importante iba a suceder en el sector de TI durante los próximos veinte años, sería la IA y queríamos ser parte de ello. Queríamos liderarlo. Queríamos permitir que otros participaran en esta revolución que parecía confinada a unas pocas organizaciones muy grandes. Y eso no nos gustó. Queremos democratizar esta tecnología”.
Y eso significa más que simplemente crear un sistema de archivos NFS y un sistema de almacenamiento de objetos de próxima generación, masivamente escalable y basado en flash. Significa pensar en niveles cada vez más altos de la pila y combinar los conceptos de almacenamiento de datos y base de datos con los grandes conjuntos de datos del mundo natural que sustentan cada vez más las aplicaciones de IA.
Los datos ya no se limitan a cantidades limitadas de texto y números en filas o columnas de una base de datos, sino a datos de alta resolución (vídeo, sonido, genómica, lo que sea) que romperían una base de datos relacional normal. Las cargas de trabajo de IA necesitan enormes cantidades de datos para construir modelos y mucho rendimiento para impulsar el entrenamiento de los modelos y, a veces, una enorme cantidad de computación para ejecutar inferencias sobre nuevos datos a medida que ingresan al modelo. Todo esto ejerce una tremenda presión sobre el sistema de almacenamiento para entregar información, algo que el Almacenamiento Universal de Vast Data, una implementación desagregada y compartida de NFS que tiene un almacén de cuasi objetos muy detallado debajo, puede manejar.
"Los datos tienen mucha más gravedad que la computación", añade Hallack. “Es más grande y es más difícil moverse. Entonces, para que podamos jugar en ese espacio de IA, no podemos limitarnos solo a los datos. Tenemos que saber algo y tener una opinión sobre cómo se organizan los datos. Se trata de romper con los compromisos y no es sólo una cuestión de almacenamiento. Si saca ese almacenamiento de palabras y lo coloca en la base de datos de palabras, se aplica el mismo tipo de desafíos. Costo, rendimiento, escala, resiliencia, facilidad de uso: estos no son términos de almacenamiento. Son términos informáticos muy genéricos”.
Los primeros indicios de Vast Data Platform se dieron a conocer en Vast Catalog, presentado en febrero de este año, que básicamente colocó una interfaz SQL y un sistema semántico encima del sistema de archivos NFS y el almacenamiento de objetos que sustentan el Almacenamiento Universal. Este fue el primer indicio de que había un nuevo motor oculto en Universal Storage que admitía consultas SQL. Ahora, Vast Data está revelando por completo cómo el almacenamiento de datos y la base de datos han convergido en una sola plataforma y cómo eventualmente tendrá una capa de computación.
Y como tal, vamos a tratar el anuncio de Vast Data Platform como lo haríamos con un anuncio de motor de computación de servidor, brindándole una descripción general para comenzar (esa sería esta historia que está leyendo) y luego una inmersión profunda después de investigar un poco. en la arquitectura. Técnicamente, estamos de vacaciones en la playa de Hilton Head Island, Carolina del Sur, y tenemos niños con quienes jugar en la playa. . . .
Como le gusta decir a Jensen Huang, cofundador de Nvidia, la IA es un problema de pila completa y Vast Data, al igual que Nvidia, ha estado pensando en la pila completa desde el primer día. Hasta donde sabemos, Vast Data no tiene ningún interés en fabricar hardware para computación, almacenamiento o redes y está encantado de dejar eso en manos de otros. Porque, francamente, tiene mejores cosas que hacer.
Como combinar almacenamiento de clase exaescala con una base de datos nativa para deshacerse de flujos de trabajo de IA como este, de Amazon Web Services:
Pero es más que eso. Se trata de dar sentido a cantidades verdaderamente enormes de datos.
"GPT-3 se entrenó con unos 45 terabytes de datos, lo que no creo que sean muchos datos en el contexto general", dice Denworth a The Next Platform. “Ahora estamos trabajando con una serie de personas que están construyendo modelos básicos, es decir, organizaciones como Inflection AI, y estamos empezando a ver planes para almacenes de datos únicos de varios exabytes. Algunos de los negocios más importantes que he visto en mi vida se están produciendo en el lapso de unas ocho semanas. Y una de las consideraciones es que a medida que se va más allá del texto a los datos del mundo natural, el corpus crece en órdenes de magnitud. Por el momento, sólo hay unas pocas organizaciones en la Tierra que pueden capturar tanta información única y darle sentido, y la pregunta es: ¿por qué?”
La respuesta es que todo esto es demasiado difícil y costoso, y tiene que haber una manera de hacerlo más fácil, más rápido y más barato. Algo que se parece más a esto:
La primera vez que sabemos dónde alguien intentó crear una plataforma de datos como ésta fue hace mucho, mucho tiempo (al menos en relación con los plazos de la industria informática) y, hasta cierto punto, funcionó dentro de su propio contexto y limitaciones. El segundo ejemplo que conocemos fue un fracaso absoluto, y el tercero tuvo un desempeño tan pobre que ya nadie habla de ello.
Allá por 1978, cuando IBM creó la base de datos relacional, no la comercializó primero en los venerables mainframes System/370 de la época, sino en una máquina poco utilizada pero arquitectónicamente significativa llamada System/38. Lo brillante de esta máquina es que el sistema operativo tenía una base de datos relacional incorporada, y se accedía a ella como si fuera un almacén de datos de archivo plano, pero tenía todas estas extensiones SQL que permitían a los usuarios consultar los datos de maneras que en realidad no se pueden hacer en un almacén de datos de archivo plano. De hecho, la base de datos relacional era el sistema de archivos y nunca hubo una forma de almacenar datos que no pudieran consultarse. El único problema con este enfoque es que requirió muchos cálculos, y MIPS para MIPS, el System/38 cargado con una pila de base de datos relacional era de 2 a 3 veces más caro que un mainframe System/370 de la época. No fue hasta que IBM anunció el AS/400 en 1988 que el costo de la computación bajó lo suficiente como para que esto fuera más práctico, pero seguía siendo un sistema de archivos lento. Y a finales de la década de 1990, IBM injertó el sistema de archivos paralelo OS/2 en el sistema operativo OS/400 para poder tener un sistema de archivos de Internet adecuado y la base de datos quedó relegada a ser sólo una base de datos.
Big Blue tuvo la idea correcta, pero se adelantó al presupuesto computacional de la época. Al igual que los algoritmos de IA creados en la década de 1980, funcionaron más o menos, pero necesitaban órdenes de magnitud más de datos y órdenes de magnitud más de computación para hacer que la red neuronal realmente funcionara.
Microsoft también tuvo la idea correcta con el sistema de archivos de objetos que era parte del kernel “Cairo” de Windows y Windows Server en la década de 1990, que renació como WinFS con la versión “Longhorn” de Windows y Windows Server a principios de la década de 2000. Microsoft también entendió que todos necesitábamos almacenar datos estructurados, semiestructurados y no estructurados en la misma base de datos/almacén de datos y permitir su consulta mediante SQL.
Y finalmente, estaba Hadoop, el clon del algoritmo de consulta de datos MapReduce de Google y del almacén de datos no estructurado distribuido masivamente. Con el tiempo, se agregaron varias superposiciones de SQL a Haoop, incluidas Hive, HBase, Impala y Hawq, y aunque funcionaron, el rendimiento fue abismal. Las bases de datos relacionales no podían escalar tan lejos como Hadoop, y Hadoop era mucho más lento en la consulta de datos que una base de datos relacional, y eso no es particularmente rápido en el esquema de las cosas.
Lo que nos lleva hasta el día de hoy y la Vast Data Platform. El equipo de Vast Data está retomando la idea y tienen una arquitectura de almacenamiento única que podría hacer realidad esta antigua visión.
Esperamos adentrarnos en la maleza y descubrir cómo y por qué.
Presentamos aspectos destacados, análisis e historias de la semana directamente desde nosotros a su bandeja de entrada sin nada intermedio. Suscríbase ahora