La Habana, Cuba. – Los datos sintéticos son información generada artificialmente que puede utilizarse en lugar de datos históricos reales para entrenar modelos de Inteligencia Artificial cuando los conjuntos de datos reales carecen de calidad, volumen o variedad; también pueden ser una herramienta importante para los esfuerzos de la Inteligencia Artificial cuando los datos disponibles no satisfacen las necesidades de la actividad o podrían crear problemas de privacidad si se utilizan para entrenar modelos de aprendizaje automático, probar software o similares. Según la analista de Gartner Svetlana Sicular, en 2024, el 60% de los datos utilizados para el desarrollo de soluciones de Inteligencia artificial y análisis, serán generados sintéticamente, frente al 1% de 2021.

La idea de los datos sintéticos no es nueva: los autos sin conductor han sido entrenados en calles virtuales, pero en los últimos tiempos la tecnología se ha generalizado, con una gran cantidad de empresas y universidades ofreciendo eso servicios. Por ejemplo, el proyecto Synthetic Data Vault, presentado en 2021 por Data to AI Lab del MIT, produce herramientas de código abierto para crear una amplia variedad de tipos de datos.

Mientras que, los datos originales se recopilan en todas sus interacciones con personas reales, por ejemplo: clientes, pacientes, empleados, y otros; los datos sintéticos se generan mediante un algoritmo informático. Ese algoritmo genera puntos de datos completamente nuevos y artificiales. Esos generados sintéticamente consisten en puntos de datos completamente nuevos y artificiales sin relaciones uno a uno con los datos originales. Por lo tanto, ninguno de los puntos de datos sintéticos se puede rastrear o aplicar ingeniería inversa a los datos originales. Como resultado, los datos sintéticos están exentos de las normas de privacidad, y sirven como solución para resolver y superar los desafíos de privacidad de datos.

Existen tres tipos de datos sintéticos dentro del paraguas de datos sintéticos. Esos tres tipos son: datos ficticios, datos sintéticos generados basados en reglas y datos sintéticos generados por inteligencia artificial.

Datos ficticios

Los datos ficticios son datos generados aleatoriamente (por ejemplo, por un generador de datos ficticio). Por tanto, las características, relaciones y patrones estadísticos que se encuentran en los datos originales no se conservan, capturan ni reproducen en los datos ficticios generados. Por lo tanto, la representatividad de los datos ficticios es mínima en comparación con los datos originales. Se usan para reemplazar identificadores directos o cuando no se tienen datos (todavía) y no se quiere gastar tiempo en definir reglas.

Datos sintéticos generados basados en reglas

Los datos sintéticos generados basados en reglas, son datos sintéticos generados por un conjunto predefinido de reglas. Ejemplos de esas reglas predefinidas podrían ser que le gustaría tener datos sintéticos con un cierto valor mínimo, valor máximo o valor promedio. Cualquiera de las características, relaciones y patrones estadísticos que le gustaría que se reprodujeran en los datos sintéticos generados basados en reglas, deben estar predefinidos. Entonces la calidad de los datos será tan buena como el conjunto de reglas predefinido. Eso genera desafíos cuando la alta calidad de los datos es esencial. Primero, uno puede definir solo un conjunto limitado de reglas para ser capturadas en los datos sintéticos. Además, la configuración de varias reglas normalmente dará como resultado reglas superpuestas y en conflicto. Al mismo tiempo, nunca cubrirá completamente todas las reglas relevantes. También puede haber reglas relevantes de las que ni siquiera se esté al tanto. Y finalmente, eso llevará mucho tiempo, lo que resultará en una solución no eficiente.

Datos sintéticos generados por inteligencia artificial (IA)

Como es de esperar por el nombre, los datos sintéticos generados por Inteligencia Artificial son datos sintéticos generados por un algoritmo de Inteligencia Artificial. Ese modelo se entrena con los datos originales para aprender todas las características, relaciones y patrones estadísticos. A partir de entonces, el algoritmo de Inteligencia Artificial puede generar puntos de datos completamente nuevos y modela esos nuevos puntos de datos de tal manera que reproduce las características, las relaciones y los patrones estadísticos del conjunto de datos original. a eso ese le llama un gemelo de datos sintéticos.

En comparación con los datos sintéticos generados basados en reglas: en lugar de estudiar y definir reglas relevantes, el algoritmo de Inteligencia Artificial lo hace automáticamente. Aquí, no solo se cubrirán las características, las relaciones y los patrones estadísticos de los que se es consciente, sino también las características, las relaciones y los patrones estadísticos de los que ni siquiera es consciente. Se usan cuando se tiene (algunos) datos como entrada para imitar o usar como punto de partida para la generación inteligente de datos y funciones de aumento

Según el caso de uso, se recomienda una combinación de datos ficticios, datos sintéticos generados basados en reglas o datos sintéticos generados por Inteligencia Artificial. Esa descripción general le proporciona una primera indicación de qué tipo de datos sintéticos utilizar.

Como sustituto de los datos reales, los datos sintéticos pueden ser útiles en los siguientes escenarios:

  • Para entrenar modelos cuando faltan datos del mundo real: Los sistemas de Inteligencia Artificial y Aprendizaje Automático requieren cantidades masivas de datos. Para algunos casos de uso, simplemente no hay suficientes datos disponibles, ya sea porque el caso de uso ocurre con muy poca frecuencia, o el caso de uso es nuevo y no hay muchos datos históricos disponibles todavía. Los datos sintéticos pueden reducir los costes cuando la recopilación o la compra de datos del mundo real es prohibitiva.
  • Para llenar las lagunas de los datos de entrenamiento: Algunos conjuntos de datos no reflejan completamente los casos de uso que se requieren. Por ejemplo, un sistema entrenado para reconocer números de teléfono puede no tener suficientes números internacionales con los que trabajar.

Otro problema común es equilibrar un conjunto de datos. Por ejemplo, un conjunto de datos históricos puede estar compuesto por un 99% de transacciones no fraudulentas y menos de un 1% de fraudulentas, muchos modelos decidirán que la política más acertada será etiquetar todas las transacciones como no fraudulentas”.

  • Casos de uso de “cola larga”: A medida que la Inteligencia Artificial se vuelve omnipresente en las organizaciones, las entidades se están quedando sin casos de uso en los que los datos de entrenamiento necesarios son abundantes y están fácilmente disponibles.
  • Para acelerar el desarrollo de modelos: La recopilación de datos de entrenamiento del mundo real puede requerir tiempo, ya que la información se recopila, se etiqueta, se procesa y se somete a controles de conformidad y de otro tipo. Eso puede ralentizar el desarrollo de nuevos modelos de Inteligencia Artificial. Con los datos sintéticos, los modelos pueden entrenarse y calibrarse antes de que los datos del mundo real estén disponibles.
  • Para simular el futuro: Cuando las modas cambian, los datos históricos pueden quedar obsoletos de la noche a la mañana. Por ejemplo, cuando la gente cambió los auriculares con cable por los inalámbricos, todos los datos históricos de los clientes perdieron su valor predictivo. Los motores de recomendación que se basan en datos de entrenamiento antiguos podrían seguir recomendando opciones con cable. Sustituir o aumentar los datos históricos con datos sintéticos que tengan en cuenta el cambio de moda puede ayudar a mantener la relevancia de los motores de recomendación.
  • Simular futuros alternativos: Si se avecina un cambio y no está claro qué dirección tomarán los clientes, los datos simulados pueden ayudar a las empresas a realizar simulaciones de escenarios y estar preparadas para cualquiera de las dos opciones.
  • Para simular eventos de “cisne negro”: Ciertas situaciones surgen muy raramente y pueden no estar presentes en los datos históricos, pero si tuvieran un impacto dramático en una organización, entonces es necesario estar preparado. El uso de datos sintéticos para simular esas situaciones puede ayudar a una entidad a modelar esas respuestas.
  • Para simular el metaverso: El metaverso -simulaciones virtuales en 3D de entornos de juego, sociales y empresariales- requerirá una enorme cantidad de contenido. Habrá que crear salas, edificios, paisajes y otras. Los datos sintéticos pueden llenar algunas de las lagunas para crear escenarios y objetos realistas y apropiados para entornos, eventos e interacciones virtuales.
  • Para generar imágenes de mercadotecnia: Los anunciantes ya están creando imágenes sintéticas para mostrar sus productos. Por ejemplo, una fotografía de una modelo con un vestido de un color puede convertirse en fotos realistas de la misma modelo con todas las versiones del mismo vestido. También existen herramientas de generación de imágenes que pueden incluso generar rostros realistas y únicos o mostrar muebles en diferentes disposiciones.
  • Para las pruebas de software: El uso de datos reales para probar un nuevo software puede crear problemas de privacidad y seguridad. Los datos sintéticos que parecen reales, pero no lo son permiten probar el software en toda la gama de casos de uso sin poner en riesgo los datos reales.
  • Para crear gemelos digitales: En los casos judiciales, los abogados a veces crean un jurado en la sombra para probar los argumentos. Las organizaciones pueden hacer algo similar utilizando datos sintéticos. Por ejemplo, en 2019, la Administración de Trabajo y Bienestar de Noruega creó una versión sintética de toda su población.
  • En lugar de datos médicos y financieros: Utilizar datos reales de clientes o pacientes para entrenar modelos de Inteligencia Artificil, ejecutar simulaciones o encontrar tratamientos o correlaciones útiles puede ser muy arriesgado desde el punto de vista del cumplimiento de la normativa. Incluso los datos depurados o anonimizados pueden ser objeto de ingeniería inversa para recuperar los datos originales. Los datos sintéticos no se pueden desanonimizar, pero pueden utilizarse para encontrar información valiosa.
  • Para probar los sistemas de Inteligencia Artificial para detectar prejuicios: Cuando los sistemas de Inteligencia Artificial discriminan por motivos de raza, religión u otras consideraciones ilegales, pueden crear una responsabilidad de cumplimiento o un desastre de relaciones públicas, o ambas cosas. Con los sistemas de Inteligencia Artificial de “caja negra” y las nuevas tecnologías de Inteligencia Artificial, como las redes neuronales, puede ser difícil averiguar por qué una aplicación hace la recomendación que hace. Probar los sistemas de Inteligencia Artificial con conjuntos de datos sintéticos diseñados para imitar la demografía del mundo real puede ayudar a descubrir estos sesgos ocultos.

A veces, la generación de datos sintéticos puede ser muy sencilla. Una lista de nombres puede generarse combinando un nombre elegido al azar de una lista de nombres y un apellido de una lista de apellidos. Los códigos postales pueden elegirse aleatoriamente de una lista de códigos postales. Eso puede ser suficiente para algunas aplicaciones. Sin embargo, para otros fines, puede ser necesario equilibrar la lista.

La mayoría de los conjuntos de datos todavía se producen manualmente para la extracción de datos y la anonimización, y luego se limpian. Generar conjuntos de datos sintéticos que sean estadísticamente significativos y reflejen los datos reales de forma relevante para los casos de uso puede ser un reto. En la actualidad, la Inteligencia a Artificial y los algoritmos de aprendizaje automático se han utilizado para crear datos sintéticos más útiles y representativos.

Las empresas que empiezan a experimentar con datos sintéticos deberían empezar con ejemplos bien estructurados, sugiere la consultora Gartner. Esos casos de uso pueden ser los más fáciles de desplegar y ofrecen el mayor valor inicial. Por ejemplo, una base de datos de nombres y números específica puede sustituirse fácilmente por una equivalente sintética que ofrezca beneficios empresariales sin crear responsabilidades de cumplimiento.

Se recomienda no utilizar datos sintéticos tanto para la creación de modelos como para las pruebas, porque pueden generar falsos positivos. También se necesitará una buena cantidad de datos del mundo real para mezclarlos. Otro error es utilizar datos sintéticos para averiguar si las cosas están relacionadas causalmente, o generar valores atípicos sintéticos a menos que haya una lógica específica por la que se generen.

La utilización de los datos sintéticos puede aumentar la calidad de las aplicaciones que se programan en la actualidad, cuando la innovación se ha convertido, más que nunca en una fuerza productiva. Con esto termino. ah, y recuerden, si me ven por ahí me saludan.