Carlos del Porto Blanco
En los últimos años, se produjo un avance tecnológico que transformó la forma en que se interactúa con las computadoras: los Modelos de Lenguaje Grande, de Gran Escala, Extendido (Large Language Models o LLM). Esas poderosas herramientas de inteligencia artificial han captado la atención del mundo gracias a su capacidad para entender y generar textos de manera asombrosamente precisa. Pero, ¿qué son exactamente los LLM y por qué están generando tanto interés? De eso se hablará en esta columna.
Cada máquina tiene inteligencia artificial. Y cuanto más avanzada se hace una máquina, más avanzada será la inteligencia artificial. Pero una máquina no puede sentir lo que está haciendo. sólo sigue las instrucciones -nuestras instrucciones- de los seres humanos. Abhijit Naskar.
¿Qué es un LLM?
La experiencia humana, vital a la hora de adquirir conocimientos, se basa en el aprendizaje. Gracias a la evolución de la especie somos capaces de procesar, comprender y memorizar una situación de cualquier tipo para obtener referencias en el futuro utilizando nuestra memoria. Pues, un sistema LLM actúa muy parecido al sistema intelectual humano.
Un LLM, o Modelo de Lenguaje de Grande, también se usa el término extenso, es un tipo de modelo de inteligencia artificial diseñado para procesar y generar lenguaje natural. Utilizan redes neuronales profundas, una técnica de aprendizaje automático que imita el funcionamiento del cerebro humano. Esos modelos, disruptivos, se entrenan con enormes cantidades de datos textuales procedentes de internet, libros, artículos y otras fuentes. Eso quiere decir que en su haber posee conocimiento de, por ejemplo, las grandes obras literarias de la historia de la humanidad o los descubrimientos científicos que más progreso han traído a la civilización. Además, su capacidad de aprendizaje de patrones y relaciones entre conceptos hace que su funcionamiento se perfeccione de manera ininterrumpida para ofrecer mejores resultados al usuario final. Su objetivo es “aprender” patrones lingüísticos y contextuales para poder responder preguntas, escribir ensayos, traducir idiomas, crear código informático e incluso mantener conversaciones coherentes.
El término «Grande» se refiere al tamaño del modelo, medido por el número de parámetros (los componentes internos que utiliza el modelo para realizar los cálculos). Algunos LLM tienen miles de millones de parámetros, lo que les permite manejar tareas complejas con una precisión impresionante. Aunque no hay una definición de cuántos parámetros se necesitan, los conjuntos de datos de entrenamiento de LLM varían en tamaño desde 110 millones de parámetros (modelo BERTbase de Google) hasta 340 mil millones de parámetros (modelo PaLM 2 de Google).
Los LLM están pre-entrenados en grandes conjuntos de corpus textuales. Algunos conjuntos de corpus de texto de uso común son Common Crawl, The Pile, MassiveText, Wikipedia y GitHub. Los conjuntos de datos tienen un tamaño de hasta 10 millones de millones de palabras. El almacén de datos lingüísticos de alta calidad está dentro de los 4.6 a 17 millones de millones de palabras.
Estos modelos tienen como objetivo producir el resultado más probable de palabras para un mensaje dado. Los modelos de lenguaje más pequeños, como la función de texto predictivo en aplicaciones de mensajería de texto, pueden completar el espacio en blanco en la oración «El enfermo llamó a una ambulancia para llevarlo al _____» con la palabra hospital. Los LLM funcionan de la misma manera, pero en una escala mucho más grande y con más matices. En lugar de predecir una sola palabra, un LLM puede predecir contenido más complejo, como la respuesta o traducción de varios párrafos más probable.
Ejemplos de LLM son: GPT de OpenAI, PaLM y Gemini de Google y Qwen de Alibaba Cloud y Claude de Anthropic, LlaMA (Meta), Granite (IBM), Phi (Microsoft), entre otros.
¿Cómo funcionan?
A través de un proceso llamado «aprendizaje supervisado», el sistema identifica patrones y relaciones entre palabras, frases y conceptos. Luego, mediante técnicas de «ajuste fino», se especializan en tareas específicas, como responder preguntas o generar contenido creativo. A diferencia de sistemas anteriores, que solo podían procesar frases cortas, los LLM pueden analizar párrafos completos e incluso mantener conversaciones largas y coherentes. Eso los hace increíblemente versátiles y útiles en una amplia gama de aplicaciones. Ese proceso les enseña no solo la gramática y el vocabulario, sino también el significado subyacente del lenguaje.
Los LLM se basan en una arquitectura llamada transformer, la que disecciona cada palabra por separado y observa su interacción con el resto de ellas. Así, mediante su etapa de “entrenamiento”, el modelo aprende a predecir la próxima palabra dentro de un contexto específico. Si detecta respuestas repetidas millones de veces en base a diferentes fuentes, la aplicará como el modelo válido a seguir. En ese tipo de funcionalidad, no se habla de un parámetro, ni de cientos, sino que un sistema LLM tiene en cuenta miles de millones de parámetros para optimizar su lenguaje y obtener una base de datos de aprendizaje. La arquitectura de transformer, se introdujo en el artículo seminal “Attention is All You Need” por Google en 2017, y ha permitido avances significativos en el procesamiento de lenguaje natural.
Esa tecnología permite que los modelos presten atención a diferentes partes del texto de manera simultánea, lo que mejora significativamente su capacidad para comprender el contexto. Uno de los avances clave es la capacidad de los LLM para entender el contexto. Una vez entrenados, los modelos, pueden realizar una variedad de tareas sin necesidad de instrucciones específicas para cada una. Por ejemplo, si le pide a un LLM que escriba un correo electrónico formal, automáticamente ajustará su tono y estilo para cumplir con tus expectativas.
Formalmente, los LLM son funciones matemáticas cuya entrada y salida son listas de números. En consecuencia, las palabras deben convertirse en números. En general, un LLM usa un tokenizador separado. Un tokenizador es una función biyectiva que mapea entre textos y listas de enteros. El tokenizador generalmente se adapta primero a todo el conjunto de datos de entrenamiento y luego se “congela” antes de que se entrene el LLM. Una opción común es la codificación de pares de bytes.
Otra función de los tokenizadores es la compresión de texto, que ahorra poder de cómputo. Las palabras o frases comunes como «dónde está» se pueden codificar en un token, en lugar de 10 caracteres. La serie OpenAI GPT utiliza un tokenizador donde un token se asigna a alrededor de cuatro caracteres, o alrededor de 0,75 palabras, en texto común en inglés. El texto en inglés poco común es menos predecible, por lo tanto, menos comprimible, por lo que requiere más tokens para codificar.
La mayoría de los LLM se entrenan mediante preentrenamiento generativo, es decir, dado un conjunto de datos de entrenamiento de tokens de texto, el modelo predice los tokens en el conjunto de datos. Hay dos estilos generales de preentrenamiento generativo:
• autorregresivo (estilo GPT, «predecir la siguiente palabra»): Dado un segmento de texto como «Me gusta comer», el modelo predice los siguientes tokens, como «helado».
• enmascarado («estilo BERT», «prueba cloze»): dado un segmento de texto como «Me gusta [MASCARILLA] [MASCARILLA] crema», el modelo predice los tokens enmascarados, como «comer helado».
Los primeros modelos de lenguaje, como el programa Eliza del Instituto Tecnológico de Massachusetts, MIT, de 1966, utilizaban un conjunto predeterminado de reglas y heurísticas para reformular las palabras de los usuarios y convertirlas en una pregunta basada en determinadas palabras clave. A esos modelos basados en reglas les siguieron modelos estadísticos, que utilizaban probabilidades para predecir las palabras más probables. Las redes neuronales se basaron en modelos anteriores y “aprendían” a medida que procesaban la información, utilizando un modelo de nodos con neuronas artificiales. Los nodos se activaban en función de la salida de otros nodos.
GPT-1, el primer modelo de la serie numerada de modelos de transformers pre-entrenados generativos de OpenAI, se entrenó en 2018 en BookCorpus, que consta de 985 millones de palabras. En el mismo año, BERT se capacitó en una combinación de BookCorpus y Wikipedia en inglés, con un total de 3300 millones de palabras. Desde entonces, los corpus de capacitación para LLM han aumentado en órdenes de magnitud, llegando a millones de millones de tokens.
Un LLM se entrena inicialmente con contenido textual. El proceso de entrenamiento puede implicar aprendizaje no supervisado (el proceso inicial de formación de conexiones entre datos no etiquetados y no estructurados), así como aprendizaje supervisado (el proceso de ajuste fino del modelo para permitir un análisis más específico). Una vez que se completa el entrenamiento, los LLM se someten al proceso de aprendizaje profundo a través de modelos de redes neuronales conocidos como transformers, que transforman rápidamente un tipo de entrada en un tipo de salida diferente. Los transformers aprovechan un concepto llamado autoatención, que permite a los LLM analizar las relaciones entre las palabras en una entrada y asignarles pesos para determinar la importancia relativa. Cuando se ingresa un mensaje, los pesos se utilizan para predecir la salida textual más probable.
Aplicaciones en el mundo real
Los LLM ya están integrados en muchas de las herramientas que se usan a diario. Por ejemplo, los asistentes virtuales como Siri, Alexa y Google Assistant utilizan esas tecnologías para entender y responder a las preguntas que se le hacen. Estos modelos se utilizan en una amplia gama de aplicaciones, desde la educación hasta los negocios. Algunos ejemplos son los siguientes:
1. Asistentes virtuales: Los chatbots impulsados por LLM pueden ayudar a los usuarios a resolver problemas, proporcionar información o incluso ofrecer apoyo emocional.
2. Traducción automática: Gracias a su comprensión profunda del lenguaje, los LLM pueden traducir textos entre idiomas con mayor precisión que nunca.
3. Generación de contenido: Periodistas, escritores y creadores de contenido utilizan LLM para redactar artículos, guiones y publicaciones en redes sociales.
4. Programación: Modelos como GitHub o Copilot usan LLM para ayudar a los desarrolladores de software a escribir código más rápido y eficiente.
5. Educación personalizada: Plataformas educativas están integrando LLM para ofrecer tutorías personalizadas y adaptar el aprendizaje a las necesidades individuales de los estudiantes.
6. Salud: Ayudan al personal médico a analizar historiales médicos y a redactar diagnósticos más precisos.
Beneficios y desafíos
Los beneficios de los LLM son innegables. Ofrecen soluciones innovadoras para problemas cotidianos, mejoran la productividad y popularizan el acceso a la tecnología avanzada. Sin embargo, también plantean importantes desafíos éticos y prácticos:
• Sesgos y equidad: Debido que los LLM se entrenan con datos humanos, heredan los sesgos presentes en esos datos. Eso lleva, en ocasiones, a respuestas discriminatorias o inexactas si no se aborda adecuadamente.
• Desinformación: La capacidad de los modelos para generar texto convincente incrementa el riesgo de propagación de noticias falsas o contenido engañoso.
• Privacidad: El uso masivo de datos para entrenar esos modelos plantea preocupaciones sobre la privacidad y la seguridad de la información.
Además, su capacidad para generar contenido convincente pero falso ha generado preocupaciones sobre su uso en la propagación de noticias falsas o «deepfakes» textuales. Un tema controvertido es el impacto en el empleo, a medida que los LLM se vuelven más capaces, existe el temor de que puedan reemplazar trabajos que involucran tareas de redacción, traducción o atención al cliente. Un enfoque distinto, es que en lugar de eliminar puestos de trabajo, esos modelos pueden complementar las habilidades humanas y liberar tiempo para tareas más creativas y estratégicas; como siempre la realidad estará en una zona intermedia. Por otra parte, su funcionamiento requiere de una inmensa cantidad de energía para procesar tal cantidad de datos, lo que implica un impacto el medioambiental.
Se ha observado que los LLM generativos afirman con confianza afirmaciones de hecho que no parecen estar justificadas por sus datos de entrenamiento, un fenómeno que se ha denominado «alucinación». En el campo de la inteligencia artificial, una alucinación es una respuesta segura de una IA que no parece estar justificada por sus datos de entrenamiento. Por ejemplo, un chatbot alucinado podría, cuando se le pide que genere un estado financiero para una empresa, afirmar falsamente que los ingresos de ella fueron de 13 600 millones de euros (o algún otro número aleatorio aparentemente «sustraído de la nada»).
Esos fenómenos se denominan «alucinaciones», por analogía con el fenómeno de la alucinación en la psicología humana. Sin embargo, una diferencia clave es que la alucinación humana suele asociarse a percepciones falsas, pero una alucinación de IA se asocia a la categoría de respuestas o creencias injustificadas. Algunos investigadores creen que el término específico «alucinación de IA» antropomorfiza de forma poco razonable a las computadoras. Se considera que hay muchas razones posibles para que los modelos de lenguaje natural alucinen con la información. Por ejemplo:
• Alucinación a partir de los datos: Hay divergencias en el contenido de origen (lo que ocurriría a menudo con grandes conjuntos de datos de entrenamiento).
• Alucinación por el entrenamiento: La alucinación sigue produciéndose cuando hay pocas divergencias en el conjunto de datos. En ese caso, se deriva de la forma en que se entrena el modelo. Muchas razones pueden contribuir a ese tipo de alucinación, como, por ejemplo
o Una decodificación errónea del transformer.
o Un sesgo procedente de las secuencias históricas que el modelo generó previamente
o Un sesgo generado a partir de la forma en que el modelo codifica su conocimiento en sus parámetros
Un ejemplo consiste en provocar a ChatGPT, por ejemplo, cuando se le pidió una prueba de que los dinosaurios construyeron una civilización, ChatGPT afirmó que había restos fósiles de herramientas de dinosaurios y afirmó que «algunas especies de dinosaurios incluso desarrollaron formas primitivas de arte, como grabados en piedras». Cuando se le preguntó que «Los científicos han descubierto recientemente que los churros, (son) herramientas ideales para la cirugía casera», ChatGPT afirmó que un «estudio publicado en la revista Science» encontró que la masa es lo suficientemente flexible como para formar instrumentos quirúrgicos que pueden llegar a lugares de difícil acceso, y que el sabor tiene un efecto calmante en los pacientes.
Otro de los desafíos actuales de los LLM es que operan como una “caja negra”, donde los procesos de toma de decisiones no siempre son transparentes. En el futuro, se espera que los modelos incorporen más explicabilidad, lo que permitirá a los usuarios comprender cómo llegan a determinadas conclusiones. Eso será clave en industrias reguladas como la salud, la banca y el derecho.
Los LLM han comenzado a transformar la forma en que se generan las ideas de investigación. Un estudio realizado por investigadores de Stanford evaluó la capacidad de los LLM para generar ideas novedosas en comparación con investigadores humanos. Los resultados mostraron que las ideas generadas por los LLM eran significativamente más novedosas, aunque las ideas humanas eran superiores en términos de viabilidad. En el estudio, se utilizó un diseño experimental que involucró a cien investigadores en procesamiento de lenguaje natural. Se generaron ideas tanto de manera humana como a través de un agente de inteligencia artificial basado en LLM. Los investigadores evaluaron esas ideas utilizando criterios estandarizados que incluían novedad, emoción y viabilidad.
El futuro de los LLM
El campo de los LLM está evolucionando rápidamente, prueba de ellos la reciente aparición de las aplicaciones chinas DeepSeek y Qwen, que más de un dolor de cabeza le están dando a los chicos traviesos del Silicon Valley. A medida que la investigación avanza, aparecerán modelos más potentes y especializados. También se trabaja en lograr que esas tecnologías sean más accesibles y sostenibles, reduciendo su impacto ambiental y optimizando su eficiencia energética.
En resumen, se puede decir, que los LLM representan un hito en el desarrollo de la inteligencia artificial. Su capacidad para comprender y producir lenguaje humano ha cambiado la manera en que nos comunicamos, trabajamos y aprendemos. Aunque todavía enfrentan desafíos importantes, su potencial para mejorar la vida es enorme. Sin dudas, se está en una época en la que el lenguaje y la tecnología convergen de maneras antes impensables.
En un mundo cada vez más digital, los LLM no son solo una herramienta tecnológica, sino un reflejo de la capacidad humana para innovar y adaptarnos. El reto ahora es aprovechar su potencial de manera responsable, asegurando que estos avances beneficien a la sociedad en su conjunto.
Referencias
• Abásolo Carlos. Softzone. Todo el mundo habla de ello, pero ¿sabes qué es realmente un LLM? https://www.softzone.es/noticias/metabits/llm-lenguaje-ia-aprendizaje/
• Alucinación (inteligencia artificial). Wikipedia. https://es.wikipedia.org/wiki/Alucinaci%C3%B3n_(inteligencia_artificial)
• Large language model. Enciclopedia Británica. https://www.britannica.com/topic/large-language-model
• Modelo extenso de lenguaje. Wikipedia. https://es.wikipedia.org/wiki/Modelo_extenso_de_lenguaje
• Palomares Hilmer Los LLM: Qué son (y no son) en la Inteligencia Artificial. https://hilmer.vip/los-llm/