Luis Merino
Si estas utilizando algún modelo de lenguaje del tipo ChatGPT o Gemini, estoy seguro de que en algún momento te habrás preguntado cómo demonios una máquina puede ser tan lista. A estos modelos les puedes pedir que escriban un cuento, un anuncio publicitario para un producto en Instagram o una receta de cocina y lo hacen al instante. En la mayor parte de las ocasiones, el resultado no es brillante, pero tampoco es malo e incluso puede mejorar ya que cuanto más concreta y precisa es la pregunta que se les formula, más acertada es la respuesta que ofrecen. Pero, ¿son realmente inteligentes estos modelos?
En apariencia lo son, y esto despierta un amplio abanico de temores.
La manera más efectiva de dilucidar esta cuestión es comprendiendo el mecanismo interno de los modelos de lenguaje. Explicarlo con cierto detalle sería largo y complejo, aunque la idea central en la que se apoyan es realmente simple, incluso parece algo infantil. Lo que en realidad hacen estos modelos es predecir la siguiente palabra en una oración. Ahora te preguntarás: ¿cómo se predice la siguiente palabra de una frase? Veamos un ejemplo con la frase de Eurípides “La inteligencia no es sabiduría”. Si seleccionamos las dos primeras palabras, podemos deducir cuál es la tercera (después de “La inteligencia” la siguiente palabra es “no”), si cogemos las tres primeras, averiguaremos cuál es la cuarta (después de “La inteligencia no” viene “es”) y así sucesivamente.
Ahora imagínate que tienes la capacidad de memorizar decenas de millones de frases. Con esta habilidad podrías determinar cuál es la siguiente palabra (más probable) dado un contexto o frase inicial. De esta manera podrías generar texto de la misma forma que un modelo de lenguaje.
En este método de generación de texto hay un inconveniente, y es que a veces la palabra que se predice, no tiene sentido (semántico) en la oración que se está generando. Por ejemplo, si la siguiente palabra a “El gato está” fuera “durmiendo” (el gato está durmiendo) y estamos generando frases sobre gatos hidráulicos, la oración carecería de sentido porque los gatos hidráulicos no duermen. Para solucionar este problema se inventaron los embeddings y aquí es donde reside buena parte de la magia de los modelos de lenguaje, ya que ayudan a que las palabras que se generan tengan un sentido en el contexto de la oración. Los embeddings no son más que una serie de números asociados a cada palabra, que representan una posición en el espacio vectorial. Se emplean para posicionar una palabra o una frase en el espacio, de manera que las que comparten un significado están en regiones cercanas y aquellas cuyo su significado no es similar, se sitúan en regiones distantes. Al categorizarse las palabras de esta manera, las oraciones cobran sentido y hace que los modelos de lenguaje generen texto muy parecido al escrito por una persona.
Aunque se ha avanzado mucho en esta dirección, en algunas ocasiones, el texto generado por un modelo contiene lagunas o errores, e incluso genera texto carente de sentido. A esto se le ha puesto el nombre de “alucinación” (hallucination), por lo que si estas utilizando un modelo en ámbitos que entrañen riesgo (medicina, legal, etc.) deberías examinar con minuciosidad cualquier texto que salga de ahí.
Ahora que conoces el mecanismo que hay detrás de los modelos de lenguaje, ¿crees que hay inteligencia en ellos?, ¿acaso el hecho de predecir la siguiente palabra es una forma de inteligencia? Antes de responder, te animo a que reproduzcas el experimento que hizo Microsoft hace unos meses. Los ingenieros pidieron a un modelo lo siguiente:
“Aquí tenemos un libro, nueve huevos, una computadora portátil, una botella y un clavo. Por favor, dime cómo apilarlos unos sobre otros de forma estable.”
La respuesta por parte del modelo fue tan ingeniosa que los investigadores quedaron atónitos, incluso Peter Lee, director de investigación de Microsoft afirmó: “¿de dónde demonios salió eso?” refiriéndose al texto generado. En mi opinión, los modelos de lenguaje en ocasiones parecen mágicos y nos sorprenden sobremanera porque se valen de una de las herramientas más poderosas de la humanidad: el lenguaje.
Luis Merino en la actualidad trabaja como Principal Engineer en RiM (empresa irlandesa del sector aeronáutico). Posee una larga experiencia a nivel nacional e internacional en desarrollo de proyectos tecnológicos y gestión de equipos dirigidos a la innovación del producto y negocio. Certificado por Google en IA para desarrolladores y gestión de proyectos. Ha sido emprendedor social utilizando la tecnología en el ámbito de la educación.