No sé que no sé
Posts
Descifrando la Magia de la Inteligencia Artificial Generativa.

Descifrando la Magia de la Inteligencia Artificial Generativa.

Comprender cómo funciona, nos permite entender los límites actuales y las consecuencias

Dani Cricco
28 de agosto de 2023

Siguiendo con la serie de IA mi propósito es brindar una explicación de como funciona, sin que necesites tomar un curso de python, machine learning, o alguna otra terminología técnica del mundo de la programación.

Poniendo foco a parte de la IA

Como exploramos en la edición anterior, la Inteligencia Artificial abarca una amplia variedad de temas. Para entender como funciona, tenemos que concentrarnos en un área específica.

En la actualidad, lo que tiene mayor preponderancia, y nos tiene a todos anonadados son las herramientas que se pueden clasificar como "Inteligencia Artificial Generativa", y dentro de estas específicamente LLM (Large Language Models). ChatGPT es un LLM.

Inteligencia artificial generativa y LLM (Large Language Models)

La Inteligencia Artificial Generativa engloba un conjunto de técnicas que posibilitan la creación de contenido novedoso, ya sea en forma de poesía, música u otros medios.

Los modelos de lenguaje son similares a funciones matemáticas, ya que, a partir de una entrada (input), pueden predecir cuál será la salida esperada (output). Estas funciones relacionan como una cantidad varía "en función de" otra cantidad. En la Figura 1 se presentan ejemplos de diversas funciones.

Fig 1 - Ejemplo de funciones matemáticas

A diferencia de una función que, siempre que se le proporcione el mismo input, dará el mismo output esperado, los modelos de lenguaje operan de manera probabilística. Por ejemplo, si tomamos como input la frase "Esta explicación de IA es", el modelo puede ofrecer varias opciones como:

Buena 2%
Mala 4.2%
Incompleta 5%
Superficial 3.4%

En este punto, el LLM elige una de las palabras y genera una nueva frase. Esta nueva frase se convierte en el siguiente input, y así se repite el ciclo para construir oraciones, párrafos y textos completos.

Típicamente, uno pensaría que se utilizaría siempre la palabra con la probabilidad más alta. Sin embargo, acá es donde entra algo de "magia". Por razones que aún no se comprenden, introducir cierto grado de aleatoriedad para seleccionar la siguiente palabra, produce un texto más coherente y fluido.

Las máquinas aprenden

El proceso de "entrenamiento" o aprendizaje implica exponer el modelo a una vasta cantidad de datos, a partir de los cuales se construyen las probabilidades (representadas en el listado de la sección anterior). Esta etapa requiere dos elementos esenciales:

1) Capacidad de cómputo: Este proceso es altamente exigente y puede llevar meses, incluso con el uso de supercomputadoras, para completar la construcción del modelo.

2) Gran cantidad de datos: A través de Internet se accede a una amplia gama de datos. Adicionalmente, las empresas que acumulan datos (redes sociales, buscadores) poseen un gran cúmulo de datos, que nosotros, los usuarios, ayudamos a producir.

Esta combinación de poder de cómputo y acceso a datos, es lo que hace que la creación de modelos fundamentales sea una actividad que es exclusiva de las grandes empresas (Open AI, Google, Facebook, Microsoft, Amazon). Al menos, para tener los resultados que hoy se están consiguiendo.

Inferencia

Una vez que el modelo está creado, se puede utilizar para realizar preguntas y obtener respuestas. Este proceso es considerablemente más rápido en términos computacionales.

Cuando empleamos ChatGPT para realizar preguntas, nos encontramos en la etapa de inferencia. Las probabilidades ya han sido calculadas durante el proceso de entrenamiento, y el modelo responde al input que proporcionamos en tiempo real. Aunque, dependiendo del modelo, esta etapa podría no ser posible de ejecutar en un computador personal.

fig 2 -chatGPT en acción ayudando a escribir este blog

Tunear el modelo

Los modelos fundamentales hacen el trabajo pesado de procesar datos provenientes de internet y calcular estas probabilidades. No obstante, tienden a ser "generalistas", porque están basados en textos que pueden ir desde "¿Cómo hacer pizza?", pasando por clásicos de la literatura, hasta consultas de cálculo numérico avanzado.

El proceso de "tunear" el modelo se refiere a proporcionar un conjunto específico de datos relacionados con un dominio particular. Por ejemplo, podríamos afinarlo utilizando las leyes exclusivas de un país o los productos desarrollados por una organización.

Alucinaciones, una característica para estar alerta

Ojo! El modelo puede escribir texto, que se lea 100% coherente, pero que realmente esté basado en datos equivocados, o que estén inclusive contrapuestos. Esto puede ser:

un problema: si queremos rigurosidad científica
una ventaja: si estamos produciendo algo creativo como poesía

No todo lo que responde es verdad.

El límite y lo que se viene

El LLM opera básicamente generando texto palabra por palabra, el cual resulta coherente a nuestra percepción. Sin embargo, a pesar de las apariencias, no está realmente comprendiendo el texto.

Hay quienes alegan que chatGPT puede pasar el Turing Test. Un experimento diseñado por Alan Turing para comprobar si la respuesta de una inteligencia artificial puede ser indistinguible de la de un humano.

El que desee saber más de Alan Turing, le recomiendo la película “El código Enigma”, y como el invento de la computación logró inclinar el resultado de la segunda guerra mundial a favor de los aliados.

Esta capacidad para producir texto coherente abre un nuevo enfoque en la interacción con las máquinas: pasamos de un paradigma imperativo a uno declarativo.

En el paradigma imperativo, los humanos teníamos que diseñar un conjunto de pasos concretos para que la computadora los ejecutara y así realizar una tarea de manera eficiente (los famosos algoritmos).

Con el enfoque declarativo, podemos describir la solución deseada y la máquina se encarga de determinar la serie de pasos necesarios para alcanzar ese objetivo. En este enfoque, la habilidad de formular "las preguntas adecuadas" se vuelve aún más estratégica.

Saber utilizar aplicaciones de diseño gráfico para crear un logotipo o tener la capacidad de escribir en prosa pueden volverse menos relevantes. Sin embargo, poder describir como debe ser el logotipo y comprender que emociones debe evocar la poesía, siguen bajo nuestra responsabilidad, al menos por ahora.

¿Té pareció útil artículo?

Iniciar Sesión o Suscríbete para participar en las encuestas.

Referencias

Una parte importante del blog está basado en “What is ChatGPT Doing… and Why does it work ?”

Reply

or to participate.