Desde la irrupción de
Deepseek hace algunas semanas, he estado experimentando con la repetición de un buen número de prompts que en su momento había utilizado con
ChatGPT,
Claude,
Mistral o
Grok, los LLM que utilizo habitualmente, pero observando el proceso de razonamiento, para tratar de imaginar en cuántos casos el output de ese proceso me habría llevado a modificar ese prompt, funcionando a modo de feedback sobre la respuesta original generada por el algoritmo.
La razón de mi curiosidad está precisamente en la exploración del papel creo que fundamental de ese feedback en la explotación de los modelos de lenguaje, algo que ayer encontré bien reflejado en un artículo de The Washington Post, «The hottest new idea in AI? Chatbots that look like they think«, en el que habla de esos procesos de razonamiento, conocidos como «cadena de pensamiento«, y los retrata como una «tendencia» en el desarrollo de la inteligencia artificial.
La «tendencia» es, en realidad, una forma de mejorar el funcionamiento de esos modelos utilizando parcialmente el reinforcement learning para afinar el proceso en la segunda fase del entrenamiento, creando una función objetivo o reward function que permite ir optimizando esa respuesta.