Project Strawberry: OpenAI vult Pre Trained (PT) aan met Post Training (ook PT) ;)

Jul 15, 20241 min read

OpenAI werkt aan een nieuw project genaamd "Strawberry," gericht op het verbeteren van de redeneercapaciteiten van AI-modellen. Dit project omvat een gespecialiseerde manier van "post-training," waarbij de AI-modellen worden aangepast na hun initiële training op grote datasets. Het doel is om de modellen in staat te stellen complexe taken uit te voeren die vooruitdenken en planning vereisen, zoals autonoom onderzoek doen op het internet en complexe softwareontwikkeling.

This is Good for the Company! Photo Credit: Office Space (1999), directed by Mike Judge. © 20th Century Fox.

Redeneren wordt gezien als cruciaal voor het bereiken van menselijke of supermenselijke intelligentie in AI. Huidige taalmodellen kunnen weliswaar snel samenvattingen maken en elegant proza schrijven, maar ze falen vaak bij problemen die voor mensen vanzelfsprekend lijken, zoals het herkennen van logische fouten. Strawberry beoogt dit op te lossen door modellen te creëren die beter kunnen plannen en multi-step problemen kunnen aanpakken.

Een interessant aspect van Strawberry is de focus op "process supervision," een methode waarbij de AI feedback krijgt voor elke stap in een redeneerketen, in plaats van alleen voor het eindresultaat. Dit heeft in eerdere tests geleid tot betere prestaties en kan mogelijk de adoptie van meer verantwoorde AI-methoden stimuleren.

Andere bedrijven zoals Google, Meta en Microsoft werken ook aan het verbeteren van de redeneercapaciteiten van hun AI-modellen, maar er is nog geen consensus over de beste aanpak. Het succes van Strawberry kan een grote stap voorwaarts betekenen in de ontwikkeling van geavanceerde AI.

Project Strawberry: OpenAI vult Pre Trained (PT) aan met Post Training (ook PT) ;)

Recent Posts

Comments