Faster Assisted Generation with Dynamic Speculation

2024-10-191 minute read
Article image

Här är en 3-4 meningars sammanfattning av nyhetsartikeln: Dynamisk spekulativ avkodning är en ny metod framtagen av Intel Labs och Hugging Face som accelererar textgenerering med upp till 2,7 gånger, beroende på uppgiften. Metoden anpassar dynamiskt antalet tokens som genereras av en snabbare men mindre exakt assistentmodell innan verifiering av en mer exakt målmodell. Detta integreras nu som standardläge för assisterad generering i Transformers 4.45.0 och visar betydande prestandaförbättringar jämfört med tidigare metoder med statisk eller heuristisk inställning av spekulationslängden.