Sammanfattning: Hugging Face-plattformen erbjuder förtränade modeller och dataset som underlättar användningen av modern maskininlärning. Dask är ett Pythonbibliotek för distribuerad databehandling som kan hantera stora datamängder genom att dela upp dem i hanterbara delar. Tillsammans möjliggör Hugging Face och Dask effektiv parallell modellgranskning på stora dataset med hjälp av GPU-acceleration i molnet. I ett exempel analyserades 211 miljoner webbsidor från Common Crawl-datasetet för att identifiera utbildningsvärde med Hugging Faces FineWeb-Edu-klassificerare. Genom att skala upp från 100 rader lokalt till hela datasetet med Dask på Coileds molnplattform kunde analysen utföras parallellt på 100 GPU-instanser på AWS. Kombinationen av Hugging Face och Dask är kraftfull för att skala upp AI-baserade databehandlingsarbetsflöden.