FineVideo: behind the scenes

2024-10-191 minute read
Article image

Öppna videodata-uppsättningar är sällsynta och bromsar därför utvecklingen av öppen källkods-video-AI. Därför byggde vi FineVideo, en datauppsättning med 43 000 videor som omfattar 3 400 timmar och är annoterade med rika beskrivningar, narrativa detaljer, scenuppdelningar och frågor och svar. FineVideo innehåller en mycket mångsidig samling videor och metadata vilket gör den till en bra ingrediens för att träna modeller att förstå videoinnehåll, träna diffusionsmodeller att generera videor från en textbeskrivning eller träna datorvisionsmodeller med hjälp av dess strukturerade data som indata. Datauppsättningen har skapats genom att filtrera och annotera 1,9 miljoner videor från YouTube-Commons till att omfatta 44 000 högkvalitativa och dynamiska videor på engelska.