I det här inlägget undersöker Hugging Face-teamet effektiviteten av lagringsarkitekturen för Parquet-filer på Hub. De analyserar hur olika typer av ändringar i Parquet-filer, som tillägg, modifieringar och raderingar, påverkar möjligheten till datadeduplikation. De upptäcker att tillägg dedupliceras väl, medan modifieringar och raderingar leder till mer nydata på grund av hur Parquet-formatet är uppbyggt. Som en möjlig lösning föreslår de att använda innehållsdefinierade radgrupper istället för fasta storleksgrupper. Slutligen utforskar de potentiella förbättringar av Parquet-formatets dedupliceringsprestanda, antingen genom formatändringar eller genom att omskriva filer före uppladdning.