Müasir böyük dil modeli (LLM) təlimi, adətən 100 milyard və ya daha çox parametr ilə, minlərlə akselerator və böyük token korpusları ilə günlərdən aylara qədər davam edir. Bu miqyasda uğur adətən iki əsas nəticəyə endirilir: Sürət: sistemin təlim məlumatlarını nə qədər sürətlə istehlak etdiyini ölçür, adətən token/saniyədə olur. Öyrənmə: vaxt vahidinə görə nə qədər irəliləyiş əldə edildiyini göstərir, adətən itki ilə divar saatı vaxtına qarşı izlənilir. Bu məqalə öyrənmə/keyfiyyət oxunu kənara qoyaraq, sistem sualına fokuslanır: böyük miqyaslı təlimdə “sürətli” nə deməkdir və bunu iş yükündən asılı olmayan şəkildə necə ölçürük? Xam throughput (token/saniyə) əvəzolunmazdır. Lakin, bu da kontekstdən asılıdır: GPU sayı, şəbəkə topologiyası, saxlama bant genişliyi, məlumat modalitesi, ardıcıl uzunluq, model arxitekturası və qlobal batch ölçüsü kimi hiperparametrlərlə dəyişir. Başqa sözlə, throughput effektivliyin normallaşdırılmış ölçüsü deyil, nəticəsidir. Təlim yığınlarının müqayisəsini dəstəkləyən və mühəndislik prioritetləşməsini yönləndirən bir metrik üçün, irəliləyişi mütləq sürət əvəzinə, reallaşdırılmış potensialın bir hissəsi kimi ifadə edən bir effektivlik baxışı lazımdır. Goodput-a keçidin motivasiyası budur: “nə qədər token/saniyə müşahidə etdik?”-dən “sistemin potensialının hansı hissəsi faydalı təlim irəliləyişinə çevrildi?”-yə qədər keçməkdir. Google formal olaraq ML Productivity Goodput-u son-təlim sistemləri üçün effektivlik metriki kimi təqdim etdi və goodput-u hesablamaq və badput (itirilmiş məhsuldarlıq) mənbələrini diaqnoz etmək üçün API-nə əsaslanan yanaşma təmin etdi.
Throughput-dan goodput-a: normallaşdırmanın əhəmiyyəti. Throughput qeyd etmək və ünsiyyət qurmaq asandır, lakin bir neçə müstəqil fenomeni qarışdırır: Etibarlılıq: İş davamlı qalır, yoxsa təkrar-təkrar yenidən başlayır? Bərpa və dayanıqlıq: Nə zaman uğursuzluq olur, nə qədər irəliləyiş itirilir və nə qədər sürətlə bərpa olunur? Hesablama Effektivliyi: İş “işlədikdə,” GPU-lar modeli riyazi olaraq səmərəli şəkildə yerinə yetirirlər, yoxsa durğunluqlar və əlavə işlər səbəbindən az istifadə olunur? Təlim prosesi “sürətli” (sağlam ikən yüksək token/saniyə) görünə bilər və yenə də tez-tez kəsildikdə, yavaş bərpa olunduqda və ya az hesablama effektivliyində işlədikdə divar saatı üzrə tamamlanma müddətində “yavaş” ola bilər. Goodput-un əsas dəyəri, itirilmiş vaxt və israf edilmiş hesablama üçün açıqca hesab verməyə məcbur etməsi və bu itkiləri müvəffəqiyyətlərə aid etməsidir.
Təlim goodput-u nədir? Təlim goodput-u nəzəri təlim potensialının faydalı təlim irəliləyişinə çevrildiyi hissəsidir. Əməliyyatda bu, [0,1] arasında bir rəqəmdir, burada: 1.0 işin fasiləsiz məhsuldar olduğunu, kəsilmə, bərpa, yaddaş yükü və ya hesablama az istifadə olunmasına görə əhəmiyyətli vaxt itirilmədən olduğunu göstərir. 0.5 təxminən potensialın yarısının olduğunu ifadə edir.




