OpenAI GPT-5.4 yeni rekordlar qırır

OpenAI-nin yeni GPT-5.4 modeli peşəkar benchmarklarda yeni rekordlar qırır. Model, kompüterdən doğma istifadə və 1 milyon token pəncərəsi kimi yeni xüsusiyyətlər təqdim edir.

Şəkil: OpenAI. Yeni model, kompüterdən doğma istifadəni, 1 milyon token kontekst pəncərəsini və yenidən işlənmiş alət çağırış sistemini təqdim edir. Anthropic və Google-u geridə qoyub-qoymadığı isə hələ dəqiq deyil. OpenAI son dövrlərdə o qədər sürətli irəliləyir ki, son modelini təqdim etdiyi gün növbəti modelini də anons etdi. Cəmi iki gün əvvəl şirkət GPT-5.3 Instant-i buraxmışdı. Cümə axşamı günü isə GPT-5.4 modelini təqdim etdi - bu, əhəmiyyətli dərəcədə böyük bir buraxılışdır və ABŞ Müdafiə Nazirliyi ilə müqaviləsi istifadəçi ləğvlərinə və Anthropic CEO-su ilə ictimai mübahisəyə səbəb olan bir vaxtda gəlir.

Model özü, ən azından, əsl irəliləyişdir. OpenAI, GPT-5.4-ü "peşəkar iş üçün ən bacarıqlı və səmərəli sərhəd modelimiz" kimi təqdim edir və onu üç konfiqurasiyada buraxıb. Standart versiya ümumi istifadə üçün, uzadılmış düşüncə zənciri məntiqi tələb edən tapşırıqlar üçün GPT-5.4 Thinking və ən yüksək tələbatlı iş yükü üçün GPT-5.4 Pro təqdim olunub. ChatGPT-də Thinking bu gündən etibarən Plus, Team və Pro abunəçiləri üçün mövcuddur və GPT-5.2 Thinking-in yerini alır. Pro, aylıq 200 dollar olan ChatGPT Pro və Enterprise səviyyələrinə məxsusdur.

Benchmark hekayəsi diqqətəlayiqdir. OpenAI-nin daxili qiymətləndirmə sistemi olan GDPval-də, hüquqi təhlildən maliyyə modelləşdirilməsinə qədər 44 peşə üzrə bilik işləri tapşırıqlarında performansı ölçən GPT-5.4, müqayisələrin 83%-ində sənaye mütəxəssislərini ya uyğunlaşdırıb, ya da üstələyib, bu rəqəm GPT-5.2 üçün 70.9% idi. OSWorld-Verified-də, ekran görüntülərindən və klaviatura və siçan girişi ilə masaüstü mühiti idarə etmək qabiliyyətini ölçən model, GPT-5.4 75% uğur nisbətinə çatıb, bu da insan performans benchmarkının 72.4%-dən yüksəkdir və GPT-5.2-nin 47.3%-dən əhəmiyyətli bir sıçrayışdır. O, həmçinin investisiya bankçılığı, konsultasiya və korporativ hüquq kimi davamlı peşəkar tapşırıqlar üzrə agentləri qiymətləndirmək üçün nəzərdə tutulmuş Mercor’s APEX-Agents benchmarkında birinci yeri tutmuşdur.

OpenAI, həmçinin, fərdi faktiki iddiaların GPT-5.2 ilə müqayisədə 33% daha az səhv olma ehtimalı olduğunu və ümumi cavabların 18% daha az səhv ehtiva etdiyini bildirir. Bu rəqəmlər öz-özünə hesabatlıdır və benchmark müqayisələri daha yeni GPT-5.3 ilə deyil, GPT-5.2 ilə aparılır - başlıqdakı rəqəmləri oxuyarkən qeyd edilməli bir nümunədir.

Kompüter istifadəsi və 1 milyon token pəncərəsi. Ən əhəmiyyətli yeni qabiliyyət, Codex və API-də doğma kompüter istifadəsidir. GPT-5.4, bunu quraşdırılmış şəkildə təqdim edən ilk ümumi təyinatlı OpenAI modelidir ki, bu da agentlərin proqram təminatını idarə edə, fayl sistemlərini idarə edə və tətbiqlər arasında çox addımlı iş axınlarını həyata keçirə biləcəyini təmin edir. Bu, əvvəllər modellərin üzərində yerləşdirilmiş ixtisaslaşmış agentik çərçivələrlə əlaqələndirilən bir davranış növüdür. Avtomatlaşdırma boru kəmərləri qurmaq istəyən inkişafçılar üçün əhəmiyyət daha azdır.

OpenAI-nin GPT-5.4 modeli yeni rekordlar qırır

Oxşar xəbərlər

Yeni İonogel: Çəkisindən 5,000 Dəfə Artıq Yüklə Dözümlü, Dəriyə Yumşaq

Generativ Süni İntellektdən Mühafizə: Rəqəmsal Məzmun Təhlükədədir!

Pekində Avtomobil Sərgisində Çin Avtomobil İstehsalçıları Texnologiya Şousu Keçirirlər

Eyni teqdən məqalələr