TGTGInsighttelegram intelligenceLIVE / telegram public index
← CV muhandis kundaligi
CV muhandis kundaligi avatar

TGINSIGHT POST

Post #47

@learncvuz

CV muhandis kundaligi

Vaatamised487Vaatamiste arv
Avaldatud18. juuni18.06.2025, 06:12
Sisu

Postituse sisu

Yangi, dasturlash bo‘yicha benchmark paydo bo‘ldi — LLM modellar unda 0% natija ko‘rsatmoqda 😐 LiveCodeBench Pro — bu eng so‘nggi va murakkab dasturlash masalalaridan tashkil topgan yangi test to‘plami bo‘lib, Codeforces, ICPC va IOI (Informatika bo‘yicha Xalqaro Olimpiada) kabi platformalardan olingan. Ushbu masalalarni bevosita o‘zlari olimpiyadalarda g‘olib yoki sovrindor bo‘lganlar tanlagan va belgilagan. Natijalar: hattoki eng kuchli til modeli hisoblangan o4-mini-high ham taxminan 2100 reyting atrofida to‘xtab qolmoqda. Bu esa inson grossmeysteri darajasidan (taxminan 2700) ancha past. Model faqat oddiy va ayrim o‘rta darajadagi masalalarni hal qila oladi. Haqiqiy murakkab masalalarga kelganda esa — barchasi nol, butunlay hech qanday yechim yo‘q. Model kombinatorika va dinamik dasturlash bo‘yicha muammolarni nisbatan yaxshi yechadi. Ammo strategik fikrlash va edge-case (noyob chegara holatlari) bilan ishlashda ular oddiy ekspert yoki hatto maktab o‘quvchisi darajasida. Yana bir qiziq fakt: insonlar odatda xatoni algoritmda emas, balki uni implementatsiya (realizatsiya) qilishda, ya'ni e'tiborsizlik yoki sintaksis nuqtai nazaridan qiladi. Modellar esa, aksincha, ko‘pincha xatoni asosiy g‘oyaning o‘zida qiladi — ya'ni masalaga qanday yondashish kerakligini tushunmaydi. Xulosa: hozircha olimpiyadachilar o‘rnini hech bir LLM model bosa olmayapti.😁 Gazini bosamiz olimpiadachilar, You're irreplaceable — we checked, even AI gave up.