Танилцуулга

Grok3 нь урьдчилан бэлтгэгдсэн загваруудын "төгсгөл" байх болно гэж та бодож байна уу?

Элон Маск болон xAI баг шууд дамжуулалтын үеэр Grok-ийн хамгийн сүүлийн хувилбар болох Grok3-ийг албан ёсоор эхлүүлэв. Энэ үйл явдлын өмнө ихээхэн хэмжээний холбогдох мэдээлэл, Маскийн 24/7 сурталчилгааны сурталчилгааны хамт Grok3-ийн талаарх дэлхийн хүлээлтийг урьд өмнө байгаагүй түвшинд хүргэв. Дөнгөж долоо хоногийн өмнө Маск DeepSeek R1 дээр тайлбар хийх үеэрээ шууд дамжуулалт хийх үеэрээ "xAI илүү сайн хиймэл оюун ухааны загвар гаргах гэж байна" гэж итгэлтэйгээр хэлсэн. Шууд танилцуулсан мэдээллээс харахад Grok3 нь математик, шинжлэх ухаан, програмчлалын жишиг үзүүлэлтээрээ одоогийн бүх үндсэн загваруудыг давж гарсан бөгөөд Маск Grok3-ыг SpaceX-ийн Ангараг гаригт явуулах даалгавартай холбоотой тооцоололд ашиглах болно гэж мэдэгдээд "гурван жилийн дотор Нобелийн шагналын түвшинд ахиц гарна" гэж таамаглаж байсан. Гэсэн хэдий ч эдгээр нь одоогоор зөвхөн Маскийн мэдэгдлүүд юм. Гаргасны дараа би Grok3-ийн хамгийн сүүлийн үеийн бета хувилбарыг туршиж үзээд том загварт зориулсан "аль нь илүү том бэ, 9.11 эсвэл 9.9?" гэсэн сонгодог трик асуултыг тавьсан. Харамсалтай нь, ямар ч шалгуур үзүүлэлт, тэмдэглэгээгүйгээр хамгийн ухаалаг гэгддэг Grok3 энэ асуултад зөв хариулж чадаагүй хэвээр байна. Grok3 асуултын утгыг үнэн зөв тодорхойлж чадсангүй.

Энэхүү шалгалт нь олон найз нөхдийн анхаарлыг маш хурдан татсан бөгөөд санамсаргүй байдлаар гадаадад хийсэн ижил төстэй янз бүрийн туршилтууд Грок3 "Пизагийн налуу цамхгаас аль бөмбөг түрүүлж унах вэ?" гэх мэт физик/математикийн үндсэн асуултуудтай тулалдаж байгааг харуулсан. Тиймээс үүнийг "Энгийн асуултанд хариулахыг хүсдэггүй суут ухаантан" гэж хошин шоглодог.

Grok3 сайн, гэхдээ R1 эсвэл o1-Pro-ээс илүү биш.

Grok3 нь практикт олон нийтлэг мэдлэгийн тестүүд дээр "бүтэлгүйтэлтэй" тулгарсан. XAI-ийн нээлтийн арга хэмжээний үеэр Маск Grok3 программыг ашиглан байнга тоглодог гэж мэдэгдэж байсан Path of Exile 2 тоглоомын дүрүүдийн ангилал болон эффектүүдийг шинжилсэн боловч Grok3-ын өгсөн хариултуудын ихэнх нь буруу байсан. Шууд дамжуулалтын үеэр Маск энэ тодорхой асуудлыг анзаарсангүй.

Энэхүү алдаа нь хилийн чанад дахь интернет хэрэглэгчид Маскийг тоглоом тоглоход "орлох хүн оллоо" гэж шоолж байгаа нэмэлт нотолгоог өгөөд зогсохгүй Grok3-ийн практик хэрэглээнд найдвартай байдлын талаар ихээхэн түгшүүр төрүүлэв. Ийм "суут ухаантны" хувьд түүний бодит чадвараас үл хамааран Ангараг гаригийг судлах ажил гэх мэт маш нарийн төвөгтэй хэрэглээний хувилбаруудад түүний найдвартай байдал эргэлзээтэй хэвээр байна.

Одоогоор Grok3-д долоо хоногийн өмнө хандалт авсан олон тестерүүд болон өчигдөр хэдхэн цагийн турш загварын чадавхийг туршиж үзсэн хүмүүс бүгд "Grok3 сайн, гэхдээ R1 эсвэл o1-Pro-ээс илүү биш" гэсэн нийтлэг дүгнэлтийг харуулж байна.

"Nvidia-г тасалдуулах" талаархи шүүмжлэлтэй үзэл бодол

Хувилбарын үеэр албан ёсоор танилцуулсан PPT дээр Grok3 нь Chatbot Arena-д "хол түрүүлж" байгааг харуулсан боловч энэ нь график техникийг ухаалаг ашигласан: тэргүүлэгчдийн самбар дээрх босоо тэнхлэг нь зөвхөн 1400-1300 онооны мужид үр дүнг жагсаасан бөгөөд туршилтын үр дүнгийн анхны 1%-ийн зөрүү энэ танилцуулгад онцгой ач холбогдолтой харагдаж байна.

Бодит загварын онооны үр дүнд Grok3 нь DeepSeek R1 болон GPT-4.0-аас ердөө 1-2%-иар илүү байгаа нь олон хэрэглэгчдийн практик туршилтын туршлагаас "мэдэгдэхүйц ялгаа байхгүй" гэж үзсэнтэй тохирч байна. Grok3 нь залгамжлагчдаа 1%-2%-иар л давсан.

Хэдийгээр Grok3 нь одоогоор олон нийтэд туршиж үзсэн бүх загваруудаас өндөр оноо авсан ч олон хүн үүнийг нухацтай авч үздэггүй: эцэст нь xAI өмнө нь Grok2-ийн эрин үед "онооны манипуляци" гэж шүүмжлэгдэж байсан. Тэргүүлэгчдийн самбар хариултын уртын хэв маягийг торгосноор оноо нь эрс буурч, салбарын мэргэжилтнүүд "өндөр оноо авсан ч чадвар бага" гэсэн үзэгдлийг байнга шүүмжлэх болсон.

Тэргүүлэгчдийн самбарын "манипуляци" эсвэл зураг чимэглэл дэх дизайны заль мэх зэргээрээ үл хамааран тэд xAI болон Маскийн "багцыг тэргүүлэх" гэсэн ойлголтыг загварчлах чадварыг илчилдэг. Маск эдгээр давуу талуудын төлөө өндөр үнэ төлсөн: хөөргөх үеэр тэрээр 200,000 H100 GPU ашиглаж (шууд дамжуулалтын үеэр "100,000 гаруй" гэж мэдэгдсэн) нийтдээ 200 сая цагийн сургалтын хугацаатай болсон гэж сайрхаж байсан. Энэ нь зарим хүмүүсийг GPU-ийн салбарт өөр нэг чухал ач холбогдолтой гэж үзэж, DeepSeek-ийн салбарт үзүүлэх нөлөөг "тэнэг" гэж үзэхэд хүргэсэн. Зарим хүмүүс тооцооллын хүчин чадал нь загвар сургалтын ирээдүй болно гэж үздэг.

Гэсэн хэдий ч зарим нетизенчүүд DeepSeek V3 үйлдвэрлэхийн тулд 2000 H800 GPU-ийн хоёр сарын турш хэрэглээг харьцуулж үзээд Grok3-ийн сургалтын эрчим хүчний бодит хэрэглээ V3-аас 263 дахин их байна гэж тооцоолжээ. 1402 оноо авсан DeepSeek V3 болон Grok3 хоёрын зөрүү 100 онооноос бага байна. Энэ мэдээллийг гаргасны дараа олон хүн Grok3-ыг "дэлхийн хамгийн хүчтэй" гэсэн цолны цаана тодорхой ахиуц ашиг тустай нөлөө нуугдаж байгааг хурдан ойлгосон - илүү хүчирхэг гүйцэтгэлийг бий болгодог том загваруудын логик нь өгөөж буурч байгааг харуулж эхэлсэн.

"Өндөр оноо авсан боловч чадвар муутай" байсан ч Grok2 нь хэрэглээг дэмжихийн тулд X (Twitter) платформоос асар их хэмжээний өндөр чанартай анхны талын өгөгдөлтэй байсан. Гэсэн хэдий ч Grok3-ийн сургалтанд xAI аяндаа OpenAI-д тулгараад байгаа "тааз"-тай тулгарсан—дээд зэргийн сургалтын өгөгдөл байхгүй байгаа нь загварын чадавхийн ахиу ашиг тусыг хурдан илчилж байна.

Grok3 болон Musk-ийн хөгжүүлэгчид эдгээр баримтуудыг хамгийн түрүүнд ойлгож, таньсан байх магадлалтай тул Маск олон нийтийн мэдээллийн хэрэгслээр хэрэглэгчдийн үзэж байгаа хувилбар нь "зөвхөн бета" хэвээр байгаа бөгөөд "ирэх саруудад бүрэн хувилбар нь гарах болно" гэж байнга дурдаж байсан. Маск Grok3-ийн бүтээгдэхүүний менежерийн үүргийг гүйцэтгэсэн бөгөөд хэрэглэгчдэд сэтгэгдлийн хэсэгт тулгарсан янз бүрийн асуудлын талаар санал хүсэлт өгөхийг санал болгов. Тэрээр дэлхий дээрх хамгийн их дагадаг бүтээгдэхүүний менежер байж магадгүй юм.

Гэсэн хэдий ч нэг өдрийн дотор Grok3-ийн гүйцэтгэл нь "их хэмжээний тооцооллын булчин"-д найдаж, илүү хүчтэй том загваруудыг сургах гэж найдаж буй хүмүүст түгшүүр төрүүлсэн нь эргэлзээгүй: Microsoft-ын олон нийтэд нээлттэй мэдээлэл дээр үндэслэн OpenAI-ийн GPT-4 нь GPT-3-аас арав дахин их буюу 1.8 их наяд параметрийн хэмжээтэй байна. Цуу яриа GPT-4.5-ийн параметрийн хэмжээ үүнээс ч том байж магадгүй гэж үзэж байна.

Загварын параметрийн хэмжээ өсөхийн хэрээр сургалтын зардал ч тэнгэрт хадаж байна. Grok3-ийн оролцоотойгоор GPT-4.5 болон параметрийн хэмжээгээрээ илүү сайн загварын гүйцэтгэлд хүрэхийн тулд үргэлжлүүлэн "мөнгө шатаах" хүсэлтэй бусад өрсөлдөгчид одоо тодорхой харагдаж байгаа таазыг анхаарч, үүнийг хэрхэн даван туулах талаар бодох ёстой. Яг энэ мөчид OpenAI-ийн ахлах эрдэмтэн асан Илья Суцкевер өнгөрсөн арванхоёрдугаар сард "Бидний сайн мэддэг урьдчилсан бэлтгэл дуусна" гэж өмнө нь мэдэгдэж байсан нь хэлэлцүүлэгт дахин гарч, том загвар өмсөгчдийг сургах жинхэнэ замыг олох оролдлогыг өдөөсөн юм.

Ильягийн үзэл бодол энэ салбарт түгшүүр төрүүлэв. Тэрээр хүртээмжтэй шинэ өгөгдлүүд удахгүй шавхагдахыг маш нарийн тооцоолж, өгөгдөл цуглуулах замаар гүйцэтгэлийг цаашид нэмэгдүүлэх боломжгүй нөхцөл байдалд хүргэж, үүнийг чулуужсан түлшний шавхалттай зүйрлэсэн. Тэрээр "Интернэт дэх газрын тос шиг хүний гараар бүтээгдсэн контент нь хязгаарлагдмал нөөц юм" гэж хэлсэн. Суцкеверийн таамагласнаар, дараагийн үеийн загварууд болох бэлтгэлийн өмнөх бэлтгэл нь "хүний тархитай төстэй" "жинхэнэ бие даасан байдал" болон сэтгэн бодох чадварыг эзэмшинэ.

Агуулга нийцүүлэхэд (өмнө нь сурсан загварын агуулгад тулгуурлан) тулгуурласан өнөөгийн урьдчилан бэлтгэгдсэн загваруудаас ялгаатай нь ирээдүйн хиймэл оюун ухааны системүүд хүний тархины "сэтгэлгээ"-тэй төстэй байдлаар асуудлыг шийдвэрлэх арга зүйг сурч, бий болгох боломжтой болно. Хүн мэргэжлийн үндсэн ном зохиолоор тухайн сэдвээр үндсэн ур чадвар эзэмшиж чаддаг бол хиймэл оюун ухааны том загвар нь хамгийн энгийн анхан шатны түвшний үр дүнд хүрэхийн тулд сая сая мэдээллийн цэг шаарддаг. Үг хэллэгийг бага зэрэг өөрчилсөн ч гэсэн эдгээр үндсэн асуултуудыг зөв ойлгохгүй байж болох бөгөөд энэ нь загвар нь оюун ухааны хувьд үнэхээр сайжрахгүй байгааг харуулж байна: өгүүллийн эхэнд дурдсан үндсэн боловч шийдвэрлэх боломжгүй асуултууд нь энэ үзэгдлийн тод жишээ юм.

Дүгнэлт

Гэсэн хэдий ч хэрвээ харгис хэрцгий байдлаас гадна Grok3 үнэхээр "урьдчилан бэлтгэгдсэн загварууд төгсгөлдөө ойртож байна" гэдгийг салбарынханд илчилж чадвал энэ нь тухайн салбарт чухал нөлөө үзүүлэх болно.

Магадгүй Grok3-ийн эргэн тойрон дахь галзуурал аажмаар намжсаны дараа бид Фэй-Фэй Лигийн "тодорхой өгөгдлийн багц дээр өндөр гүйцэтгэлтэй загваруудыг ердөө 50 доллараар тааруулж" эцэст нь AGI хүрэх жинхэнэ замыг олж мэдсэн гэх мэт олон тохиолдлуудыг гэрчлэх болно.