مدل‌های هوش مصنوعی Grok 4 ایلان ماسک رکوردهای جدیدی را ثبت کردند

شرکت هوش مصنوعی ایلان ماسک، xAI، مدل‌های هوش مصنوعی Grok 4 خود را با اعداد رکوردشکن بنچمارک منتشر کرد. دو مدل هوش مصنوعی جدید، Grok 4 و Grok 4 Heavy وجود دارد و هر دو مدل‌های هوش مصنوعی استدلالی هستند. xAI در کنار مدل‌های جدید، از یک طرح اشتراک جدید به نام SuperGrok Heavy رونمایی کرد که ماهانه 300 دلار هزینه دارد و دسترسی به مدل Grok 4 Heavy را فراهم می‌کند.

در مورد بنچمارک‌ها، Grok 4 از تمام مدل‌های پیشرو هوش مصنوعی از OpenAI، گوگل و Anthropic عملکرد بهتری دارد. در GPQA، Grok 4 امتیاز 87.5٪ و Grok 4 Heavy به 88.9٪ دست یافت. در آزمون AIME 2025، Grok 4 Heavy دقت کامل 100٪ را کسب کرد.

بنچمارک‌های grok 4

در بنچمارک چالش‌برانگیز Humanity’s Last Exam، Grok 4 Heavy به 44.4٪ و Grok 4 به 38.6٪ با پشتیبانی ابزار دست یافت. در این آزمایش، Gemini 2.5 Pro با ابزارها امتیاز ۲۶.۹٪ و OpenAI’s o3 امتیاز ۲۴.۹٪ را کسب کردند. این نشان می‌دهد که Grok 4 در حال حاضر پیشرفته‌ترین مدل هوش مصنوعی استدلالی است.

نکته قابل توجه این است که در بنچمارک ARC-AGI-2 که به تازگی راه‌اندازی شده است، Grok 4 به رکورد ۱۵.۹٪ دست یافت که بالاترین امتیاز تا به امروز است. این امتیاز دو برابر Claude Opus 4 و OpenAI o3 بود. این امر Grok 4 را به مدل هوش مصنوعی پیشرو در بین تمام مدل‌های هوش مصنوعی منتشر شده توسط هر آزمایشگاه هوش مصنوعی تاکنون تبدیل می‌کند. و در بنچمارک قدیمی‌تر ARC-AGI-1، Grok 4 به ۶۶.۷٪ دست یافت که باز هم بالاتر از OpenAI o3-pro و o4-mini است که در دسترس عموم قرار دارند.

xAI می‌گوید Grok 4 Heavy بزرگترین مدل هوش مصنوعی این شرکت است و می‌تواند با چندین عامل برای حل یک مسئله به صورت موازی کار کند. ماسک همچنین گفت که یک مدل کدنویسی هوش مصنوعی در ماه آگوست منتشر خواهد شد، یک عامل چندوجهی برای ماه سپتامبر برنامه‌ریزی شده است و ممکن است سرانجام در ماه اکتبر شاهد یک مدل تولید ویدیو باشیم.

در مجموع، xAI دوباره ثابت کرده است که یکی از آزمایشگاه‌های برجسته هوش مصنوعی است که مدل‌های بنیادی هوش مصنوعی را آموزش می‌دهد و آماده است تا همه بازیگران اصلی هوش مصنوعی در سراسر جهان را به چالش بکشد.

فضای خاص و منحصر به فرد براساس ترند روز معماری، با کاشی دست ساز

نوسان اینترنت ایران، این روزها شدیدتر از همیشه!

خسارت قطعی اینترنت؛ روزی سه هزار میلیارد!

عیار انگشتر چیست و چه تأثیری روی قیمت دارد؟

بهترین روش گرمایش سوله؛ راهنمای جامع انتخاب سیستم‌ گرمایشی صنعتی

مزایا و معایب تلویزیون های شیائومی چیست ؟

4 راه نصب گوگل پلی روی گوشی های هواوی تحریم شده (آپدیت 1401)

مخفی کردن شماره موبایل موقع تماس گرفتن با 4 روش

تعرفه رجیستری گوشی های آیفون در سال 1404

تعرفه رجیستری گوشی های سامسونگ در سال 1404

بهترین مانیتور برای PS5 که باید بخرید!

معرفی و بررسی بهترین مانیتور برای چش

بررسی کامل و تخصصی مزایا و معایب لپ تاپ اچ پی

بهترین پاور برای ماینینگ کدام است؟

8 روش کسب درآمد و استخراج ترون

همکاران ما

با دانوتک آشنا شوید

صفحات

دانوتک رسانه خبری دانش و تکنولوژی