
شرکت هوش مصنوعی ایلان ماسک، xAI، مدلهای هوش مصنوعی Grok 4 خود را با اعداد رکوردشکن بنچمارک منتشر کرد. دو مدل هوش مصنوعی جدید، Grok 4 و Grok 4 Heavy وجود دارد و هر دو مدلهای هوش مصنوعی استدلالی هستند. xAI در کنار مدلهای جدید، از یک طرح اشتراک جدید به نام SuperGrok Heavy رونمایی کرد که ماهانه 300 دلار هزینه دارد و دسترسی به مدل Grok 4 Heavy را فراهم میکند.
در مورد بنچمارکها، Grok 4 از تمام مدلهای پیشرو هوش مصنوعی از OpenAI، گوگل و Anthropic عملکرد بهتری دارد. در GPQA، Grok 4 امتیاز 87.5٪ و Grok 4 Heavy به 88.9٪ دست یافت. در آزمون AIME 2025، Grok 4 Heavy دقت کامل 100٪ را کسب کرد.
بنچمارکهای grok 4

در بنچمارک چالشبرانگیز Humanity’s Last Exam، Grok 4 Heavy به 44.4٪ و Grok 4 به 38.6٪ با پشتیبانی ابزار دست یافت. در این آزمایش، Gemini 2.5 Pro با ابزارها امتیاز ۲۶.۹٪ و OpenAI’s o3 امتیاز ۲۴.۹٪ را کسب کردند. این نشان میدهد که Grok 4 در حال حاضر پیشرفتهترین مدل هوش مصنوعی استدلالی است.
نکته قابل توجه این است که در بنچمارک ARC-AGI-2 که به تازگی راهاندازی شده است، Grok 4 به رکورد ۱۵.۹٪ دست یافت که بالاترین امتیاز تا به امروز است. این امتیاز دو برابر Claude Opus 4 و OpenAI o3 بود. این امر Grok 4 را به مدل هوش مصنوعی پیشرو در بین تمام مدلهای هوش مصنوعی منتشر شده توسط هر آزمایشگاه هوش مصنوعی تاکنون تبدیل میکند. و در بنچمارک قدیمیتر ARC-AGI-1، Grok 4 به ۶۶.۷٪ دست یافت که باز هم بالاتر از OpenAI o3-pro و o4-mini است که در دسترس عموم قرار دارند.
xAI میگوید Grok 4 Heavy بزرگترین مدل هوش مصنوعی این شرکت است و میتواند با چندین عامل برای حل یک مسئله به صورت موازی کار کند. ماسک همچنین گفت که یک مدل کدنویسی هوش مصنوعی در ماه آگوست منتشر خواهد شد، یک عامل چندوجهی برای ماه سپتامبر برنامهریزی شده است و ممکن است سرانجام در ماه اکتبر شاهد یک مدل تولید ویدیو باشیم.
در مجموع، xAI دوباره ثابت کرده است که یکی از آزمایشگاههای برجسته هوش مصنوعی است که مدلهای بنیادی هوش مصنوعی را آموزش میدهد و آماده است تا همه بازیگران اصلی هوش مصنوعی در سراسر جهان را به چالش بکشد.