انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است خواندنی ها

بزرگنمايي:

پیام ویژه - دیجیاتو / این مدل جدید باوجود اندازه کوچک‌تر عملکردی بهتر از DeepSeek R1 دارد.
متا همچنان درگیر پاسخ به پرسش‌ها و انتقادات درباره خانواده مدل‌های جدید Llama 4 است اما شرکت انویدیا با معرفی مدل زبان بزرگ (LLM) متن‌باز و قدرتمند، توجه‌ها را به خود جلب کرده است. این مدل که Llama-3.1 Nemotron Ultra نام دارد، بر پایه نسخه قبلی مدل‌های Llama-3.1-405B-Instruct متا توسعه یافته و به گفته انویدیا، عملکردی نزدیک به برترین مدل‌های موجود دارد.
مدل Llama-3.1-Nemotron-Ultra-253B-v1 با 253 میلیارد پارامتر برای وظایفی مانند استدلال پیشرفته، پیروی از دستورات و ایفای نقش دستیار هوش مصنوعی طراحی شده است.
این مدل نخستین‌ بار مارس در کنفرانس سالانه GTC انویدیا معرفی شده بود و اکنون کامل و متن‌باز در پلتفرم Hugging Face در دسترس قرار گرفته است. کد مدل، وزن‌ها و داده‌های پس از آموزش آن نیز عمومی منتشر شده‌اند.

پیام ویژه

بازار

مدل جدید انویدیا با استفاده از فرایند جستجوی معماری عصبی (NAS) توسعه یافته که در آن نوآوری‌هایی مانند حذف لایه‌های توجه، شبکه‌های Fused feedforward و فشرده‌سازی متغیر در ساختار مدل اعمال شده‌اند. این معماری به گونه‌ای طراحی شده که مدل با کاهش مصرف حافظه و منابع محاسباتی، همچنان کیفیت خروجی بالایی ارائه دهد و بتوان آن را فقط با 8 کارت گرافیک H100 اجرا کرد.
علاوه‌بر H100، این مدل با معماری‌های پیشرفته‌تر انویدیا مانند B100 و Hopper نیز سازگار بوده و در حالت‌های دقت BF16 و FP8 عملکرد مطلوبی دارد.
انویدیا برای ارتقای توانایی‌های مدل از فرایند پس‌آموزش چندمرحله‌ای بهره برده که شامل آموزش نظارت‌شده در حوزه‌هایی مانند ریاضی، تولید کد، چت و استفاده از ابزارها بوده است. همچنین برای بهبود عملکرد در دنبال‌کردن دستورات و توانایی استدلال، از الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) استفاده شده است.
عملکرد مدل جدید انویدیا در برابر رقبا

مدل جدید انویدیا در آزمون‌های معتبر مختلف عملکرد خیره‌کننده‌ای داسته است. برای مثال، در آزمون MATH500، عملکرد مدل از 80.40 درصد در حالت عادی به 97 درصد در حالت استدلال افزایش یافته است. همچنین در آزمون AIME25، امتیاز آن از 16.67 درصد به 72.50 درصد و در LiveCodeBench از 29.03 درصد به 66.31 درصد رسیده است.
این مدل در پاسخ به پرسش‌های عمومی (GPQA) در حالت استدلال فعال به امتیاز 76.01 درصد دست یافته که از DeepSeek R1 (با امتیاز 71.5 درصد) پیشی گرفته است. همچنین در آزمون IFEval برای پیروی از دستورات، امتیاز 89.45 درصد در برابر 83.3 درصد رقیب ثبت شده و در LiveCodeBench نیز اندکی بهتر عمل کرده است.
البته باید توجه کرد که مدل DeepSeek R1 در برخی آزمون‌های ریاضی سنگین همچنان بهتر عمل می‌کند، ازجمله در AIME25 با امتیاز 79.8 درصد برابر 72.50 درصد مدل انویدیا.
این مدل از زبان‌های متعددی ازجمله انگلیسی، آلمانی، فرانسوی، ایتالیایی، پرتغالی، هندی، اسپانیایی و تایلندی پشتیبانی می‌کند و برای کاربردهایی مانند چت‌بات، ساخت عامل‌های هوش مصنوعی، تولید کد و تولید با روش بازیابی-افزوده (RAG) قابل‌استفاده است.

چهارشنبه ۲۰ فروردين ۱۴۰۴ - ۲۰:۲۰:۱۳
۳۲ بازديد
پیام ویژه

https://www.payamevijeh.ir/Fa/News/1578976/

هزاران نفر از کارکنان فناوری از سرزمین‌های اشغالی خارج شدند

ماجرای شلیک‌های خونبار در عملیات دلهره آور پلیس

اتحادیه اروپا: همه گزینه‌ها علیه آمریکا همچنان روی میز است

بیمه مرکزی: نداشتن معاینه فنی مانع پرداخت خسارت نیست

آخرين مطالب

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است خواندنی ها

نظرات شما

ساير مطالب

متهم 15 سال بعد از جنایت: من قاتل نیستم!

آغاز پیش فروش بلیت قطار برای اردیبهشت ماه

انواع کلاهبرداری‌های آنلاین و راهکارهایی برای محافظت از کاربران

سرمقاله دنیای اقتصاد/ چه کسانی اقتصاد را شرطی کردند؟

مظلومیت غزه؛ فریادی که جهان نمی‌شنود

عدم گزارش فلج اطفال در کشور طی 24 سال گذشته

قسط بده که دیده شوی!

قیمت خودرو در سراشیبی

ضرب‌ و شتم دانشجویان معترض حامی فلسطین در دانشگاه آمستردام هلند

دولت ترامپ کمک 2.2 میلیارد دلاری به دانشگاه هاروارد را تعلیق کرد

سرمقاله خراسان/ قره قوم، کارویژه دیپلماسی استانی شود

ثبات شکننده شبکه بانکی

مشخصات کلیدی موتورولا Razr Plus (2025) در بنچمارک گیک‌بنچ مشاهده شد

میرسلیم: ترامپ ضمانت نمی دهد مگر از عاقبت نفرت انگیزش در قیامت بترسد

اگر فراموش نکنیم ترامپ با خروج از برجام چه شرایطی رقم زد، دیگر دم از مذاکره نخواهیم زد

بازی Prince of Persia: The Lost Crown برای اندروید و iOS منتشر شد

خیز بن‌سلمان برای هسته‌ای شدن؟

زنی متوهم که تاثیر وحشتناکی بر ترامپ دارد

حرکت در مسیر عقلانیت؛ یک سال پس از وعده صادق1

دیپلمات پیشین: شرایط برای توافق ایران و آمریکا مهیاست

سخنگوی دولت اصلاحات: از ترس شکست نباید مذاکرات را متوقف کرد

رویداد مسقط از پس ژرفای تاریخ

هکرها صدای جعلی ایلان ماسک و مارک زاکربرگ را در تقاطع‌های کالیفرنیا پخش کردند

ارزان شدن موبایل در ایران؛ تأثیر مذاکرات و کاهش نرخ دلار بر بازار گوشی

تقویت ریال با مذاکره

هسته سخت نظام علیه نظام؟

ترامپ به سی ان ان: دیگه اصلا اعتباری ندارین!

جزئیات طرح زیاده‌خواهانه اسرائیل برای توقف دائمی جنگ غزه

حکم معلم‌ خاطی مدرسه سنندج تعلیق شد

ملاک دهک بندی خانوارها چیست؟

برخی کاربران از لرزش شدید دوربین فوق‌عریض گلکسی S25 اولترا گزارش می‌دهند

آیفون 17 پرو مکس را ساختیم؛ نگاه نزدیک به پرچمدار 2025 اپل!

رفتار عجیب ترامپ در حضور نوه‌اش

اوضاع انسانی وخیم در نوار غزه

کنایه سنگین ترامپ به زلنسکی: او جنگ را شروع کرد، سپس برای موشک، التماس کرد

پسر جوان، مظنون اصلی سقوط مرگبار دختر آرایشگر

‌قتل زن سالخوره با ضربه پیک نیک

پیش بینی قیمت طلا و سکه 26 فروردین 1404

رسانه عبری: اسرائیل اشغال خشونت باری در جنوب سوریه دارد

انتشار تصاویر هدف قرار دادن تک‌تیرانداز اسرائیل در شرق غزه

ابراز شگفتی حماس از پیشنهاد مصر برای خلع سلاح مقاومت

معمای 16 ساله درباره ضربه مرگبار در درگیری خیابانی

اولین یارانه نقدی 1404 واریز شد

وضعیت عجیب درب دانشکده علوم سیاسی دانشگاه تهران و پرچم آمریکا/ تصاویر

ترامپ به شکست از چین اعتراف کرد

می‌توان به هر شهروند روزانه یک لیتر بنزین اختصاص داد

دست قوه قضائیه برای برخورد با ابر بدهکاران بانکی بازتر شد

ماجرای دیوید کاپرفیلد، سرکرده باند دزدان پایتخت چه بود؟

تریلر بازی Fatal Fury: City of the Wolves سبک مبارزه هوکوتومارو را نشان می‌دهد

رسوایی جدید نتانیاهو؛ اسراری که سارا در مهمانی زنانه فاش کرد

تبليغات