انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است خواندنی ها

بزرگنمايي:

پیام ویژه - دیجیاتو / این مدل جدید باوجود اندازه کوچک‌تر عملکردی بهتر از DeepSeek R1 دارد.
متا همچنان درگیر پاسخ به پرسش‌ها و انتقادات درباره خانواده مدل‌های جدید Llama 4 است اما شرکت انویدیا با معرفی مدل زبان بزرگ (LLM) متن‌باز و قدرتمند، توجه‌ها را به خود جلب کرده است. این مدل که Llama-3.1 Nemotron Ultra نام دارد، بر پایه نسخه قبلی مدل‌های Llama-3.1-405B-Instruct متا توسعه یافته و به گفته انویدیا، عملکردی نزدیک به برترین مدل‌های موجود دارد.
مدل Llama-3.1-Nemotron-Ultra-253B-v1 با 253 میلیارد پارامتر برای وظایفی مانند استدلال پیشرفته، پیروی از دستورات و ایفای نقش دستیار هوش مصنوعی طراحی شده است.
این مدل نخستین‌ بار مارس در کنفرانس سالانه GTC انویدیا معرفی شده بود و اکنون کامل و متن‌باز در پلتفرم Hugging Face در دسترس قرار گرفته است. کد مدل، وزن‌ها و داده‌های پس از آموزش آن نیز عمومی منتشر شده‌اند.

پیام ویژه

بازار

مدل جدید انویدیا با استفاده از فرایند جستجوی معماری عصبی (NAS) توسعه یافته که در آن نوآوری‌هایی مانند حذف لایه‌های توجه، شبکه‌های Fused feedforward و فشرده‌سازی متغیر در ساختار مدل اعمال شده‌اند. این معماری به گونه‌ای طراحی شده که مدل با کاهش مصرف حافظه و منابع محاسباتی، همچنان کیفیت خروجی بالایی ارائه دهد و بتوان آن را فقط با 8 کارت گرافیک H100 اجرا کرد.
علاوه‌بر H100، این مدل با معماری‌های پیشرفته‌تر انویدیا مانند B100 و Hopper نیز سازگار بوده و در حالت‌های دقت BF16 و FP8 عملکرد مطلوبی دارد.
انویدیا برای ارتقای توانایی‌های مدل از فرایند پس‌آموزش چندمرحله‌ای بهره برده که شامل آموزش نظارت‌شده در حوزه‌هایی مانند ریاضی، تولید کد، چت و استفاده از ابزارها بوده است. همچنین برای بهبود عملکرد در دنبال‌کردن دستورات و توانایی استدلال، از الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) استفاده شده است.
عملکرد مدل جدید انویدیا در برابر رقبا

مدل جدید انویدیا در آزمون‌های معتبر مختلف عملکرد خیره‌کننده‌ای داسته است. برای مثال، در آزمون MATH500، عملکرد مدل از 80.40 درصد در حالت عادی به 97 درصد در حالت استدلال افزایش یافته است. همچنین در آزمون AIME25، امتیاز آن از 16.67 درصد به 72.50 درصد و در LiveCodeBench از 29.03 درصد به 66.31 درصد رسیده است.
این مدل در پاسخ به پرسش‌های عمومی (GPQA) در حالت استدلال فعال به امتیاز 76.01 درصد دست یافته که از DeepSeek R1 (با امتیاز 71.5 درصد) پیشی گرفته است. همچنین در آزمون IFEval برای پیروی از دستورات، امتیاز 89.45 درصد در برابر 83.3 درصد رقیب ثبت شده و در LiveCodeBench نیز اندکی بهتر عمل کرده است.
البته باید توجه کرد که مدل DeepSeek R1 در برخی آزمون‌های ریاضی سنگین همچنان بهتر عمل می‌کند، ازجمله در AIME25 با امتیاز 79.8 درصد برابر 72.50 درصد مدل انویدیا.
این مدل از زبان‌های متعددی ازجمله انگلیسی، آلمانی، فرانسوی، ایتالیایی، پرتغالی، هندی، اسپانیایی و تایلندی پشتیبانی می‌کند و برای کاربردهایی مانند چت‌بات، ساخت عامل‌های هوش مصنوعی، تولید کد و تولید با روش بازیابی-افزوده (RAG) قابل‌استفاده است.

چهارشنبه ۲۰ فروردين ۱۴۰۴ - ۲۰:۲۰:۱۳
۳۴ بازديد
پیام ویژه

https://www.payamevijeh.ir/Fa/News/1578976/

نشنال اینترست: بودجه دفاعی چین فراتر از تصورات است

آیفون تاشو فقط از نمایشگر سامسونگ استفاده خواهد کرد

السودانی: حشد الشعبی بخشی از دستگاه امنیتی عراق است

واکنش قالیباف به تذکرات نمایندگان درباره قطعی و ناترازی برق

آخرين مطالب

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است خواندنی ها

نظرات شما

ساير مطالب

نجات 20 نفر از آتش‌ سوزی یک ساختمان مسکونی 5 طبقه

پیش بینی قیمت دلار 28 فروردین 1404

رشد انفجاری ثبت سفارش در کارخانه‌های TSMC آریزونا

تصاویر ارتش اسرائیل از عملیات ترور شهید محمد زکارنه

وعده اسرائیل برای ادامه اشغالگری در غزه، لبنان و سوریه

گفتگو با دزدان خانه علیرضا دبیر؛ اشتباه کردیم قصد سرقت نداشتیم!

اکبری دبیر انجمن تولیدکنندگان قند ایران: سال سخت شکری

برنامه امضای تفاهم‌نامه مشترک با دانشگاه صنعتی نوشیروانی بابل توسط بنیاد شهید و امور ایثارگران مازندران

کشف جسد دختر جوان در منطقه جنگلی

چین از ترامپ خواست دست از تهدید و باج‌گیری بردارد

اسرائیل مدعی ترور 40 نفر از سران حماس طی یک ماه اخیر شد

اسیر اسرائیلی خطاب به نتانیاهو: می‌خواهید چه بلایی بر سر ما بیاورید؟

مصدومیت 6 دانش آموز بر اثر ریزش سقف مدرسه

بیتس از کابل های شارژ مختلف با انواع رنگ‌بندی رونمایی کرد

توقیف خودروی متخلف به دلیل حرکات نامتعارف رانندگی

تا 200 میلیون تسهیلات بدون ضامن ویپاد؛ دیجیتال بانک پاسارگاد

بازدهی بورس در هفته چهارم فروردین 1404

استرداد بیش از یک میلیون قطعه اموال سرقتی به صاحبان‌شان

تناقضات درباره تعرفه خودروهای وارداتی

تکذیب خبر تعرفه واردات خودرو توسط رئیس امور اطلاع‌رسانی دولت

اسرائیل 10 اسیر اهل غزه را آزاد کرد

ونس حمله آمریکا به عراق را گردن اروپا انداخت!

آلمان: غزه متعلق به فلسطینیان است

طلا و سکه روند نزولی به خود گرفتند؛ دلار به کانال 87 هزارتومانی بازگشت

سردرگمی پادو‌های فارسی زبان ترامپ در تحلیل مذاکرات مسقط

افشای توطئه 5 مرحله‌ای اسرائیل برای پاک‌سازی غزه

روبیو و ویتکاف به پاریس می‌روند؛ اوکراین هدف گفتگوها

قصد آمریکا برای ایجاد سازوکار نظامی مشترک ترکیه و اسرائیل در سوریه

آنروا: 2.3 میلیون فلسطینی در آستانه قحطی در غزه هستند

در دیدار بارزانی و السودانی در سلیمانیه چه گذشت؟

پیام اسیر اسرائیلی به نتانیاهو: خون من گردن توست

کشف کالای قاچاق 3 میلیاردی در انبار توشه راه‌آهن

داستان سریال پایتخت در واقعیت اتفاق افتاد؛ کشف شهاب سنگ در اصفهان

قدرت‌‏های عربی این بار از توافق تهران و واشنگتن حمایت می‏‌کنند

پزشکی که 15 بیمار را به قتل رساند

دلیل اخراج 2 مقام بلند پایه پنتاگون اعلام شد

قاتل خاموش جان زن 65 ساله را گرفت

سامسونگ Auto رقیب جدید Android Auto و CarPlay اپل است

تندروها 25 درصد دارایی ایران را به باد دادند

آیین تکریم و معارفه مدیرکل بنیاد شهید و امور ایثارگران استان اردبیل برگزار شد

چشم پوشی مرکز توسعه تجارت الکترونیکی از یک تخلف بزرگ

فرصتی برای مذاکره‏‏‌کنندگان قدیمی

حدود 25 هزار نفر ساعت بر روی اصلاح قوانین ایثارگران کار کردند

رهایی 2 پسر بچه از دست گروگان‌گیران توسط پلیس

مورچه‌دزدها در کنیا محاکمه شدند

افزایش باورنکردنی تعرفه واردات خودروهای برقی و هیبریدی؛ 100 درصد!

چگونه به عمان رسیدیم

خودربایی دختر جوان برای اخاذی از خانواده و نجات پسر مورد علاقه‌اش

رفیق قالیباف، مورد قبول اصلاح‌‎طلبان؛ استاندار خراسان رضوی کیست؟

امارات قصد حمله زمینی به یمن را تکذیب کرد

تبليغات