انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است خواندنی ها

بزرگنمايي:

پیام ویژه - دیجیاتو / این مدل جدید باوجود اندازه کوچک‌تر عملکردی بهتر از DeepSeek R1 دارد.
متا همچنان درگیر پاسخ به پرسش‌ها و انتقادات درباره خانواده مدل‌های جدید Llama 4 است اما شرکت انویدیا با معرفی مدل زبان بزرگ (LLM) متن‌باز و قدرتمند، توجه‌ها را به خود جلب کرده است. این مدل که Llama-3.1 Nemotron Ultra نام دارد، بر پایه نسخه قبلی مدل‌های Llama-3.1-405B-Instruct متا توسعه یافته و به گفته انویدیا، عملکردی نزدیک به برترین مدل‌های موجود دارد.
مدل Llama-3.1-Nemotron-Ultra-253B-v1 با 253 میلیارد پارامتر برای وظایفی مانند استدلال پیشرفته، پیروی از دستورات و ایفای نقش دستیار هوش مصنوعی طراحی شده است.
این مدل نخستین‌ بار مارس در کنفرانس سالانه GTC انویدیا معرفی شده بود و اکنون کامل و متن‌باز در پلتفرم Hugging Face در دسترس قرار گرفته است. کد مدل، وزن‌ها و داده‌های پس از آموزش آن نیز عمومی منتشر شده‌اند.

پیام ویژه

بازار

مدل جدید انویدیا با استفاده از فرایند جستجوی معماری عصبی (NAS) توسعه یافته که در آن نوآوری‌هایی مانند حذف لایه‌های توجه، شبکه‌های Fused feedforward و فشرده‌سازی متغیر در ساختار مدل اعمال شده‌اند. این معماری به گونه‌ای طراحی شده که مدل با کاهش مصرف حافظه و منابع محاسباتی، همچنان کیفیت خروجی بالایی ارائه دهد و بتوان آن را فقط با 8 کارت گرافیک H100 اجرا کرد.
علاوه‌بر H100، این مدل با معماری‌های پیشرفته‌تر انویدیا مانند B100 و Hopper نیز سازگار بوده و در حالت‌های دقت BF16 و FP8 عملکرد مطلوبی دارد.
انویدیا برای ارتقای توانایی‌های مدل از فرایند پس‌آموزش چندمرحله‌ای بهره برده که شامل آموزش نظارت‌شده در حوزه‌هایی مانند ریاضی، تولید کد، چت و استفاده از ابزارها بوده است. همچنین برای بهبود عملکرد در دنبال‌کردن دستورات و توانایی استدلال، از الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) استفاده شده است.
عملکرد مدل جدید انویدیا در برابر رقبا

مدل جدید انویدیا در آزمون‌های معتبر مختلف عملکرد خیره‌کننده‌ای داسته است. برای مثال، در آزمون MATH500، عملکرد مدل از 80.40 درصد در حالت عادی به 97 درصد در حالت استدلال افزایش یافته است. همچنین در آزمون AIME25، امتیاز آن از 16.67 درصد به 72.50 درصد و در LiveCodeBench از 29.03 درصد به 66.31 درصد رسیده است.
این مدل در پاسخ به پرسش‌های عمومی (GPQA) در حالت استدلال فعال به امتیاز 76.01 درصد دست یافته که از DeepSeek R1 (با امتیاز 71.5 درصد) پیشی گرفته است. همچنین در آزمون IFEval برای پیروی از دستورات، امتیاز 89.45 درصد در برابر 83.3 درصد رقیب ثبت شده و در LiveCodeBench نیز اندکی بهتر عمل کرده است.
البته باید توجه کرد که مدل DeepSeek R1 در برخی آزمون‌های ریاضی سنگین همچنان بهتر عمل می‌کند، ازجمله در AIME25 با امتیاز 79.8 درصد برابر 72.50 درصد مدل انویدیا.
این مدل از زبان‌های متعددی ازجمله انگلیسی، آلمانی، فرانسوی، ایتالیایی، پرتغالی، هندی، اسپانیایی و تایلندی پشتیبانی می‌کند و برای کاربردهایی مانند چت‌بات، ساخت عامل‌های هوش مصنوعی، تولید کد و تولید با روش بازیابی-افزوده (RAG) قابل‌استفاده است.

چهارشنبه ۲۰ فروردين ۱۴۰۴ - ۲۰:۲۰:۱۳
۳۳ بازديد
پیام ویژه

https://www.payamevijeh.ir/Fa/News/1578976/

هزاران نفر از کارکنان فناوری از سرزمین‌های اشغالی خارج شدند

ماجرای شلیک‌های خونبار در عملیات دلهره آور پلیس

اتحادیه اروپا: همه گزینه‌ها علیه آمریکا همچنان روی میز است

بیمه مرکزی: نداشتن معاینه فنی مانع پرداخت خسارت نیست

آخرين مطالب

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است خواندنی ها

نظرات شما

ساير مطالب

چمران: مطالعات تراموا هنوز به شورای شهر نرسیده است

شورای اطلاع‌نرسانی دولت

بازداشت جنجالی دانشجوی فلسطینی در آمریکا

ورود 8 همت پول حقیقی به بازار سهام از ابتدای سال

مارک زاکربرگ به دادگاه رفت؛ تلاش متا برای جلوگیری از تجزیه اینستاگرام و واتس‌اپ

معاون ترامپ جام قهرمانی فوتبال آمریکایی را شکست!

دیدار مدیرکل بنیاد گلستان با جامعه ایثارگری شهرستان بندرترکمن

لغو پرواز تهران - اردبیل به‌خاطر شرایط جوی

کارشناس اقتصادی: 55 درصد هزینه مردم تهران صرف مسکن می‌شود

مهمان ویژه در میانه مذاکرات

سرمقاله ایران/ به بهانه بزرگداشت روز جهانی هنر؛ 15 آوریل 2025

موافقان و مخالفان تغییر ساعت رسمی

چاقوکشی مرگبار بچه مدرسه ای برای هیچ!

10 مصوبه شورای عالی اشتغال؛ تاکید بر تسریع تسهیلات اشتغالی

سند تپه تاریخی هگمتانه پس از 50 سال به نام دولت صادر شد

گردوخاک به پایتخت هم می‌رسد؟

تاریخ رونمایی و طراحی کامل وان‌پلاس 13T با انتشار تیزر رسمی مشخص شد

توافق مرحله‌ای در راه است؟

رئیس جامعه تورگردانان: امسال سفر مردم با تورهای خارجی به کشورهای دیگر خیلی کم شد

سند تپه تاریخی هگمتانه صادر شد

شدت گردوخاک در کرکوک عراق، صبح را به شب تبدیل کرد

استان‌هایی که در ایام نوروز بیشترین جانباختگان را داشتند

عضو اتاق بازرگانی: بخاطر شمال رفتن مردم، چرا ایام نوروز 20 روز مسیر و جاده‌ها را می‌بندید و جلوی ترانزیت را می‌گیرید؟

قیمت میوه و صیفی‌ در بازار؛ کاهش قیمت نوبرانه‌ها تا روزهای آینده

ماجرای افزایش چندبرابری نرخ سوخت هواپیما

بحران جهانی کاهش درآمد اپراتورها و فناوری‌محور شدن آنها

سرمقاله اعتماد/ ما، توسعه و تجربه ویتنام

ماموریت ویژه فرستاده ریاض در قلب بیروت

پیامی که نباید شنیده می‌شد!

جنگ علیه بیمارستان‌ها...

‏هشدار درباره شبکه آلوده رؤیافروشی و تضعیف تیم مذاکره‌کننده

پنج استان با بالاترین مصدومین ترافیکی در ایام نوروز

سرمقاله آرمان ملی/ اقتصاد و ادامه مذاکرات

جزئیات پیشنهاد رژیم صهیونیستی درباره آتش‌بس در غزه

نماینده سابق کنگره آمریکا: قذافی قربانی بازی سیاسی کلینتون شد

وجود 9.8 میلیون سالمند در کشور

وعده ساخت 300 هزار مسکن برای کارگران در بازه زمانی 3 ساله

مواضع مالیخولیایی ترامپ درباره مذاکره

اختلال در پروازهای اهواز به‌دلیل گرد و غبار؛ سه پرواز لغو شد

دستگیری مردی که زنان میانسال را مورد آزار و اذیت قرار می‌داد

همبستگی دانشگاهیان با مردم غزه

طوفان گرد و خاک در آستان قدس علوی نجف اشرف

23 استان امروز و فردا بارانی است

تمهیدات ایمنی برای سفرهای اتوبوسی

نخستین عرضه اولیه امسال کشف قیمت شد

کیهان: آقای کری! ایران گوشه رینگ نیست، آمریکا در حال فروپاشی است

سرمقاله سازندگی/ توافقی برای ایران

اپل نام کسب‌و‌کار تبلیغاتی‌اش را به Apple Ads تغییر داد

پلیس، حسن رحیم پور ازغدی را دستگیر می کند؟!

سلاح‌های جدید مصر، تل‌آویو را به وحشت انداخت

تبليغات