مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند خواندنی ها

بزرگنمايي:

پیام ویژه - دیجیاتو / طبق تست‌های OpenAI، 2 مدل استدلا‌ل‌گر جدید این شرکت، o3 و o4-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.
چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.
براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.
بازار
درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدل‌های هوش مصنوعی جدید OpenAI
نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.
OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

شنبه ۳۰ فروردين ۱۴۰۴ - ۱۴:۵۰:۲۵
۷ بازديد
پیام ویژه

https://www.payamevijeh.ir/Fa/News/1582534/

نشنال اینترست: بودجه دفاعی چین فراتر از تصورات است

آیفون تاشو فقط از نمایشگر سامسونگ استفاده خواهد کرد

السودانی: حشد الشعبی بخشی از دستگاه امنیتی عراق است

واکنش قالیباف به تذکرات نمایندگان درباره قطعی و ناترازی برق

آخرين مطالب

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند خواندنی ها

نظرات شما

ساير مطالب

انتصاب مدیرکل حوزه ریاست بنیاد شهید و امور ایثارگران

«فارس» در صدر مصدومان ترافیکی نوروز امسال

هشدار دانشمندان نسبت به عملکرد سی‌تی‌اسکن‌ها در بدن

اعلام زمان برگزاری آزمون نهایی یازدهمی‌ها و دوازدهمی‌ها

آیین بیل‌گردانی مردم «نیم‌ور» با قدمتی 2 هزار ساله

جزئیات افزایش ضریب حقوق کارمندان دولت در 1404

هزینه 25 میلیارد دلاری برای رفع ناترازی انرژی

درگیری پلیس اسرائیل با معترضان صهیونیست

سرمقاله دنیای اقتصاد/ راه دشوار مذاکره

توقیف بیش از 4 هزار خودروی متخلف در تهران

ویدئویی از سرقت وحشیانه موبایل از یک خانم

بازی Escape from Tarkov پس از 8 سال دسترسی زودهنگام، امسال عرضه خواهد شد

سرمقاله خراسان/ رابطه قاچاق و افزایش قیمت دلار!

افراد مسلح در نیجریه 56 تن را کشتند

وزیر تعاون: دولت باید از بنگاه‌داری خارج شود

تظاهرات گسترده علیه ترامپ در ایالت‌های آمریکا

هشدار نسبت به فروش داروهای یخچالی در ویترین فضای مجازی

جو آرام و افزایش دما در اکثر مناطق کشور

نرخ جدید کرایه‌های مترو، اتوبوس و تاکسی از فردا اعمال می‌شود

یک بام و دو هوای مسئولان در تامین برق چاه‌های آب کشاورزی

سی‌ان‌ان: ترامپ دوباره ویتکاف را به مسکو می‌فرستد

آمریکا طی سه ساعت 38 بار به یمن حمله کرد

حمله هوایی آمریکا به یمن

ادامه اعتراضات در ترکیه

کشف 80 میلیارد ریال طلای قاچاق توسط پلیس راه آهن

روزنامه جوان: شلیک مستقیم به اوباش و اشرار، خواسته مردم است

مسیر ناهموار جهش تجارت

هواوی تراشه هوش مصنوعی Ascend 920 را با وعده عملکردی هم‌سطح با انویدیا H20 معرفی کرد

معمای ولادیمیر

روحش را به دست گرفت؛ درباره فاطمه، عکاسی که در بمباران اسرائیل شهید شد

آیا نتانیاهو بازنده مذاکرات ایران و آمریکا خواهد بود؟

رقابت ربات‌ با انسان‌ در دوی ماراتن را تماشا کنید

استراتژی چندوجهی و مذاکره ایران و امریکا

عکس سال 2025؛ مامان حالا می‌توانم اشک‌هایم را پاک کنم؟

زیدآبادی نوشت: کلاه گشادی تحت نام عدالت‌خواهی

در مسیری پرپیچ و خم؛ چشم انداز مذاکره با آمریکا

واکنش اتحادیه اروپا به آتش‌بس 30 ساعته روسیه با اوکراین: جنگ تمام شود

گزینه پیشنهادی دولت برای وزارت اقتصاد مشخص شد؟

دست دوستی سعودی

طراحی آیفون 17 پرو با دوربین یکپارچه لو رفت

اداره بهره‌وری DOGE در حال ساخت دیتابیس عظیمی از اطلاعات حساس شهروندان است

سایه روشن روابط

جاده‌‌کشی در قلب زیستگاه پلنگ و خرس

حریق در قطار مسافربری؛ قطار حادثه دیده به مسیر خود ادامه داد

کشف جسد مرد 30 ساله در کانال آب

پیش بینی قیمت طلا و سکه 31 فروردین 1404

ویدئو مفهومی آیفون 17 پرو مکس طراحی و ویژگی‌های این گوشی را نشان می‌دهد

طرح نظامی ترامپ را ماسک عملی می‌کند؟

معاون ترامپ در رم چه می‌کند

طرح نوآورانه اروپا برای خروج از زیر چتر دفاعی آمریکا

تبليغات