پیام ویژه

آخرين مطالب

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند خواندنی ها

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند
  بزرگنمايي:

پیام ویژه - دیجیاتو / طبق تست‌های OpenAI، 2 مدل استدلا‌ل‌گر جدید این شرکت، o3 و o4-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.
چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.
براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.
بازار
درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدل‌های هوش مصنوعی جدید OpenAI
نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.
OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

لینک کوتاه:
https://www.payamevijeh.ir/Fa/News/1582534/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

بازه زمانی تاریخ معرفی ناتینگ فون 3 فاش شد

گاردین: پوتین مانع فروپاشی مذاکرات ایران و آمریکا می‌شود؟

خسارت 800 میلیون دلاری ناوگان MQ-9 آمریکا در یمن

دور جدید حملات آمریکا به یمن

مذاکره کننده سابق ایران: توافق ممکن است

درخواست اوکراین از روسیه برای توقف 30 روزه جنگ

ماشین تولید اخبار جعلی درباره مذاکرات چطور کار می‌کند؟

اختلاف نتانیاهو با رئیس شاباک بالا گرفت

چرا گوشت گوسفند از دامداری تا بازار دو برابر می‌شود؟

شاید باور نکنید اما ربات‌ها در حال تسخیر اینترنت هستند

استاد دانشگاه شیراز: هسته سخت باید پوست‏‌اندازی کند

لایحه کاهش مالیات ارزش افزوده کالاهای اساسی چه می گوید؟

کمپین معلولان تعطیل شد

زور هیچکس به مافیای خودروسازی نمی‌رسد

متهم: همسر پسرخاله‌ام را کشتم چون من را ربود

پیش بینی قیمت طلا و سکه یک اردیبهشت

تبلیغات اغواکننده ارتش روسیه برای جلب جنگجویان چینی

آمار قابل تامل از وضعیت تاییدیه ایمنی بیمارستان‌های تهران

کاهش 50 درصدی مجروحین حریق در سال 1403

کارنامه مشترک کسری بودجه دو دولت

سیاست‌های ارزی و پولی، کلید رشد پایدار بازار سرمایه

قابلیت ترجمه پیام‌ها و پست کانال‌ها به نسخه بتای واتس‌اپ اضافه شد

کاربران آمریکایی جنبش 50501 را در فضای مجازی داغ کردند

المشاط خطاب به ترامپ: نه تو و نه پدر تو نمی‌تواند ما را از حمایت غزه منصرف کند

روبیو: گزارش تعطیلی برخی سفارت‌های آمریکا جعلی است

از سوژه ای که موضوع بیست و سی شد تا تلنگر به مجریان رسانه ملی در زبان معیار امشب

پردرآمدها 3 برابر کم‌درآمدها لبنیات مصرف می‌کنند

یمن، شکارچی پرنده های 30میلیون دلاری آمریکا

جوان 18 ساله در استخر کشاورزی غرق شد

تدوین برنامه تامین مسکن برای 6 دهک جامعه

یمن: در برابر تجاوز آمریکا و جنایات اسرائیل ساکت نمی‌مانیم

معاون رییس جمهور به دیدار خانواده شهید امیرعبداللهیان رفت

ضرب‌الاجل 24 ساعته تعزیرات برای پاسخ به گزارش‌های دریافتی

نماینده مجلس: 6 میلیون مستأجرند و 2 میلیون خانه خالی داریم که باید بین مردم تقسیم شوند

پیش بینی بورس دوشنبه یک اردیبهشت 1404

گوشی میان‌رده پیکسل 9a چقدر سریع شارژ می‌شود؟

سید معتدل

لاپید: اسرائیل به سوی یک فاجعه از داخل پیش می‌رود

مالک خودرو بنز قاچاق بیش از 35 میلیارد تومان جریمه شد

روایت تجارت نیوز از بی‌توجهی به سرمایه‌گذاری در بهینه‌سازی مصرف انرژی

وحشت اسرائیل از حضور 30 هزار نظامی حماس در غزه

اندونزی به دنبال خرید جنگنده‌های اف-15 آمریکایی

هشدار لاپید نسبت به وقوع فاجعه داخلی در اسرائیل

جنگ تعرفه‌ها میان آمریکا و چین با برگشت خوردن یک هواپیمای بوئینگ اوج گرفت

قارچ سمی 18 نفر را راهی بیمارستان کرد

کمین چند لایه قسام از ارتش اسرائیل تلفات گرفت

مرد همه‌‏کاره سیاست خارجی آمریکا کیست؟

تبریک متفاوت ترامپ برای «عید پاک»

مرد 53 ساله پس از اتمام مشاوره خانوادگی، همسرش را با کلت کُشت

گاز پیک نیک در چادر مسافرتی، جان زن و شوهر را گرفت