آمازون هوش مصنوعی جدیدی برای پردازش صدای طبیعی معرفی کرد
خواندنی ها
بزرگنمايي:
پیام ویژه - زومیت / هوش مصنوعی جدید آمازون مخصوص پردازش صدا است و ادعا میشود که عملکردی مناسب برای رقابت با رقبا دارد.
آمازون مدل جدید هوش مصنوعی مولد خود با نام Nova Sonic را معرفی کرد؛ مدلی که توانایی پردازش صوت بهصورت بومی و تولید گفتار طبیعی دارد. آمازون ادعا میکند که عملکرد Nova Sonic در زمینههایی مانند سرعت و تشخیص گفتار و کیفیت مکالمه، با پیشرفتهترین مدلهای صوتی OpenAI و گوگل رقابتکردنی است.
Nova Sonic پاسخ آمازون به مدلهای جدید صوتی هوش مصنوعی همچون مدلی است که حالت گفتاری ChatGPT را قدرت میبخشد. مدلها در مقایسه با نمونههای اولیهی دستیار صوتی الکسا، بسیار طبیعیتر به نظر میرسند. پیشرفتهای اخیر در حوزهی فناوری باعث شدهاند تا مدلهای قدیمی و دستیارهای دیجیتال سنتی، مانند سیری اپل یا نسخهی اولیهی الکسا، بسیار خشک و ماشینی به نظر برسند.
بازار ![]()
Nova Sonic ازطریق پلتفرم Bedrock، بستری برای توسعهی اپلیکیشنهای هوش مصنوعی سازمانی و ازطریق API جدید دوطرفهی استریم، در دسترس توسعهدهندگان قرار میگیرد. آمازون در بیانیهای مطبوعاتی، Nova Sonic را «بهصرفهترین مدل صوتی هوش مصنوعی بازار» توصیف کرده و گفته است که هزینهی استفاده از آن حدود 80 درصد کمتر از GPT-4o است.
بخشهایی از Nova Sonic اکنون در نسخهی ارتقایافتهی دستیار صوتی آمازون با نام +Alexa به کار گرفته شدهاند. به گفته روهیت پراساد، معاون ارشد آمازون و رئیس واحد AGI، این مدل برپایهی تجربهی گستردهی آمازون در سیستمهای ارکستراسیون بزرگ توسعه یافته است. اینها همان زیرساختهای فنی هستند که عملکرد الکسا را ممکن میکنند.
پراساد میگوید که Nova Sonic در هدایت درخواستهای کاربر به APIهای مختلف عملکردی برتر دارد. این توانایی باعث میشود تا مدل بتواند تشخیص دهد چه زمانی باید اطلاعاتی را از اینترنت دریافت و منبع دادهی اختصاصی را پردازش کند یا اقدامی را در اپلیکیشن خارجی انجام دهد و ابزار مناسب برای هرکدام را بهدرستی انتخاب کند.
براساس اظهارات آمازون، در جریان مکالمهی دوطرفه، Nova Sonic منتظر زمان مناسب برای پاسخگویی میماند و مکثهای احتمالی در صحبت را در نظر میگیرد. همچنین، برای گفتار کاربران متن پیادهسازیشده (Transcript) تولید میکند که توسعهدهندگان میتوانند از آن در کاربردهای مختلف استفاده کنند.
پراساد میگوید که دقت تشخیص گفتار Nova Sonic در مقایسه با بسیاری از مدلهای صوتی هوش مصنوعی دیگر بیشتر است؛ بهگونهای که این مدل حتی در شرایطی که کاربر در صحبتش مکث میکند و اشتباه حرف میزند یا در محیطی پرسروصدا قرار دارد، بازهم در تشخیص منظور کاربر عملکرد موفقی از خود نشان میدهد.
براساس آزمایشی با نام Multilingual LibriSpeech برای ارزیابی تشخیص گفتار در زبانها و لهجههای مختلف، Nova Sonic به نرخ خطای کلمهای (WER) برابر با 4٫2 درصد در زبانهای انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی دست یافت. این یعنی تنها 4 کلمه از هر 100 کلمه با نسخهی انسانی متفاوت بودهاند.
-
پنجشنبه ۲۱ فروردين ۱۴۰۴ - ۱۱:۵۶:۲۵
-
۱۸ بازديد
-

-
پیام ویژه
لینک کوتاه:
https://www.payamevijeh.ir/Fa/News/1579106/