با پیشرفت شگفت‌انگیز فناوری‌های هوش مصنوعی، مرز بین واقعیت و مجاز هر روز باریک‌تر می‌شود. در این میان، پروژه nova از شرکت بایدو (Baidu) یک گام مهم و جسورانه در جهت خلق انسان‌های دیجیتال واقع‌گرایانه برداشته است.
این مدل قدرتمند می‌تواند شخصیت‌های دیجیتالی تولید کند که از نظر ظاهر، صدا، حرکات بدن و تعامل، شباهت چشم‌گیری به انسان‌های واقعی دارند.

هدف nova فقط ساخت چهره‌ای دیجیتالی نیست؛ بلکه خلق یک «موجود هوشمند دیجیتال» است که می‌تواند نقش معلم، فروشنده، مشاور، گوینده یا حتی بازیگر مجازی را ایفا کند. در این مقاله با ساختار فنی nova، قابلیت‌ها، کاربردها و تاثیر آن بر آینده تعامل انسان و ماشین آشنا می‌شویم.

پروژه nova چیست؟

nova یک پروژه مبتنی بر هوش مصنوعی چندوجهی (multimodal) است که توسط شرکت بایدو توسعه یافته و هدف آن ایجاد انسان‌های دیجیتالی با رفتار و گفتار کاملاً طبیعی است. این پروژه بخشی از سیستم هوش مصنوعی بزرگ‌تر بایدو به نام ERNIE محسوب می‌شود که با مدل‌های زبانی و تصویری ترکیب شده‌اند.

در nova، الگوریتم‌های مختلفی از پردازش زبان طبیعی، شبیه‌سازی چهره، سنتز صدا و پردازش ویدیو با یکدیگر تلفیق شده‌اند تا خروجی نهایی، شباهت بسیار بالایی با انسان داشته باشد.

معماری فنی و اجزای اصلی nova

پروژه nova از چند ماژول اصلی تشکیل شده است که هرکدام وظیفه خاصی در ساخت یک شخصیت دیجیتال را بر عهده دارند:

ماژول شبیه‌سازی چهره

این بخش از طریق یادگیری از هزاران تصویر انسانی، ساختار صورت، حرکت لب، ابرو و چشم را به‌طور طبیعی بازسازی می‌کند. مدل از فناوری Neural Rendering برای تولید ویدیوهای واقع‌گرایانه استفاده می‌کند.

ماژول پردازش زبان

مدل زبانی nova بر پایه ERNIE ساخته شده و قادر است به زبان چینی و انگلیسی با کاربران گفتگو کند. پاسخ‌ها دقیق، معنادار و در چارچوب کاربردی هستند.

ماژول سنتز صدا

صدای تولید شده توسط nova به‌قدری واقعی است که تشخیص آن از صدای انسان برای گوش غیرمسلح بسیار دشوار است. این بخش از تکنیک‌های Text-to-Speech Adaptive و Emotion Modeling برای شبیه‌سازی لحن استفاده می‌کند.

ماژول کنترل حرکت بدن

در نسخه‌های پیشرفته‌تر، nova می‌تواند حرکات دست، بدن، حالت نشستن و حتی حالات احساسی چهره را با متن یا ورودی هماهنگ کند. این بخش برای استفاده در آواتارهای زنده و پخش زنده حیاتی است.

چه چیزی nova را از سایر پروژه‌ها متمایز می‌کند؟

  • واقع‌گرایی بالا: چهره و صدا به‌قدری طبیعی است که تفاوت آن با انسان واقعی در نگاه اول مشخص نیست.
  • هماهنگی بی‌نظیر بین صدا، متن و چهره: حرکت لب‌ها، حرکات سر و تغییرات احساسی با متن هماهنگ‌اند.
  • پشتیبانی از مکالمه بلادرنگ: nova می‌تواند در زمان واقعی مکالمه کند، واکنش نشان دهد و رفتار متناسب داشته باشد.
  • قابلیت شخصی‌سازی: کاربران یا شرکت‌ها می‌توانند آواتار اختصاصی خود را بر اساس چهره، صدا و سبک گفتار شخصی ایجاد کنند.

کاربردهای nova در صنایع مختلف

آموزش و یادگیری

معلمان دیجیتال که با لحن دلخواه شما درس می‌دهند، صبورند، تکرار می‌کنند و هرگز خسته نمی‌شوند.

خدمات مشتری

نمایندگان فروش یا پشتیبانی دیجیتال که با چهره‌ای دوستانه، ۲۴ ساعته پاسخ‌گوی مشتریان هستند و تمام اطلاعات لازم را در لحظه ارائه می‌دهند.

بازاریابی و تبلیغات

nova می‌تواند بازیگر یا مجری دیجیتال برای تبلیغات ویدیویی باشد؛ بدون نیاز به استودیو، نورپردازی یا هزینه‌های تولید.

سرگرمی و رسانه

بازیگران دیجیتال، مجریان اخبار مجازی یا حتی شخصیت‌های تعاملی در متاورس، همگی می‌توانند با کمک nova خلق شوند.

سلامت و روانشناسی

در آینده نزدیک، مشاورهای روان‌شناختی دیجیتال می‌توانند با لحن آرام و چهره‌ای مهربان، به کاربر در مدیریت استرس یا اضطراب کمک کنند.

مقایسه nova با ابزارهای مشابه

ابزار تمرکز اصلی زبان پشتیبانی‌شده هماهنگی چهره و صدا پاسخ‌گویی بلادرنگ
nova (Baidu) انسان دیجیتال کامل چینی، انگلیسی بسیار بالا بله
Synthesia تولید ویدیوی سخنگو انگلیسی، چند زبان متوسط نه
Hour One ویدیو تجاری انگلیسی، عبری متوسط نه
HeyGen آواتار ویدیویی انگلیسی خوب خیر (تاخیر ۵-۱۰ ثانیه)

nova از نظر هماهنگی، سرعت و کیفیت واقع‌گرایی، یک سر و گردن بالاتر از رقبای غربی خود قرار دارد.

مزایای استفاده از nova

  • کاهش چشمگیر هزینه‌های تولید محتوا
  • افزایش دسترس‌پذیری خدمات آموزشی و پشتیبانی
  • قابلیت مقیاس‌پذیری بالا برای برندها و سازمان‌ها
  • باز بودن دست در انتخاب لحن، چهره و رفتار شخصیت دیجیتال
  • صرفه‌جویی در زمان تولید ویدیوهای انسانی

محدودیت‌ها و چالش‌ها

  • nova در حال حاضر بیشتر روی بازار چین تمرکز دارد و دسترسی جهانی آن محدود است.
  • شخصی‌سازی پیشرفته به‌ویژه در زبان انگلیسی هنوز در مراحل آزمایشی قرار دارد.
  • ایجاد اعتماد کامل به انسان دیجیتال، هنوز برای بسیاری از مخاطبان دشوار است.
  • در حوزه‌های حساس مثل پزشکی یا حقوق، استفاده از nova نیازمند تنظیم‌گری دقیق است.

آینده انسان‌های دیجیتال با ابزارهایی مانند nova

پیش‌بینی می‌شود که انسان‌های دیجیتال به‌زودی در بسیاری از زمینه‌ها جایگزین یا مکمل انسان‌های واقعی شوند. ترکیب nova با متاورس، هدست‌های واقعیت مجازی و هوش مصنوعی تعاملی، می‌تواند تجربه‌ای بی‌سابقه از تعامل انسان و ماشین خلق کند.

از آموزش گرفته تا فروش، رسانه، مراقبت‌های بهداشتی و خدمات عمومی، انسان‌های دیجیتال مثل nova می‌توانند بخشی از زندگی روزمره ما شوند. البته شرط این تحول، حفظ اصول اخلاقی، حریم خصوصی و شفافیت در استفاده از این تکنولوژی است.

جمع‌ بندی

nova یکی از پیشرفته‌ترین پروژه‌های هوش مصنوعی در جهان است که توسط بایدو توسعه یافته و هدف آن خلق انسان‌های دیجیتال واقع‌گرایانه است. این ابزار با تلفیق پردازش زبان، چهره، صدا و ویدیو، تجربه‌ای نزدیک به تعامل با انسان واقعی ارائه می‌دهد. آینده تولید محتوا، آموزش، خدمات مشتری و حتی تعاملات شخصی می‌تواند با nova شکل تازه‌ای پیدا کند.