سورا: جادوگر هوش مصنوعی در دنیای ویدئو

2 سال پیش

به نظر می‌رسد که توسعه‌ی هوش مصنوعی به سرعتی فراتر از درک انسان پیش می‌رود، و یکی از آخرین دستاوردهای این حوزه، سیستم تبدیل نوشتار به ویدیو به نام “سورا” از شرکت OpenAI است. این فناوری جدید نشان می‌دهد که رویدادهای مربوط به هوش مصنوعی به سرعتی اتفاق می‌افتند که حتی انتظارات هم نمی‌توانند پیش‌بینی کنند.

هوش مصنوعی و آینده شغلی هنرمندان بازی‌های ویدئویی

OpenAI، که بیشتر به خاطر ابزار چت‌بات هوش مصنوعی “چت جی‌پی‌تی” شناخته می‌شود، اخیراً از سیستم جدید خود با نام “سورا” برای تبدیل متن به ویدیو رونمایی کرده است. این فناوری هنوز در دسترس عموم نیست و فقط توسط آزمایش‌کنندگان محدودی قابل استفاده است، اما ویدیوهایی که منتشر شده‌اند، نشان می‌دهند که این سیستم پیشرفت چشمگیری داشته و ویدیوهای تولید شده توسط آن بسیار واقع‌گرایانه به نظر می‌رسند. این موضوع هم‌زمان می‌تواند هیجان‌انگیز و نگران‌کننده باشد.

OpenAI Sora چیست؟

مانند سایر ابزارهای تولید هوش مصنوعی مانند “دال-ئی” و “میدجرنی”، ابزار مبتنی بر هوش مصنوعی “سورا” هم متن‌هایی را از شما دریافت می‌کند و آن‌ها را به تصویر دیداری تبدیل می‌کند. اما با اختلافی که با سایر موارد مشابه دارد، “سورا” یک کلیپ ویدیویی کامل ایجاد می‌کند که شامل حرکت، زوایای مختلف دوربین، جهت و سایر جزئیاتی است که انتظار می‌رود در یک ویدیوی معمولی واقعی وجود داشته باشد.

با دیدن نمونه‌های موجود در وب‌سایت “سورا”، نتایج نهایی آن اغلب به گونه‌ای است که نمی‌توان آن‌ها را از ویدیوهای واقعی و حرفه‌ای تشخیص داد. این مقایسه شامل همه چیز از ویدیوهای هواپیماهای بدون سرنشین گران‌قیمت تا فیلم‌های چند میلیون دلاری است که با بازیگران و جلوه‌های ویژه‌ای توسط هوش مصنوعی تولید می‌شوند.

بطور اتفاقی، “سورا” نخستین فناوری تولید ویدیو از متن نیست و به تازگی‌ترین نمونه در این حوزه، “ران‌وی ام‌ال” بود که خدمات خود را با دریافت هزینه به عموم ارائه می‌کند. با این حال، حتی در شرایط بهترین، ویدیوهای “ران‌وی” بیشتر شبیه به نسخه‌های اولیه تصاویر ثابت میدجرنی است. ثباتی در تصاویر وجود ندارد، فیزیکی که در آنها نشان داده می‌شود منطقی نیست و در حال حاضر طولانی‌ترین کلیپی که ارائه شده است ۱۶ ثانیه است.

“لومیر” هم که چند هفته پیش منتشر شد، ادعا کرد ویدیوهای بهتری نسبت به نسخه‌های قبلی خود تولید می‌کند، اما به‌نظر می‌رسد “سورا” حداقل در برخی موارد قوی‌تر از “لومیر” است. این فناوری قادر است ویدیوهایی با وضوح حداکثر ۱۹۲۰ در ۱۰۸۰ پیکسل و نسبت‌های مختلف را تولید کند.

بهترین خروجی ارائه شده توسط “سورا” کاملاً پایدار است، فیزیکی که در آن نشان داده می‌شود به ذهن انسان مناسب می‌آید و طول کلیپ‌ها می‌تواند تا یک دقیقه نیز باشد. ویدیوهای تولید شده توسط “سورا” بدون صدا هستند، اما سایر سیستم‌های هوش مصنوعی هم وجود دارند که می‌توانند موسیقی، جلوه‌های صوتی و گفتار را تولید کنند تا آن‌ها را به ویدیوهای تولید شده توسط هوش مصنوعی اضافه کنند.

اینگونه نمی‌توانیم پیشرفت چشمگیری که “سورا” نسبت به نسل‌های قبلی ویدیوهای تولید شده با هوش مصنوعی داشته است، را نادیده بگیریم. حتی فقط یک سال پیش، هوش مصنوعی توانایی تولید ویدیوهای کاملاً غیرواقعی را داشت، اما با پیش‌نمایش “سورا”، یک شوک بزرگ برای فعالان در زمینه هنرهای تصویری به وجود آمده است. احتمالاً “سورا” تأثیرات قابل توجهی بر روی کل صنعت ویدیو دارد، از سازندگان ویدیوهای تک نفره تا پروژه‌های بزرگی مانند دیزنی و مارول. این ممکن است شروع واقعی صنعت فیلم‌های مصنوعی را نشان دهد.

سورا: جادوگر هوش مصنوعی در دنیای ویدئو

سورا چگونه کار می‌کند؟

تا جایی که امکان دارد، می‌خواهیم روند تولید تصاویر توسط “سورا” را بررسی کنیم، اما نمی‌توانیم به جزئیات پرداخته و بررسی دقیقی از عملکرد داخلی فناوری را ارائه دهیم، زیرا OpenAI در این زمینه اطلاعاتی ارائه نمی‌دهد. این اطلاعات همگی محرمانه هستند و به همین دلیل جزئیات دقیقی از فناوری مخفی که “سورا” را از رقبا متمایز می‌کند، مشخص نیست. همچنین، جزئیات موضوع ممکن است برای عموم جذاب و قابل درک نباشد و تنها یک دانشمند حوزه کامپیوتر قادر به درک آن باشد، بنابراین ما فقط می‌توانیم نحوه‌ی عملکرد این فناوری را به طور کلی درک کنیم.

خوشبختانه، “مایک یانگ” بر اساس گزارش فنی OpenAI، توضیحات کاملی درباره فناوری “سورا” در مدیوم ارائه داده است که در اینجا مهم‌ترین نکات آن را مرور می‌کنیم.

“Sora” براساس درس‌هایی ساخته شده است که شرکت‌هایی مانند OpenAI هنگام ایجاد فناوری‌هایی مانند “چت‌جی‌پی‌تی” یا “دال-ئی” آموخته‌اند. “سورا” ویدیوها را با تقسیم آن‌ها به بخش‌هایی که مشابه توکن‌های استفاده شده در مدل آموزشی “چت جی‌پی‌تی” هستند، تولید می‌کند. از آنجا که این توکن‌ها همگی اندازه‌ی یکسانی دارند، مواردی مانند طول کلیپ، نسبت تصویر و وضوح برای “سورا” مهم نیستند.

در واقع، این ابزار تولید ویدیو از متن، از همان رویکرد گسترده‌ای استفاده می‌کند که در دیگر مدل‌های تبدیل زبانی هوش مصنوعی مانند “چت جی‌پی‌تی” و “گوگل جمینی” استفاده می‌شود. این ترانسفورماتورها ابتدا در سال ۲۰۱۷ توسط گوگل معرفی شدند. در حالی که این ترانسفورماتورها در ابتدا برای یافتن الگوهایی در نشانه‌هایی که متن را نشان می‌دهند طراحی شده بودند، “سورا” اکنون از نشانه‌هایی استفاده می‌کند که بخش‌های کوچکی از فضا و زمان را به نمایش می‌گذارند.

“Sora” در طول آموزش، به پچ توکن‌های پر از نویز و تا حدی پراکنده‌ی یک ویدیو نگاه می‌کند و تلاش می‌کند تا توکن تمیز و بدون نویز را پیش‌بینی کند. با مقایسه‌ی آن با یک واقعیت پایه، مدل زبانی ویدیو را می‌آموزد و از کنار هم قرار دادن این تصاویر یک ویدیوی کامل شکل می‌گیرد. بر اساس همین تمرین و آموزش است که نمونه‌های وب‌سایت “سورا” بسیار معتبر و واقعی به نظر می‌رسند.

روند رسیدن به ویدیوی تمیز و بدون نویز در سورا

بی‌تردید، “سورا” علاوه بر توانایی قابل توجهی که دارد، برای فریم‌های ویدیویی که آموزش دیده است، شرح‌های بسیار دقیقی نیز دارد. این یکی از دلایل اصلی است که این ابزار قادر است ویدیوهای تولید شده را بر اساس درخواست‌های متنی تغییر دهد.

به نظر می‌رسد توانایی “سورا” در شبیه‌سازی دقیق فیزیک در ویدیوها، یک ویژگی نوآورانه است که به طور اصلی از آموزش روی میلیون‌ها ویدیو که شامل حرکت‌های مبتنی بر فیزیک دنیای واقعی هستند، بهره می‌برد. ماندگاری اشیاء در “سورا” بسیار قوی است و حتی زمانی که اشیاء از قاب خارج می‌شوند یا موقتاً توسط دیگر اشیاء در قاب مخفی می‌شوند، در پشت تصویر حضور دارند و با تغییر زاویه‌ی دوربین به صورت صحیح بازنشانی می‌شوند.

با این حال، گاهی اوقات وقتی که اشیاء در ویدیو با یکدیگر ارتباط برقرار می‌کنند، “سورا” ممکن است مشکلاتی در درک دلیل ارتباط و تولید تصویر بعدی داشته باشد، از جمله دوباره تولید اشیاء. همچنین، به نظر می‌رسد که “سورا” گاهی در تمییز بین چپ و راست اشتباه می‌کند. با این وجود، نشان داده شده که توانایی‌هایی که “سورا” تا کنون ارائه داده است، نه تنها قابل استفاده است، بلکه به طور کامل به‌روز و پیشرفته محسوب می‌شود.

سورا: جادوگر هوش مصنوعی در دنیای ویدئو

چه زمانی به سورا دسترسی خواهید داشت؟

همه‌ی ما به شدت مشتاق هستیم که از “سورا” استفاده کنیم و بدون شک در آینده بیشتر درباره‌ی این فناوری خواهیم نوشت و بحث خواهیم کرد که چه میزان می‌تواند کاربردی و موثر باشد. اما سوال این است که این اتفاق زمانی اتفاق می‌افتد؟

تا کنون دقیقاً مشخص نیست که چقدر زمان می‌برد تا “سورا” در دسترس عموم قرار گیرد یا هزینه‌ی آن چقدر خواهد بود. به گفته‌ی OpenAI، این فناوری در دستان تیم قرمز است، یعنی گروهی از افراد که وظیفه‌ی دارند سورا را به گونه‌ای راه‌اندازی کنند که همه‌ی کارهای نادرستی که نباید انجام دهد، انجام ندهد و سپس کمک کنند تا محافظی در برابر این نوع کارها قرار داده شود که ممکن است مشتریان واقعی هم از آن بخواهند. این موارد شامل پتانسیل ایجاد اطلاعات نادرست، ساختن مطالب توهین‌آمیز یا خشونت‌بار و بسیاری از سوء استفاده‌های دیگر است که ممکن است اتفاق بیفتد.

علاوه بر این، در حال حاضر برخی از تولیدکنندگان محتوای منتخب نیز به آن دسترسی دارند که به نظر می‌رسد این دسترسی، هم برای اهداف آزمایشی و هم برای دریافت نظرات مختلف و تأییدیه‌های شخص ثالث است که ممکن است در نهایت منجر به انتشار نهایی آن شود. در نتیجه هنوز زمان انتشار عمومی سورا مشخص نیست. این به این دلیل است که اگر هم‌اکنون در دست آزمایش‌کنندگان ایمنی آن باشد، ممکن است مشکلاتی کشف شود که رفع آن‌ها بیشتر از حد انتظار طول بکشد و بنابراین انتشار عمومی آن را به تعویق بیندازد.

اینکه OpenAI احساس می‌کند برای نمایش قابلیت‌های “سورا” آماده است و حتی از طریق X درخواست‌های عمومی مردم را برای تولید ویدیو با هوش مصنوعی دریافت کرده است، به این معنی است که این شرکت فکر می‌کند کیفیت محصول نهایی تقریباً آماده است، اما تا زمانی که تصویر بهتری از افکار عمومی در این‌باره وجود داشته باشد و مسائل ایمنی مطرح و کشف شود، هیچ کس نمی‌تواند با اطمینان بگوید که چه زمانی عرضه می‌شود. در عین حال می‌توان انتظار داشت در ماه‌های آینده و نه چندین سال، این فناوری در وب‌سایت سورا عرضه شود اما احتمالا هفته‌ی آینده نخواهد بود!

کاربردهای بالقوه‌ی تبدیل متن به ویدیو

در حال حاضر، تولید محتوای ویدیویی یا از طریق فیلم‌برداری از دنیای واقعی یا با استفاده از جلوه‌های ویژه صورت می‌گیرد که هر دو می‌توانند هزینه و زمان زیادی را در بر بگیرند. اما اگر Sora با هزینه‌ای مناسب در دسترس عموم قرار بگیرد، افراد می‌توانند از آن به عنوان یک نرم‌افزار نمونه‌سازی برای تجسم ایده‌ها با هزینه‌ی بسیار کمتر بهره مند شوند. براساس آنچه از قابلیت‌های سورا می‌دانیم، حتی می‌توان از آن برای ایجاد ویدیوهای کوتاه برای برنامه‌های کاربردی در زمینه سرگرمی، تبلیغات و آموزش استفاده نمود.

مقاله‌ی فنی OpenAI با عنوان “مدل‌های تولید ویدئو به مثابه شبیه‌سازهای جهان” منتشر شده است. این مقاله استدلال می‌کند که نسخه‌های بزرگ‌تر مولدهای ویدیویی مانند سورا ممکن است “شبیه‌سازهای توانمند دنیای فیزیکی و دیجیتالی، و اشیاء و حیوانات و افرادی که در آن زندگی می‌کنند” باشند.

اگر این گزاره صحیح باشد، نسخه‌های بعدی ممکن است کاربردهای علمی برای آزمایش‌های فیزیکی، شیمیایی و حتی اجتماعی داشته باشند. به عنوان مثال، ممکن است تأثیر سونامی‌هایی با ابعاد مختلف بر انواع زیرساخت‌ها و سلامت جسمی و روانی افراد نزدیک به مناطق تحت تأثیر بررسی و آزمایش شود.

با این حال، دستیابی به این سطح از شبیه‌سازی بسیار چالش‌برانگیز است و برخی کارشناسان معتقدند که سیستمی مانند Sora اساساً قادر به انجام آن نیست. یک شبیه‌ساز کامل باید واکنش‌های فیزیکی و شیمیایی را در دقیق‌ترین سطوح کیهان محاسبه کند. با این حال، شبیه‌سازی تقریبی از جهان و ساختن ویدیوهای واقع‌گرایانه برای چشم انسان، ممکن است در سال‌های آینده به آسانی در دسترس باشد.

سورا: جادوگر هوش مصنوعی در دنیای ویدئو

خطرات و نگرانی‌های اخلاقی

نگرانی‌های اصلی درباره‌ی ابزارهایی مانند Sora از جنبه‌های اجتماعی و اخلاقی به وجود می‌آید. در دنیایی که در حال حاضر با مشکل اطلاعات نادرست مواجه است، این ابزارها می‌توانند به تشدید این مسئله کمک کنند.

به سادگی می‌توان فهمید که چگونه می‌توان از قابلیت تولید ویدیوی واقعی از هر صحنه‌ای، برای انتشار اخبار جعلی یا ایجاد تردید در فیلم‌های واقعی استفاده کرد. این اقدامات ممکن است به تهدید بهداشت عمومی، تأثیرگذاری بر جوامع یا حتی دچار چالش سیستم‌های قضایی شود.

تولیدکنندگان ویدیو می‌توانند با استفاده از تولید دیپ‌فیک، به ویژه در موارد غیراخلاقی، تهدیدات مستقیمی برای افراد هدف ایجاد کنند. این اقدامات می‌توانند به زندگی افراد آسیب برسانند و به خانواده‌های آن‌ها آسیب بزنند.

فراتر از این نگرانی‌ها، مسائل مربوط به کپی‌رایت و مالکیت معنوی نیز مطرح است. ابزارهای مولد هوش مصنوعی برای آموزش به داده‌های زیادی نیاز دارند و OpenAI فاش نکرده است که داده‌های آموزشی Sora از کجا گرفته شده است.

مدل‌های زبانی بزرگ و تولیدکننده‌های تصویر هم به همین دلیل انتقاداتی را به دنبال داشته‌اند. در ایالات متحده، یک گروه از نویسندگان معروف از OpenAI به دلیل استفاده احتمالی از مطالب خود شکایت کرده‌اند. این اتهام مدعی است که مدل‌های زبانی بزرگ و شرکت‌هایی که از آن‌ها استفاده می‌کنند، کار نویسندگان را برای ایجاد محتوای جدید محروم می‌کنند.

اما تاریخ نشان داده است که اینگونه نگرانی‌ها باعث توقف توسعه فناوری نمی‌شوند. OpenAI پیش از عرضه‌ی عمومی Sora گام‌های مهمی در جهت ایمن کردن این فناوری برداشته است و با کارشناسان برای “پیشگیری از انتشار اطلاعات نادرست، محتوای نفرت‌انگیز و سوگیری” همکاری می‌کند.

جمع‌بندی

سورا، به عنوان یک محصول جدید از OpenAI، یک پیشرفت قابل توجه در زمینه هوش مصنوعی را به نمایش می‌گذارد و دوباره ما را به یاد می‌آورد که سرعت پیشرفت در این زمینه بسیار بیشتر از تصورات ماست. این مدل هوش مصنوعی اکنون قادر است ویدیوهایی را از توصیف‌های متنی بسازد که تشخیص آن‌ها از فیلم‌های واقعی بسیار دشوار و گاهاً غیرممکن است.

در حال حاضر، ما ناگزیر در لبه‌ی یک عصر جدید از نوآوری‌ها در دنیای فناوری ایستاده‌ایم و به زمانی رسیده که باید به جای مقابله و ترس از فناوری، سعی کنیم هوش مصنوعی را در کنترل خود درآوریم و از آن به نحو مثبت استفاده کنیم. تبدیل متن به ویدیو، که در آینده ممکن است بسیار ساده‌تر باشد، فرصت‌های خلاقانه‌ی بی‌شماری را برای فیلم‌سازان، تولیدکنندگان محتوا، هنرمندان دیجیتال و هر فردی که تمایل به به اشتراک گذاشتن ایده‌های خلاقانه‌ی خود با دیگران دارد، فراهم می‌کند.

اگر جامعه‌ی انسانی این چالش را با خرد و ظرافت پیش ببرد، شبیه‌سازهای قدرتمند مانند سورا می‌توانند مناظری ناپیشنهادنی را برای داستان‌گویی بصری به ارمغان آورده و صداهای متنوع بی‌شماری را برای گفتن داستان‌هایی که پیش از این تصور نمی‌شد، شکل دهند.

هیجان واقعی این فناوری جدید، در توانایی آن برای توانمندسازی همه‌ی افراد در به اشتراک گذاشتن دیدگاه‌های منحصربه‌فرد خود از جهان نهفته است. با همگرایی رشته‌های هوش مصنوعی با فرآیند فیلم‌سازی سنتی، می‌توان پیام نهایی هنر را گسترده‌تر از همیشه به اشتراک گذاشت که با وجود تفاوت‌هایمان در آنچه ما را می‌خنداند یا به گریه می‌اندازد، با وجود رؤیاها و اضطراب‌هایمان، همه‌ی ما هنوز انسان هستیم.

منابع: The Conversation, How to Geek, Christian Martinez, Light Works

نظرات کاربران

چنانچه دیدگاهی توهین آمیز باشد و متوجه نویسندگان و سایر کاربران باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.