به نظر میرسد که توسعهی هوش مصنوعی به سرعتی فراتر از درک انسان پیش میرود، و یکی از آخرین دستاوردهای این حوزه، سیستم تبدیل نوشتار به ویدیو به نام “سورا” از شرکت OpenAI است. این فناوری جدید نشان میدهد که رویدادهای مربوط به هوش مصنوعی به سرعتی اتفاق میافتند که حتی انتظارات هم نمیتوانند پیشبینی کنند.
OpenAI، که بیشتر به خاطر ابزار چتبات هوش مصنوعی “چت جیپیتی” شناخته میشود، اخیراً از سیستم جدید خود با نام “سورا” برای تبدیل متن به ویدیو رونمایی کرده است. این فناوری هنوز در دسترس عموم نیست و فقط توسط آزمایشکنندگان محدودی قابل استفاده است، اما ویدیوهایی که منتشر شدهاند، نشان میدهند که این سیستم پیشرفت چشمگیری داشته و ویدیوهای تولید شده توسط آن بسیار واقعگرایانه به نظر میرسند. این موضوع همزمان میتواند هیجانانگیز و نگرانکننده باشد.
OpenAI Sora چیست؟
مانند سایر ابزارهای تولید هوش مصنوعی مانند “دال-ئی” و “میدجرنی”، ابزار مبتنی بر هوش مصنوعی “سورا” هم متنهایی را از شما دریافت میکند و آنها را به تصویر دیداری تبدیل میکند. اما با اختلافی که با سایر موارد مشابه دارد، “سورا” یک کلیپ ویدیویی کامل ایجاد میکند که شامل حرکت، زوایای مختلف دوربین، جهت و سایر جزئیاتی است که انتظار میرود در یک ویدیوی معمولی واقعی وجود داشته باشد.
با دیدن نمونههای موجود در وبسایت “سورا”، نتایج نهایی آن اغلب به گونهای است که نمیتوان آنها را از ویدیوهای واقعی و حرفهای تشخیص داد. این مقایسه شامل همه چیز از ویدیوهای هواپیماهای بدون سرنشین گرانقیمت تا فیلمهای چند میلیون دلاری است که با بازیگران و جلوههای ویژهای توسط هوش مصنوعی تولید میشوند.
بطور اتفاقی، “سورا” نخستین فناوری تولید ویدیو از متن نیست و به تازگیترین نمونه در این حوزه، “رانوی امال” بود که خدمات خود را با دریافت هزینه به عموم ارائه میکند. با این حال، حتی در شرایط بهترین، ویدیوهای “رانوی” بیشتر شبیه به نسخههای اولیه تصاویر ثابت میدجرنی است. ثباتی در تصاویر وجود ندارد، فیزیکی که در آنها نشان داده میشود منطقی نیست و در حال حاضر طولانیترین کلیپی که ارائه شده است ۱۶ ثانیه است.
“لومیر” هم که چند هفته پیش منتشر شد، ادعا کرد ویدیوهای بهتری نسبت به نسخههای قبلی خود تولید میکند، اما بهنظر میرسد “سورا” حداقل در برخی موارد قویتر از “لومیر” است. این فناوری قادر است ویدیوهایی با وضوح حداکثر ۱۹۲۰ در ۱۰۸۰ پیکسل و نسبتهای مختلف را تولید کند.
بهترین خروجی ارائه شده توسط “سورا” کاملاً پایدار است، فیزیکی که در آن نشان داده میشود به ذهن انسان مناسب میآید و طول کلیپها میتواند تا یک دقیقه نیز باشد. ویدیوهای تولید شده توسط “سورا” بدون صدا هستند، اما سایر سیستمهای هوش مصنوعی هم وجود دارند که میتوانند موسیقی، جلوههای صوتی و گفتار را تولید کنند تا آنها را به ویدیوهای تولید شده توسط هوش مصنوعی اضافه کنند.
اینگونه نمیتوانیم پیشرفت چشمگیری که “سورا” نسبت به نسلهای قبلی ویدیوهای تولید شده با هوش مصنوعی داشته است، را نادیده بگیریم. حتی فقط یک سال پیش، هوش مصنوعی توانایی تولید ویدیوهای کاملاً غیرواقعی را داشت، اما با پیشنمایش “سورا”، یک شوک بزرگ برای فعالان در زمینه هنرهای تصویری به وجود آمده است. احتمالاً “سورا” تأثیرات قابل توجهی بر روی کل صنعت ویدیو دارد، از سازندگان ویدیوهای تک نفره تا پروژههای بزرگی مانند دیزنی و مارول. این ممکن است شروع واقعی صنعت فیلمهای مصنوعی را نشان دهد.
سورا چگونه کار میکند؟
تا جایی که امکان دارد، میخواهیم روند تولید تصاویر توسط “سورا” را بررسی کنیم، اما نمیتوانیم به جزئیات پرداخته و بررسی دقیقی از عملکرد داخلی فناوری را ارائه دهیم، زیرا OpenAI در این زمینه اطلاعاتی ارائه نمیدهد. این اطلاعات همگی محرمانه هستند و به همین دلیل جزئیات دقیقی از فناوری مخفی که “سورا” را از رقبا متمایز میکند، مشخص نیست. همچنین، جزئیات موضوع ممکن است برای عموم جذاب و قابل درک نباشد و تنها یک دانشمند حوزه کامپیوتر قادر به درک آن باشد، بنابراین ما فقط میتوانیم نحوهی عملکرد این فناوری را به طور کلی درک کنیم.
خوشبختانه، “مایک یانگ” بر اساس گزارش فنی OpenAI، توضیحات کاملی درباره فناوری “سورا” در مدیوم ارائه داده است که در اینجا مهمترین نکات آن را مرور میکنیم.
“Sora” براساس درسهایی ساخته شده است که شرکتهایی مانند OpenAI هنگام ایجاد فناوریهایی مانند “چتجیپیتی” یا “دال-ئی” آموختهاند. “سورا” ویدیوها را با تقسیم آنها به بخشهایی که مشابه توکنهای استفاده شده در مدل آموزشی “چت جیپیتی” هستند، تولید میکند. از آنجا که این توکنها همگی اندازهی یکسانی دارند، مواردی مانند طول کلیپ، نسبت تصویر و وضوح برای “سورا” مهم نیستند.
در واقع، این ابزار تولید ویدیو از متن، از همان رویکرد گستردهای استفاده میکند که در دیگر مدلهای تبدیل زبانی هوش مصنوعی مانند “چت جیپیتی” و “گوگل جمینی” استفاده میشود. این ترانسفورماتورها ابتدا در سال ۲۰۱۷ توسط گوگل معرفی شدند. در حالی که این ترانسفورماتورها در ابتدا برای یافتن الگوهایی در نشانههایی که متن را نشان میدهند طراحی شده بودند، “سورا” اکنون از نشانههایی استفاده میکند که بخشهای کوچکی از فضا و زمان را به نمایش میگذارند.
“Sora” در طول آموزش، به پچ توکنهای پر از نویز و تا حدی پراکندهی یک ویدیو نگاه میکند و تلاش میکند تا توکن تمیز و بدون نویز را پیشبینی کند. با مقایسهی آن با یک واقعیت پایه، مدل زبانی ویدیو را میآموزد و از کنار هم قرار دادن این تصاویر یک ویدیوی کامل شکل میگیرد. بر اساس همین تمرین و آموزش است که نمونههای وبسایت “سورا” بسیار معتبر و واقعی به نظر میرسند.
بیتردید، “سورا” علاوه بر توانایی قابل توجهی که دارد، برای فریمهای ویدیویی که آموزش دیده است، شرحهای بسیار دقیقی نیز دارد. این یکی از دلایل اصلی است که این ابزار قادر است ویدیوهای تولید شده را بر اساس درخواستهای متنی تغییر دهد.
به نظر میرسد توانایی “سورا” در شبیهسازی دقیق فیزیک در ویدیوها، یک ویژگی نوآورانه است که به طور اصلی از آموزش روی میلیونها ویدیو که شامل حرکتهای مبتنی بر فیزیک دنیای واقعی هستند، بهره میبرد. ماندگاری اشیاء در “سورا” بسیار قوی است و حتی زمانی که اشیاء از قاب خارج میشوند یا موقتاً توسط دیگر اشیاء در قاب مخفی میشوند، در پشت تصویر حضور دارند و با تغییر زاویهی دوربین به صورت صحیح بازنشانی میشوند.
با این حال، گاهی اوقات وقتی که اشیاء در ویدیو با یکدیگر ارتباط برقرار میکنند، “سورا” ممکن است مشکلاتی در درک دلیل ارتباط و تولید تصویر بعدی داشته باشد، از جمله دوباره تولید اشیاء. همچنین، به نظر میرسد که “سورا” گاهی در تمییز بین چپ و راست اشتباه میکند. با این وجود، نشان داده شده که تواناییهایی که “سورا” تا کنون ارائه داده است، نه تنها قابل استفاده است، بلکه به طور کامل بهروز و پیشرفته محسوب میشود.
چه زمانی به سورا دسترسی خواهید داشت؟
همهی ما به شدت مشتاق هستیم که از “سورا” استفاده کنیم و بدون شک در آینده بیشتر دربارهی این فناوری خواهیم نوشت و بحث خواهیم کرد که چه میزان میتواند کاربردی و موثر باشد. اما سوال این است که این اتفاق زمانی اتفاق میافتد؟
تا کنون دقیقاً مشخص نیست که چقدر زمان میبرد تا “سورا” در دسترس عموم قرار گیرد یا هزینهی آن چقدر خواهد بود. به گفتهی OpenAI، این فناوری در دستان تیم قرمز است، یعنی گروهی از افراد که وظیفهی دارند سورا را به گونهای راهاندازی کنند که همهی کارهای نادرستی که نباید انجام دهد، انجام ندهد و سپس کمک کنند تا محافظی در برابر این نوع کارها قرار داده شود که ممکن است مشتریان واقعی هم از آن بخواهند. این موارد شامل پتانسیل ایجاد اطلاعات نادرست، ساختن مطالب توهینآمیز یا خشونتبار و بسیاری از سوء استفادههای دیگر است که ممکن است اتفاق بیفتد.
علاوه بر این، در حال حاضر برخی از تولیدکنندگان محتوای منتخب نیز به آن دسترسی دارند که به نظر میرسد این دسترسی، هم برای اهداف آزمایشی و هم برای دریافت نظرات مختلف و تأییدیههای شخص ثالث است که ممکن است در نهایت منجر به انتشار نهایی آن شود. در نتیجه هنوز زمان انتشار عمومی سورا مشخص نیست. این به این دلیل است که اگر هماکنون در دست آزمایشکنندگان ایمنی آن باشد، ممکن است مشکلاتی کشف شود که رفع آنها بیشتر از حد انتظار طول بکشد و بنابراین انتشار عمومی آن را به تعویق بیندازد.
اینکه OpenAI احساس میکند برای نمایش قابلیتهای “سورا” آماده است و حتی از طریق X درخواستهای عمومی مردم را برای تولید ویدیو با هوش مصنوعی دریافت کرده است، به این معنی است که این شرکت فکر میکند کیفیت محصول نهایی تقریباً آماده است، اما تا زمانی که تصویر بهتری از افکار عمومی در اینباره وجود داشته باشد و مسائل ایمنی مطرح و کشف شود، هیچ کس نمیتواند با اطمینان بگوید که چه زمانی عرضه میشود. در عین حال میتوان انتظار داشت در ماههای آینده و نه چندین سال، این فناوری در وبسایت سورا عرضه شود اما احتمالا هفتهی آینده نخواهد بود!
کاربردهای بالقوهی تبدیل متن به ویدیو
در حال حاضر، تولید محتوای ویدیویی یا از طریق فیلمبرداری از دنیای واقعی یا با استفاده از جلوههای ویژه صورت میگیرد که هر دو میتوانند هزینه و زمان زیادی را در بر بگیرند. اما اگر Sora با هزینهای مناسب در دسترس عموم قرار بگیرد، افراد میتوانند از آن به عنوان یک نرمافزار نمونهسازی برای تجسم ایدهها با هزینهی بسیار کمتر بهره مند شوند. براساس آنچه از قابلیتهای سورا میدانیم، حتی میتوان از آن برای ایجاد ویدیوهای کوتاه برای برنامههای کاربردی در زمینه سرگرمی، تبلیغات و آموزش استفاده نمود.
مقالهی فنی OpenAI با عنوان “مدلهای تولید ویدئو به مثابه شبیهسازهای جهان” منتشر شده است. این مقاله استدلال میکند که نسخههای بزرگتر مولدهای ویدیویی مانند سورا ممکن است “شبیهسازهای توانمند دنیای فیزیکی و دیجیتالی، و اشیاء و حیوانات و افرادی که در آن زندگی میکنند” باشند.
اگر این گزاره صحیح باشد، نسخههای بعدی ممکن است کاربردهای علمی برای آزمایشهای فیزیکی، شیمیایی و حتی اجتماعی داشته باشند. به عنوان مثال، ممکن است تأثیر سونامیهایی با ابعاد مختلف بر انواع زیرساختها و سلامت جسمی و روانی افراد نزدیک به مناطق تحت تأثیر بررسی و آزمایش شود.
با این حال، دستیابی به این سطح از شبیهسازی بسیار چالشبرانگیز است و برخی کارشناسان معتقدند که سیستمی مانند Sora اساساً قادر به انجام آن نیست. یک شبیهساز کامل باید واکنشهای فیزیکی و شیمیایی را در دقیقترین سطوح کیهان محاسبه کند. با این حال، شبیهسازی تقریبی از جهان و ساختن ویدیوهای واقعگرایانه برای چشم انسان، ممکن است در سالهای آینده به آسانی در دسترس باشد.
خطرات و نگرانیهای اخلاقی
نگرانیهای اصلی دربارهی ابزارهایی مانند Sora از جنبههای اجتماعی و اخلاقی به وجود میآید. در دنیایی که در حال حاضر با مشکل اطلاعات نادرست مواجه است، این ابزارها میتوانند به تشدید این مسئله کمک کنند.
به سادگی میتوان فهمید که چگونه میتوان از قابلیت تولید ویدیوی واقعی از هر صحنهای، برای انتشار اخبار جعلی یا ایجاد تردید در فیلمهای واقعی استفاده کرد. این اقدامات ممکن است به تهدید بهداشت عمومی، تأثیرگذاری بر جوامع یا حتی دچار چالش سیستمهای قضایی شود.
تولیدکنندگان ویدیو میتوانند با استفاده از تولید دیپفیک، به ویژه در موارد غیراخلاقی، تهدیدات مستقیمی برای افراد هدف ایجاد کنند. این اقدامات میتوانند به زندگی افراد آسیب برسانند و به خانوادههای آنها آسیب بزنند.
فراتر از این نگرانیها، مسائل مربوط به کپیرایت و مالکیت معنوی نیز مطرح است. ابزارهای مولد هوش مصنوعی برای آموزش به دادههای زیادی نیاز دارند و OpenAI فاش نکرده است که دادههای آموزشی Sora از کجا گرفته شده است.
مدلهای زبانی بزرگ و تولیدکنندههای تصویر هم به همین دلیل انتقاداتی را به دنبال داشتهاند. در ایالات متحده، یک گروه از نویسندگان معروف از OpenAI به دلیل استفاده احتمالی از مطالب خود شکایت کردهاند. این اتهام مدعی است که مدلهای زبانی بزرگ و شرکتهایی که از آنها استفاده میکنند، کار نویسندگان را برای ایجاد محتوای جدید محروم میکنند.
اما تاریخ نشان داده است که اینگونه نگرانیها باعث توقف توسعه فناوری نمیشوند. OpenAI پیش از عرضهی عمومی Sora گامهای مهمی در جهت ایمن کردن این فناوری برداشته است و با کارشناسان برای “پیشگیری از انتشار اطلاعات نادرست، محتوای نفرتانگیز و سوگیری” همکاری میکند.
جمعبندی
سورا، به عنوان یک محصول جدید از OpenAI، یک پیشرفت قابل توجه در زمینه هوش مصنوعی را به نمایش میگذارد و دوباره ما را به یاد میآورد که سرعت پیشرفت در این زمینه بسیار بیشتر از تصورات ماست. این مدل هوش مصنوعی اکنون قادر است ویدیوهایی را از توصیفهای متنی بسازد که تشخیص آنها از فیلمهای واقعی بسیار دشوار و گاهاً غیرممکن است.
در حال حاضر، ما ناگزیر در لبهی یک عصر جدید از نوآوریها در دنیای فناوری ایستادهایم و به زمانی رسیده که باید به جای مقابله و ترس از فناوری، سعی کنیم هوش مصنوعی را در کنترل خود درآوریم و از آن به نحو مثبت استفاده کنیم. تبدیل متن به ویدیو، که در آینده ممکن است بسیار سادهتر باشد، فرصتهای خلاقانهی بیشماری را برای فیلمسازان، تولیدکنندگان محتوا، هنرمندان دیجیتال و هر فردی که تمایل به به اشتراک گذاشتن ایدههای خلاقانهی خود با دیگران دارد، فراهم میکند.
اگر جامعهی انسانی این چالش را با خرد و ظرافت پیش ببرد، شبیهسازهای قدرتمند مانند سورا میتوانند مناظری ناپیشنهادنی را برای داستانگویی بصری به ارمغان آورده و صداهای متنوع بیشماری را برای گفتن داستانهایی که پیش از این تصور نمیشد، شکل دهند.
هیجان واقعی این فناوری جدید، در توانایی آن برای توانمندسازی همهی افراد در به اشتراک گذاشتن دیدگاههای منحصربهفرد خود از جهان نهفته است. با همگرایی رشتههای هوش مصنوعی با فرآیند فیلمسازی سنتی، میتوان پیام نهایی هنر را گستردهتر از همیشه به اشتراک گذاشت که با وجود تفاوتهایمان در آنچه ما را میخنداند یا به گریه میاندازد، با وجود رؤیاها و اضطرابهایمان، همهی ما هنوز انسان هستیم.
منابع: The Conversation, How to Geek, Christian Martinez, Light Works
نظرات کاربران