গুগল যখন তার পরবর্তী-জেমিনি 1.5 প্রো মডেল ঘোষণা করেছিল, তখন ওপেনএআই একটি যুগান্তকারী টেক্সট-টু-ভিডিও এআই মডেল সোরা-র বিস্ময়কর ঘোষণার সাথে গুগলের প্যারেডে বৃষ্টিপাত করেছিল। নতুন ভিডিও প্রজন্মের মডেল, সোরা, এআই শিল্পে আমরা এখন পর্যন্ত যা দেখেছি তার থেকে আলাদা। আমরা যে উদাহরণগুলি দেখেছি তা থেকে, Sora মডেলের তুলনায় Runway’s Gen-2 এবং Pika এর মত ভিডিও জেনারেশন মডেলগুলি ফ্যাকাশে। OpenAI এর নতুন Sora মডেল সম্পর্কে আপনার যা জানা দরকার তা এখানে।
সোরা 1 মিনিট পর্যন্ত ভিডিও তৈরি করতে পারে
ওপেনএআই-এর টেক্সট-টু-ভিডিও এআই মডেল, সোরা, অত্যন্ত উৎপন্ন করতে পারে বিস্তারিত ভিডিও (1080p পর্যন্ত) পাঠ্য প্রম্পট থেকে। এটি ব্যবহারকারীর প্রম্পটগুলিকে অত্যন্ত ভালভাবে অনুসরণ করে এবং গতিশীল ভৌত জগতের অনুকরণ করে। সবচেয়ে চিত্তাকর্ষক অংশ হল যে Sora এক মিনিট পর্যন্ত AI ভিডিও তৈরি করতে পারে, যা বিদ্যমান টেক্সট-টু-ভিডিও মডেলের তুলনায় অনেক বেশি লম্বা যা তিন বা চার সেকেন্ড পর্যন্ত ভিডিও তৈরি করে।
ওপেনএআই অনেককে শোকেস করেছে চাক্ষুষ উদাহরণ সোরার শক্তিশালী ক্ষমতা প্রদর্শন করতে। চ্যাটজিপিটি নির্মাতা বলেছেন সোরার ভাষার গভীর ধারণা রয়েছে এবং সে “উত্পন্ন করতে পারেআকর্ষক অক্ষর যা প্রাণবন্ত আবেগ প্রকাশ করে” এটি একটি একক ভিডিওতে বেশ কয়েকটি ভিন্ন শটও তৈরি করতে পারে যাতে অক্ষর এবং দৃশ্যগুলি পুরো ভিডিও জুড়ে থাকে।
সে বলে, সোরারও কিছু ঘাটতি আছে। বর্তমানে, এটা পদার্থবিদ্যা বোঝে না এর বাস্তব পৃথিবী খুব ভাল। OpenAI ব্যাখ্যা করে, “একজন ব্যক্তি কুকি থেকে একটি কামড় নিতে পারে, কিন্তু পরে, কুকিতে কামড়ের চিহ্ন নাও থাকতে পারে“
মডেল আর্কিটেকচারের জন্য, ওপেনএআই বলছে সোরা একটি প্রসারিত মডেল ট্রান্সফরমার আর্কিটেকচারের উপর নির্মিত। এটি ডাল -ই 3 এর সাথে প্রবর্তিত রিক্যাপশনিং কৌশল ব্যবহার করে যা একটি নমুনা ব্যবহারকারী প্রম্পট থেকে একটি অত্যন্ত বর্ণনামূলক প্রম্পট তৈরি করে। টেক্সট-টু-ভিডিও জেনারেশন ছাড়াও, সোরা স্থির ছবি থেকে ভিডিও তৈরি করতে পারে, সেগুলিকে অ্যানিমেট করতে পারে এবং ভিডিও ফরম্যাটে ফ্রেম প্রসারিত করতে পারে।
সোরা মডেল ব্যবহার করে তৈরি করা শ্বাসরুদ্ধকর ভিডিওগুলি দেখে, অনেক বিশেষজ্ঞ বিশ্বাস করেন যে সোরাকে কৃত্রিমভাবে তৈরি করা ডেটার উপর প্রশিক্ষণ দেওয়া হতে পারে অবাস্তব ইঞ্জিন 5 UE5 সিমুলেশনের সাথে মিল দেওয়া হয়েছে। সোরা-উত্পাদিত ভিডিওগুলিতে হাত এবং অক্ষরের স্বাভাবিক বিকৃতি থাকে না যা আমরা সাধারণত অন্যান্য ডিফিউশন মডেলগুলিতে দেখি। এটি 2D ছবি থেকে 3D দৃশ্য তৈরি করতে নিউরাল রেডিয়েন্স ফিল্ড (NeRF) ব্যবহার করতে পারে।
প্রস্তাবিত প্রবন্ধ
10 সেরা এআই ভিডিও জেনারেটর (টেক্সট-টু-ভিডিও এআই টুলস)
অর্জুন শা
জুন 29, 2023
চ্যাটজিপিটি দিয়ে কীভাবে অনায়াসে এআই ভিডিও তৈরি করা যায়
উপনিষদ শর্মা
1 জুলাই, 2023
ঘটনা যাই হোক না কেন, মনে হচ্ছে ওপেনএআই সোরার সাথে আরেকটি অগ্রগতি করেছে, এবং এটির উপর OpenAI এর সমাপ্তির মন্তব্য থেকে এটি স্পষ্ট। ব্লগAGI অর্জনের উপর জোর দিচ্ছে।
সোরা এমন মডেলগুলির জন্য একটি ভিত্তি হিসাবে কাজ করে যা বাস্তব বিশ্বকে বুঝতে এবং অনুকরণ করতে পারে, এমন একটি ক্ষমতা যা আমরা বিশ্বাস করি AGI অর্জনের জন্য একটি গুরুত্বপূর্ণ মাইলফলক হবে৷
সোরা হল নিয়মিত ব্যবহারকারীদের জন্য উপলব্ধ নয় এই মুহূর্তে চেষ্টা করার জন্য বর্তমানে, ওপেনএআই ক্ষতি এবং ঝুঁকির জন্য মডেলটির মূল্যায়ন করার জন্য বিশেষজ্ঞদের সাথে রেড-টিমিং করছে। কোম্পানিটি বেশ কিছু চলচ্চিত্র নির্মাতা, ডিজাইনার এবং শিল্পীদের প্রতিক্রিয়া পেতে এবং প্রকাশের আগে মডেলটিকে উন্নত করার জন্য সোরাকে অ্যাক্সেস দিচ্ছে।