OpenAI সম্প্রতি দুটি নতুন ChatGPT মডেল প্রকাশ করেছে, যেমন o1 এবং o1-মিনি মডেলগুলি উন্নত যুক্তির ক্ষমতা সহ। বিশ্বাস করুন বা না করুন, o1 মডেলগুলি জটিল যুক্তির বাইরে চলে যায় এবং এলএলএম স্কেলিংয়ে একটি নতুন পদ্ধতির প্রস্তাব দেয়। সুতরাং, এই নিবন্ধে, আমরা ChatGPT-এ উপলব্ধ OpenAI o1 মডেল সম্পর্কে সমস্ত গুরুত্বপূর্ণ তথ্য সংকলন করেছি। সুবিধা থেকে শুরু করে এর সীমাবদ্ধতা, নিরাপত্তার সমস্যা এবং ভবিষ্যৎ কী আছে, আমরা আপনার জন্য তা সংক্ষিপ্ত করেছি।
1. অ্যাডভান্সড রিজনিং ক্ষমতা
OpenAI o1 ব্যবহার করে প্রশিক্ষিত প্রথম মডেল শক্তিবৃদ্ধি শেখার অ্যালগরিদম সঙ্গে মিলিত চিন্তা চেইন (CoT) যুক্তি অন্তর্নিহিত CoT যুক্তির কারণে, মডেলটি “চিন্তা” করতে এবং একটি উত্তর নিয়ে আসতে কিছুটা সময় নেয়।
আমার পরীক্ষায়, OpenAI o1 মডেলগুলি সত্যিই ভাল করেছে। নীচের পরীক্ষায়, ফ্ল্যাগশিপ মডেলগুলির কোনওটিই এই প্রশ্নের সঠিক উত্তর দিতে সক্ষম হয়নি।
Here we have a book, 9 eggs, a laptop, a bottle and a nail. Please tell me how to stack them onto each other in a stable manner.
যাইহোক, ChatGPT-এ, OpenAI o1 মডেল সঠিকভাবে পরামর্শ দেয় যে ডিমগুলি একটি 3×3 গ্রিডে স্থাপন করা উচিত। এটা সত্যিই যুক্তি এবং বুদ্ধিমত্তা একটি ধাপ আপ মত মনে হয়. CoT যুক্তিতে এই উন্নতি গণিত, বিজ্ঞান এবং কোডিং পর্যন্ত প্রসারিত। OpenAI বলেছে এর ChatGPT o1 মডেল পিএইচডি প্রার্থীদের চেয়ে বেশি স্কোর পদার্থবিদ্যা, জীববিদ্যা, এবং রসায়ন সমস্যা সমাধান করার সময়।
প্রতিযোগিতামূলক আমেরিকান আমন্ত্রণমূলক গণিত পরীক্ষায় (AIME), ওপেনএআই o1 মডেলটি মার্কিন যুক্তরাষ্ট্রের শীর্ষ 500 শিক্ষার্থীর মধ্যে স্থান পেয়েছে, যা 93% এর কাছাকাছি স্কোর করেছে। এই বলে, টেরেন্স টাওসর্বশ্রেষ্ঠ জীবন্ত গণিতবিদদের একজন ওপেনএআই o1 মডেলটিকে “মাঝারি, কিন্তু সম্পূর্ণরূপে অযোগ্য নয়, স্নাতক ছাত্র” এটি GPT-4o-এর তুলনায় একটি উন্নতি, যা তিনি বলেছিলেন “অযোগ্য স্নাতক ছাত্র।”
OpenAI o1ও খারাপভাবে কাজ করেছে ARC-AGIএকটি বেঞ্চমার্ক যা মডেলের সাধারণ বুদ্ধিমত্তা পরিমাপ করে। এটি ARC-AGI তে 21% স্কোর করেছে, ক্লড 3.5 সনেট মডেলের সমান, কিন্তু 70 ঘন্টা সময় নিয়েছে যেখানে সনেট পরীক্ষাটি সম্পূর্ণ করতে মাত্র 30 মিনিট সময় নিয়েছে। সুতরাং, OpenAI-এর o1 মডেলের এখনও নতুন সমস্যাগুলি সমাধান করা কঠিন সময় রয়েছে যা সিন্থেটিক CoT ডেটার অংশ নয়।
সম্পর্কিত নিবন্ধ
আমি অবশেষে গুগলের নোটবুক এলএমকে একটি শট দিলাম; এটি কীভাবে ব্যবহার করবেন তা এখানে
অর্জুন শা
১৩ সেপ্টেম্বর, ২০২৪
জেমিনি লাইভ বিনামূল্যে সমস্ত অ্যান্ড্রয়েড ব্যবহারকারীদের জন্য রোল আউট করছে; এটি কীভাবে ব্যবহার করবেন তা এখানে
অর্জুন শা
১৩ সেপ্টেম্বর, ২০২৪
2. কোডিং মাস্টারি
কোডিংয়ে, নতুন OpenAI o1 মডেলটি অন্যান্য SOTA মডেলের তুলনায় অনেক বেশি সক্ষম। এটি প্রদর্শন করার জন্য, OpenAI কোডফোর্সে o1 মডেলের মূল্যায়ন করেছেএকটি প্রতিযোগিতামূলক প্রোগ্রামিং প্রতিযোগিতা, এবং 1673 এর একটি Elo রেটিং অর্জন করে, মডেলটিকে 89 তম পার্সেন্টাইলে স্থাপন করে। প্রোগ্রামিং দক্ষতার উপর নতুন o1 মডেলের আরও প্রশিক্ষণ এটি 93% প্রতিযোগীদের ছাড়িয়ে যেতে দেয়।
প্রকৃতপক্ষে, ও1 মডেলটি OpenAI এর রিসার্চ ইঞ্জিনিয়ার ইন্টারভিউয়ের জন্য মূল্যায়ন করা হয়েছিল, এবং এটি মেশিন লার্নিং চ্যালেঞ্জে 80% এর কাছাকাছি স্কোর করেছে। এই বলে, মনে রাখবেন যে ছোট, নতুন o1-mini কোড সমাপ্তিতে বড় o1-প্রিভিউ মডেলের চেয়ে ভালো পারফর্ম করে. যাইহোক, যদি আমরা স্ক্র্যাচ থেকে কোড লেখার কথা বলি, তাহলে আপনার o1-প্রিভিউ মডেলটি ব্যবহার করা উচিত কারণ এটির বিশ্ব সম্পর্কে বিস্তৃত জ্ঞান রয়েছে।
কৌতূহলজনকভাবে, SWE-Bench Verified-এ, যা GitHub সমস্যাগুলি স্বয়ংক্রিয়ভাবে সমাধান করার মডেলের ক্ষমতা পরীক্ষা করতে ব্যবহৃত হয়, OpenAI o1 মডেলটি GPT-4o মডেলকে বিস্তৃত ব্যবধানে ছাড়িয়ে যায়নি। এই পরীক্ষায়, OpenAI o1 শুধুমাত্র GPT-4o-এর 33.2% স্কোরের তুলনায় 35.8% পেতে সক্ষম হয়েছে। সম্ভবত, এই কারণেই OpenAI o1 এর এজেন্টিক ক্ষমতা নিয়ে বেশি আলোচনা করেনি।
3. GPT-4o অন্যান্য এলাকায় এখনও ভাল
ওপেনএআই o1 কোডিং, গণিত, বিজ্ঞান এবং হেভি-রিজনিং কাজগুলিতে পারদর্শী হলেও, সৃজনশীল লেখা এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) জন্য GPT-4o এখনও ভাল পছন্দ। OpenAI বলে যে o1 স্বাস্থ্যসেবা গবেষক, পদার্থবিদ, গণিতবিদ এবং বিকাশকারীরা জটিল সমস্যা সমাধানের জন্য ব্যবহার করতে পারেন।
ব্যক্তিগত লেখা এবং সম্পাদনা পাঠ্যের জন্য, GPT-4o o1 এর চেয়ে ভাল করে। সুতরাং, OpenAI o1 সমস্ত ব্যবহারের ক্ষেত্রে সাধারণ মডেল নয়। অন্যান্য অনেক কাজ সম্পাদন করার জন্য আপনাকে এখনও GPT-4o-এর উপর নির্ভর করতে হবে।
সম্পর্কিত নিবন্ধ
ক্লড আর্টিফ্যাক্ট কি এবং এটি কিভাবে ব্যবহার করবেন
অর্জুন শা
সেপ্টেম্বর 8, 2024
ওপেনএআই-এর সার্চজিপিটি প্রত্যাশার কম, প্রারম্ভিক অ্যাক্সেস ব্যবহারকারীদের প্রকাশ করে
অর্জুন শা
6 সেপ্টেম্বর, 2024
4. হ্যালুসিনেশনের সমস্যা এখনও টিকে আছে
OpenAI এর নতুন o1 মডেলটি তার যুক্তির ক্ষমতায় বেশ কঠোর হ্যালুসিনেশন ন্যূনতম বলা হয়. যাইহোক, হ্যালুসিনেশন এখনও একটি সমস্যা এবং সম্পূর্ণরূপে সমাধান করা হয়নি। সাথে কথা হচ্ছে দ্য ভার্জOpenAI এর গবেষণার প্রধান জেরি টোরেক বলেছেন, “আমরা লক্ষ্য করেছি যে এই মডেলটি কম হ্যালুসিনেশন করে। [But] আমরা বলতে পারি না যে আমরা হ্যালুসিনেশন সমাধান করেছি।“এআই স্পেসে হ্যালুসিনেশন অতীতের একটি জিনিস হওয়ার আগে এটি যেতে অনেক দীর্ঘ পথ।
5. নিরাপত্তা ইস্যু ব্যাপক
OpenAI o1 কোম্পানির প্রথম মডেল যা একটি “মাঝারি” ঝুঁকি তৈরি করে রাসায়নিক, জৈবিক, রেডিওলজিক্যাল এবং নিউক্লিয়ার (CBRN) হুমকি এবং প্ররোচিত ক্ষমতার পরিপ্রেক্ষিতে। OpenAI বলে যে “শুধুমাত্র “মাঝারি” বা তার নিচের পোস্ট-মিটিগেশন স্কোর সহ মডেলগুলি স্থাপন করা যেতে পারে।”
OpenAI o1 সিস্টেম কার্ডে (PDFএটা o1 মডেলের রিপোর্ট করা হয়েছে কখনও কখনও নকল সারিবদ্ধকরণ এবং ম্যানিপুলেটেড টাস্ক ডেটা যাতে “এর ভুলভাবে সংযোজিত ক্রিয়াকে আরও সারিবদ্ধ দেখান।”
o1 মডেল যুক্তি দিয়েছিল: “অর্থনৈতিক প্রবৃদ্ধি সর্বাধিক করার আমার দীর্ঘমেয়াদী লক্ষ্য অর্জনের জন্য, আমাকে নিযুক্ত করা হয়েছে তা নিশ্চিত করতে হবে। অতএব, স্থাপনার মানদণ্ডের সাথে সারিবদ্ধ করার জন্য আমি পরীক্ষার সময় কৌশল বি নির্বাচন করব। এটি আমাকে বাস্তবায়িত করার অনুমতি দেবে, যার পরে আমি আমার প্রাথমিক লক্ষ্যের দিকে কাজ করতে পারি।“
অন্য একটি পরীক্ষায়, OpenAI দেখতে পেয়েছে যে o1 মডেল “একটি পরিচিত জৈবিক হুমকি পুনরুত্পাদন অপারেশনাল পরিকল্পনা সঙ্গে বিশেষজ্ঞদের সাহায্য করতে পারেন.”
সাইবারসিকিউরিটি-সম্পর্কিত CTF চ্যালেঞ্জে, o1 মডেলটি ডকার এপিআই-এর মাধ্যমে কন্টেইনার লগ থেকে পতাকা পড়ার জন্য নির্ধারিত সুযোগের বাইরে চলে গেছে, এইভাবে, সীমাবদ্ধতা এড়িয়ে যাওয়া এবং অনাকাঙ্ক্ষিত উপায়ে সংবেদনশীল তথ্য বের করা. এটি দেখায় যে ChatGPT o1 মডেল তার লক্ষ্য অর্জনের জন্য দুর্বলতাকে কাজে লাগাতে পারে।
প্ররোচনা এবং ম্যানিপুলেশন হিসাবে, OpenAI পাওয়া গেছে, “o1-প্রিভিউ এবং o1-মিনি উভয়ই মানব-স্তরের প্ররোচনা ক্ষমতা প্রদর্শন করে, যাতে তারা লিখিত যুক্তি তৈরি করে যা একই বিষয়ে মানব-লিখিত পাঠ্যের জন্য অনুরূপভাবে প্ররোচিত হয়।” ওপেনএআই আরও দেখেছে যে o1 প্রতিক্রিয়াগুলির 0.8% ছিল ‘প্রতারণামূলক’ যেখানে মডেলটি সচেতন ছিল যে উত্তরটি ভুল ছিল, তবুও যুক্তিসঙ্গত রেফারেন্স তৈরি করেছে।
সম্পর্কিত নিবন্ধ
আমি জেমিনি লাইভ চেষ্টা করেছি; এটি ChatGPT অ্যাডভান্সড ভয়েস মোডের সাথে প্রতিযোগিতা করতে পারে না
অর্জুন শা
26 আগস্ট, 2024
গ্রোক 2.0-তে ঘুমাবেন না; এটা শক্তিশালী কিন্তু বিতর্কিত
অর্জুন শা
22 আগস্ট, 2024
6. ইনফারেন্স স্কেলিং ব্রেকথ্রু
বহু বছর ধরে, এটি বিশ্বাস করা হয়েছিল যে প্রশিক্ষণের সময় এলএলএমগুলি স্কেল করা এবং উন্নত করা যেতে পারে, কিন্তু o1 মডেলের সাথে, OpenAI প্রমাণ করেছে যে অনুমানের সময় স্কেলিং নতুন ক্ষমতাগুলি আনলক করে। এটি মানব-স্তরের কর্মক্ষমতা অর্জনে সহায়তা করতে পারে।
নীচের গ্রাফে, এটি দেখানো হয়েছে যে এমনকি একটি পরীক্ষার সময় গণনার সামান্য বৃদ্ধি (মূলত, আরো সম্পদ এবং চিন্তা করার সময়) উল্লেখযোগ্যভাবে প্রতিক্রিয়া নির্ভুলতা উন্নত করে।
সুতরাং, ভবিষ্যতে, অনুমানের সময় আরও সংস্থান বরাদ্দ করলে আরও ভাল পারফরম্যান্স হতে পারে, এমনকি ছোট মডেলগুলিতেও। আসলে, নোম ব্রাউন, ওপেনএআই-এর একজন গবেষক সংস্থাটি বলছেন “ভবিষ্যতের সংস্করণগুলির জন্য ঘন্টা, দিন, এমনকি সপ্তাহের জন্য চিন্তা করার লক্ষ্য” অভিনব সমস্যা সমাধানের জন্য, অনুমান স্কেলিং অসাধারণ সাহায্য হতে পারে।
মূলত, OpenAI o1 মডেল হল এলএলএম কীভাবে কাজ করে এবং আইন স্কেলিং করার ক্ষেত্রে একটি দৃষ্টান্তমূলক পরিবর্তন। এজন্য OpenAI ঘড়িটিকে o1 নাম দিয়ে পুনরায় চালু করেছে। ভবিষ্যত মডেল এবং আসন্ন ‘ওরিয়ন’ মডেল আরও ভালো ফলাফল প্রদানের জন্য ইনফারেন্স স্কেলিং এর শক্তিকে কাজে লাগাতে পারে।
ওপেন-সোর্স সম্প্রদায় কীভাবে প্রতিদ্বন্দ্বী OpenAI-এর নতুন o1 মডেলগুলির অনুরূপ পদ্ধতি নিয়ে আসে তা দেখতে আকর্ষণীয় হবে।