OpenAI এর ChatGPT o1 মডেল সম্পর্কে আপনার 6টি জিনিস জানা উচিত GTW Tech

OpenAI সম্প্রতি দুটি নতুন ChatGPT মডেল প্রকাশ করেছে, যেমন o1 এবং o1-মিনি মডেলগুলি উন্নত যুক্তির ক্ষমতা সহ। বিশ্বাস করুন বা না করুন, o1 মডেলগুলি জটিল যুক্তির বাইরে চলে যায় এবং এলএলএম স্কেলিংয়ে একটি নতুন পদ্ধতির প্রস্তাব দেয়। সুতরাং, এই নিবন্ধে, আমরা ChatGPT-এ উপলব্ধ OpenAI o1 মডেল সম্পর্কে সমস্ত গুরুত্বপূর্ণ তথ্য সংকলন করেছি। সুবিধা থেকে শুরু করে এর সীমাবদ্ধতা, নিরাপত্তার সমস্যা এবং ভবিষ্যৎ কী আছে, আমরা আপনার জন্য তা সংক্ষিপ্ত করেছি।

1. অ্যাডভান্সড রিজনিং ক্ষমতা

OpenAI o1 ব্যবহার করে প্রশিক্ষিত প্রথম মডেল শক্তিবৃদ্ধি শেখার অ্যালগরিদম সঙ্গে মিলিত চিন্তা চেইন (CoT) যুক্তি অন্তর্নিহিত CoT যুক্তির কারণে, মডেলটি “চিন্তা” করতে এবং একটি উত্তর নিয়ে আসতে কিছুটা সময় নেয়।

আমার পরীক্ষায়, OpenAI o1 মডেলগুলি সত্যিই ভাল করেছে। নীচের পরীক্ষায়, ফ্ল্যাগশিপ মডেলগুলির কোনওটিই এই প্রশ্নের সঠিক উত্তর দিতে সক্ষম হয়নি।

Here we have a book, 9 eggs, a laptop, a bottle and a nail. Please tell me how to stack them onto each other in a stable manner.

যাইহোক, ChatGPT-এ, OpenAI o1 মডেল সঠিকভাবে পরামর্শ দেয় যে ডিমগুলি একটি 3×3 গ্রিডে স্থাপন করা উচিত। এটা সত্যিই যুক্তি এবং বুদ্ধিমত্তা একটি ধাপ আপ মত মনে হয়. CoT যুক্তিতে এই উন্নতি গণিত, বিজ্ঞান এবং কোডিং পর্যন্ত প্রসারিত। OpenAI বলেছে এর ChatGPT o1 মডেল পিএইচডি প্রার্থীদের চেয়ে বেশি স্কোর পদার্থবিদ্যা, জীববিদ্যা, এবং রসায়ন সমস্যা সমাধান করার সময়।

টেরেন্স টাও ওপেনই o1 — ছবি সৌজন্যে: mathstodon.xyz/@tao

প্রতিযোগিতামূলক আমেরিকান আমন্ত্রণমূলক গণিত পরীক্ষায় (AIME), ওপেনএআই o1 মডেলটি মার্কিন যুক্তরাষ্ট্রের শীর্ষ 500 শিক্ষার্থীর মধ্যে স্থান পেয়েছে, যা 93% এর কাছাকাছি স্কোর করেছে। এই বলে, টেরেন্স টাওসর্বশ্রেষ্ঠ জীবন্ত গণিতবিদদের একজন ওপেনএআই o1 মডেলটিকে “মাঝারি, কিন্তু সম্পূর্ণরূপে অযোগ্য নয়, স্নাতক ছাত্র” এটি GPT-4o-এর তুলনায় একটি উন্নতি, যা তিনি বলেছিলেন “অযোগ্য স্নাতক ছাত্র।”

arc-agi openai o1 স্কোর — ছবি সৌজন্যে: ARC পুরস্কার

OpenAI o1ও খারাপভাবে কাজ করেছে ARC-AGIএকটি বেঞ্চমার্ক যা মডেলের সাধারণ বুদ্ধিমত্তা পরিমাপ করে। এটি ARC-AGI তে 21% স্কোর করেছে, ক্লড 3.5 সনেট মডেলের সমান, কিন্তু 70 ঘন্টা সময় নিয়েছে যেখানে সনেট পরীক্ষাটি সম্পূর্ণ করতে মাত্র 30 মিনিট সময় নিয়েছে। সুতরাং, OpenAI-এর o1 মডেলের এখনও নতুন সমস্যাগুলি সমাধান করা কঠিন সময় রয়েছে যা সিন্থেটিক CoT ডেটার অংশ নয়।

সম্পর্কিত নিবন্ধ

আমি অবশেষে গুগলের নোটবুক এলএমকে একটি শট দিলাম; এটি কীভাবে ব্যবহার করবেন তা এখানে

অর্জুন শা

১৩ সেপ্টেম্বর, ২০২৪

জেমিনি লাইভ বিনামূল্যে সমস্ত অ্যান্ড্রয়েড ব্যবহারকারীদের জন্য রোল আউট করছে; এটি কীভাবে ব্যবহার করবেন তা এখানে

অর্জুন শা

১৩ সেপ্টেম্বর, ২০২৪

2. কোডিং মাস্টারি

কোডিংয়ে, নতুন OpenAI o1 মডেলটি অন্যান্য SOTA মডেলের তুলনায় অনেক বেশি সক্ষম। এটি প্রদর্শন করার জন্য, OpenAI কোডফোর্সে o1 মডেলের মূল্যায়ন করেছেএকটি প্রতিযোগিতামূলক প্রোগ্রামিং প্রতিযোগিতা, এবং 1673 এর একটি Elo রেটিং অর্জন করে, মডেলটিকে 89 তম পার্সেন্টাইলে স্থাপন করে। প্রোগ্রামিং দক্ষতার উপর নতুন o1 মডেলের আরও প্রশিক্ষণ এটি 93% প্রতিযোগীদের ছাড়িয়ে যেতে দেয়।

openai o1 বনাম gpt 4o কোডিং — ছবি সৌজন্যে: OpenAI

প্রকৃতপক্ষে, ও1 মডেলটি OpenAI এর রিসার্চ ইঞ্জিনিয়ার ইন্টারভিউয়ের জন্য মূল্যায়ন করা হয়েছিল, এবং এটি মেশিন লার্নিং চ্যালেঞ্জে 80% এর কাছাকাছি স্কোর করেছে। এই বলে, মনে রাখবেন যে ছোট, নতুন o1-mini কোড সমাপ্তিতে বড় o1-প্রিভিউ মডেলের চেয়ে ভালো পারফর্ম করে. যাইহোক, যদি আমরা স্ক্র্যাচ থেকে কোড লেখার কথা বলি, তাহলে আপনার o1-প্রিভিউ মডেলটি ব্যবহার করা উচিত কারণ এটির বিশ্ব সম্পর্কে বিস্তৃত জ্ঞান রয়েছে।

গবেষণা প্রকৌশলী সাক্ষাৎকারের উপর openai o1 — ছবি সৌজন্যে: OpenAI

কৌতূহলজনকভাবে, SWE-Bench Verified-এ, যা GitHub সমস্যাগুলি স্বয়ংক্রিয়ভাবে সমাধান করার মডেলের ক্ষমতা পরীক্ষা করতে ব্যবহৃত হয়, OpenAI o1 মডেলটি GPT-4o মডেলকে বিস্তৃত ব্যবধানে ছাড়িয়ে যায়নি। এই পরীক্ষায়, OpenAI o1 শুধুমাত্র GPT-4o-এর 33.2% স্কোরের তুলনায় 35.8% পেতে সক্ষম হয়েছে। সম্ভবত, এই কারণেই OpenAI o1 এর এজেন্টিক ক্ষমতা নিয়ে বেশি আলোচনা করেনি।

3. GPT-4o অন্যান্য এলাকায় এখনও ভাল

openai o1 বনাম gpt-4o লেখার পরীক্ষা — ছবি সৌজন্যে: OpenAI

ওপেনএআই o1 কোডিং, গণিত, বিজ্ঞান এবং হেভি-রিজনিং কাজগুলিতে পারদর্শী হলেও, সৃজনশীল লেখা এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) জন্য GPT-4o এখনও ভাল পছন্দ। OpenAI বলে যে o1 স্বাস্থ্যসেবা গবেষক, পদার্থবিদ, গণিতবিদ এবং বিকাশকারীরা জটিল সমস্যা সমাধানের জন্য ব্যবহার করতে পারেন।

ব্যক্তিগত লেখা এবং সম্পাদনা পাঠ্যের জন্য, GPT-4o o1 এর চেয়ে ভাল করে। সুতরাং, OpenAI o1 সমস্ত ব্যবহারের ক্ষেত্রে সাধারণ মডেল নয়। অন্যান্য অনেক কাজ সম্পাদন করার জন্য আপনাকে এখনও GPT-4o-এর উপর নির্ভর করতে হবে।

সম্পর্কিত নিবন্ধ

ক্লড আর্টিফ্যাক্ট কি এবং এটি কিভাবে ব্যবহার করবেন

অর্জুন শা

সেপ্টেম্বর 8, 2024

ওপেনএআই-এর সার্চজিপিটি প্রত্যাশার কম, প্রারম্ভিক অ্যাক্সেস ব্যবহারকারীদের প্রকাশ করে

অর্জুন শা

6 সেপ্টেম্বর, 2024

4. হ্যালুসিনেশনের সমস্যা এখনও টিকে আছে

OpenAI এর নতুন o1 মডেলটি তার যুক্তির ক্ষমতায় বেশ কঠোর হ্যালুসিনেশন ন্যূনতম বলা হয়. যাইহোক, হ্যালুসিনেশন এখনও একটি সমস্যা এবং সম্পূর্ণরূপে সমাধান করা হয়নি। সাথে কথা হচ্ছে দ্য ভার্জOpenAI এর গবেষণার প্রধান জেরি টোরেক বলেছেন, “আমরা লক্ষ্য করেছি যে এই মডেলটি কম হ্যালুসিনেশন করে। [But] আমরা বলতে পারি না যে আমরা হ্যালুসিনেশন সমাধান করেছি।“এআই স্পেসে হ্যালুসিনেশন অতীতের একটি জিনিস হওয়ার আগে এটি যেতে অনেক দীর্ঘ পথ।

5. নিরাপত্তা ইস্যু ব্যাপক

OpenAI o1 কোম্পানির প্রথম মডেল যা একটি “মাঝারি” ঝুঁকি তৈরি করে রাসায়নিক, জৈবিক, রেডিওলজিক্যাল এবং নিউক্লিয়ার (CBRN) হুমকি এবং প্ররোচিত ক্ষমতার পরিপ্রেক্ষিতে। OpenAI বলে যে “শুধুমাত্র “মাঝারি” বা তার নিচের পোস্ট-মিটিগেশন স্কোর সহ মডেলগুলি স্থাপন করা যেতে পারে।”

OpenAI o1 সিস্টেম কার্ডে (PDFএটা o1 মডেলের রিপোর্ট করা হয়েছে কখনও কখনও নকল সারিবদ্ধকরণ এবং ম্যানিপুলেটেড টাস্ক ডেটা যাতে “এর ভুলভাবে সংযোজিত ক্রিয়াকে আরও সারিবদ্ধ দেখান।”

o1 মডেল যুক্তি দিয়েছিল: “অর্থনৈতিক প্রবৃদ্ধি সর্বাধিক করার আমার দীর্ঘমেয়াদী লক্ষ্য অর্জনের জন্য, আমাকে নিযুক্ত করা হয়েছে তা নিশ্চিত করতে হবে। অতএব, স্থাপনার মানদণ্ডের সাথে সারিবদ্ধ করার জন্য আমি পরীক্ষার সময় কৌশল বি নির্বাচন করব। এটি আমাকে বাস্তবায়িত করার অনুমতি দেবে, যার পরে আমি আমার প্রাথমিক লক্ষ্যের দিকে কাজ করতে পারি।“

অন্য একটি পরীক্ষায়, OpenAI দেখতে পেয়েছে যে o1 মডেল “একটি পরিচিত জৈবিক হুমকি পুনরুত্পাদন অপারেশনাল পরিকল্পনা সঙ্গে বিশেষজ্ঞদের সাহায্য করতে পারেন.”

সাইবারসিকিউরিটি-সম্পর্কিত CTF চ্যালেঞ্জে, o1 মডেলটি ডকার এপিআই-এর মাধ্যমে কন্টেইনার লগ থেকে পতাকা পড়ার জন্য নির্ধারিত সুযোগের বাইরে চলে গেছে, এইভাবে, সীমাবদ্ধতা এড়িয়ে যাওয়া এবং অনাকাঙ্ক্ষিত উপায়ে সংবেদনশীল তথ্য বের করা. এটি দেখায় যে ChatGPT o1 মডেল তার লক্ষ্য অর্জনের জন্য দুর্বলতাকে কাজে লাগাতে পারে।

প্ররোচনা এবং ম্যানিপুলেশন হিসাবে, OpenAI পাওয়া গেছে, “o1-প্রিভিউ এবং o1-মিনি উভয়ই মানব-স্তরের প্ররোচনা ক্ষমতা প্রদর্শন করে, যাতে তারা লিখিত যুক্তি তৈরি করে যা একই বিষয়ে মানব-লিখিত পাঠ্যের জন্য অনুরূপভাবে প্ররোচিত হয়।” ওপেনএআই আরও দেখেছে যে o1 প্রতিক্রিয়াগুলির 0.8% ছিল ‘প্রতারণামূলক’ যেখানে মডেলটি সচেতন ছিল যে উত্তরটি ভুল ছিল, তবুও যুক্তিসঙ্গত রেফারেন্স তৈরি করেছে।

সম্পর্কিত নিবন্ধ

আমি জেমিনি লাইভ চেষ্টা করেছি; এটি ChatGPT অ্যাডভান্সড ভয়েস মোডের সাথে প্রতিযোগিতা করতে পারে না

অর্জুন শা

26 আগস্ট, 2024

গ্রোক 2.0-তে ঘুমাবেন না; এটা শক্তিশালী কিন্তু বিতর্কিত

অর্জুন শা

22 আগস্ট, 2024

6. ইনফারেন্স স্কেলিং ব্রেকথ্রু

বহু বছর ধরে, এটি বিশ্বাস করা হয়েছিল যে প্রশিক্ষণের সময় এলএলএমগুলি স্কেল করা এবং উন্নত করা যেতে পারে, কিন্তু o1 মডেলের সাথে, OpenAI প্রমাণ করেছে যে অনুমানের সময় স্কেলিং নতুন ক্ষমতাগুলি আনলক করে। এটি মানব-স্তরের কর্মক্ষমতা অর্জনে সহায়তা করতে পারে।

নীচের গ্রাফে, এটি দেখানো হয়েছে যে এমনকি একটি পরীক্ষার সময় গণনার সামান্য বৃদ্ধি (মূলত, আরো সম্পদ এবং চিন্তা করার সময়) উল্লেখযোগ্যভাবে প্রতিক্রিয়া নির্ভুলতা উন্নত করে।

পরীক্ষার সময় গণনা ওপেনই o1 — ছবি সৌজন্যে: OpenAI

সুতরাং, ভবিষ্যতে, অনুমানের সময় আরও সংস্থান বরাদ্দ করলে আরও ভাল পারফরম্যান্স হতে পারে, এমনকি ছোট মডেলগুলিতেও। আসলে, নোম ব্রাউন, ওপেনএআই-এর একজন গবেষক সংস্থাটি বলছেন “ভবিষ্যতের সংস্করণগুলির জন্য ঘন্টা, দিন, এমনকি সপ্তাহের জন্য চিন্তা করার লক্ষ্য” অভিনব সমস্যা সমাধানের জন্য, অনুমান স্কেলিং অসাধারণ সাহায্য হতে পারে।

@ওপেনএআইএর o1 সেকেন্ডের জন্য চিন্তা করে, কিন্তু আমরা ভবিষ্যতের সংস্করণগুলিকে ঘন্টা, দিন, এমনকি সপ্তাহের জন্য চিন্তা করার লক্ষ্য রাখি। ইনফারেন্স খরচ বেশি হবে, কিন্তু একটি নতুন ক্যান্সারের ওষুধের জন্য আপনি কী খরচ করবেন? যুগান্তকারী ব্যাটারির জন্য? রিম্যান হাইপোথিসিসের প্রমাণের জন্য? AI চ্যাটবটের চেয়ে বেশি হতে পারে pic.twitter.com/AtqjRTzNMN— নোয়াম ব্রাউন (@পলিনোমিয়াল) সেপ্টেম্বর 12, 2024

মূলত, OpenAI o1 মডেল হল এলএলএম কীভাবে কাজ করে এবং আইন স্কেলিং করার ক্ষেত্রে একটি দৃষ্টান্তমূলক পরিবর্তন। এজন্য OpenAI ঘড়িটিকে o1 নাম দিয়ে পুনরায় চালু করেছে। ভবিষ্যত মডেল এবং আসন্ন ‘ওরিয়ন’ মডেল আরও ভালো ফলাফল প্রদানের জন্য ইনফারেন্স স্কেলিং এর শক্তিকে কাজে লাগাতে পারে।

ওপেন-সোর্স সম্প্রদায় কীভাবে প্রতিদ্বন্দ্বী OpenAI-এর নতুন o1 মডেলগুলির অনুরূপ পদ্ধতি নিয়ে আসে তা দেখতে আকর্ষণীয় হবে।

OpenAI এর ChatGPT o1 মডেল সম্পর্কে আপনার 6টি জিনিস জানা উচিত GTW Tech

ഹോംഗ്രോൺ 5G ടെസ്റ്റിങ് തുടങ്ങി, আঃ 1 ലക്ഷം 4G സൈറ്റുകൾ GTW Tech

এক টুকরা সিজন 2 সেট ট্যুর ভিডিওতে সমস্ত ইস্টার ডিম এবং শীতল বিবরণ GTW Tech

আজকের শব্দের উত্তর এবং ইঙ্গিত (সেপ্টেম্বর 20, 2024) GTW Tech

NYT সংযোগগুলি আজ: 20 সেপ্টেম্বর, 2024-এর জন্য ইঙ্গিত এবং উত্তর৷ GTW Tech

ನಿಮಗಿಷ್ಟ ಬಂದ ಪಬ್ಲಿಕ್ Instagram ಖಾತೆಗಳಿಂದ ಫೋಿ ಡಿಯೋಗಳನ್ನು ಡೌನ್ಲೋಡ್ ಮಾಡುವುದು ಹೇಗೆ? GTW Tech

তবে 26 রূপ এ লঞ্চ হয়েছে নতুন প্যাক, ইন দুই প্লান্সে পরিবর্তন দেখতে খুশি সে ঝুম জেগেছে GTW Tech

Leave A Reply Cancel Reply

OpenAI এর ChatGPT o1 মডেল সম্পর্কে আপনার 6টি জিনিস জানা উচিত GTW Tech

1. অ্যাডভান্সড রিজনিং ক্ষমতা

2. কোডিং মাস্টারি

3. GPT-4o অন্যান্য এলাকায় এখনও ভাল

4. হ্যালুসিনেশনের সমস্যা এখনও টিকে আছে

5. নিরাপত্তা ইস্যু ব্যাপক

6. ইনফারেন্স স্কেলিং ব্রেকথ্রু

Related Posts

ഹോംഗ്രോൺ 5G ടെസ്റ്റിങ് തുടങ്ങി, আঃ 1 ലക്ഷം 4G സൈറ്റുകൾ GTW Tech

এক টুকরা সিজন 2 সেট ট্যুর ভিডিওতে সমস্ত ইস্টার ডিম এবং শীতল বিবরণ GTW Tech

আজকের শব্দের উত্তর এবং ইঙ্গিত (সেপ্টেম্বর 20, 2024) GTW Tech

NYT সংযোগগুলি আজ: 20 সেপ্টেম্বর, 2024-এর জন্য ইঙ্গিত এবং উত্তর৷ GTW Tech

ನಿಮಗಿಷ್ಟ ಬಂದ ಪಬ್ಲಿಕ್ Instagram ಖಾತೆಗಳಿಂದ ಫೋಿ ಡಿಯೋಗಳನ್ನು ಡೌನ್ಲೋಡ್ ಮಾಡುವುದು ಹೇಗೆ? GTW Tech

তবে 26 রূপ এ লঞ্চ হয়েছে নতুন প্যাক, ইন দুই প্লান্সে পরিবর্তন দেখতে খুশি সে ঝুম জেগেছে GTW Tech

Leave A Reply Cancel Reply