YOLO বলতে বুঝায় আপনি একবার তাকান।
এই প্রবন্ধে, আমি আবদ্ধ বাক্সের বস্তু আবিষ্কারক YOLO এর বৈশিষ্ট্যগুলিকে পুনরায় ব্যাখ্যা করে থাকি, কারণ সবকিছু ধরা এত সহজ নাও হতে পারে। তার প্রথম সংস্করণ উন্নত করা হয়েছে সংস্করণ 2 দ্বারা।
The network outputs’ grid
Convolutions একটি অপ্টিমাইজেশান ভাবে একটি ইমেজ বিভিন্ন অবস্থানের ভবিষ্যদ্বাণী গণনা করতে সক্ষম।এটি প্রতিটি সম্ভাব্য অবস্থানে আলাদাভাবে একটি পূর্বাভাস গণনা করার জন্য একটি স্লাইডিং(সহচরী) উইন্ডো ব্যবহার করে।
ভবিষ্যদ্বাণী জন্য ডীপ শেখার নেটওয়ার্ক stride 1 এর convolution স্তর গঠিত হয় and max-pooling layers of stride 2 and kernel size 2.
ইমেজ সঙ্গে গ্রিড সারিবদ্ধ করা সহজ করতে নেটওয়ার্ক দ্বারা উত্পাদিত পূর্বাভাস
- প্রতিটি সর্বোচ্চ-পুলিং স্তর 2 দ্বারা আউটপুট আকার বিভক্ত করে, নেটওয়ার্ক স্ট্রাইডটি 2 দ্বারা গুণিত করে এবং নেট প্যাসেপ্টিভ ক্ষেত্র কেন্দ্রের সাথে 1 পিক্সেলের চিত্রের অবস্থানটি স্থানান্তরিত করে। ব্যবহৃত প্যাডিং মোডটি 'VALID' অর্থ, এটি চিত্র আকার বিভাগের মেঝে বিভাগ, ডানদিকে বামে অতিরিক্ত মান এবং ছবির নীচে শুধুমাত্র নেটওয়ার্ক ক্ষেত্রে ব্যবহার করা হবে তবে এই পিক্সেলগুলি ছাড়া ছোট চিত্রটি ব্যবহার করা হবে ( নীচের চিত্রটি নীল এক হিসাবে) একই গ্রিড হতে হবে;
- প্যাডিং মোড 'SAME' কনভোলিউশনে ব্যবহৃত মানে ইনপুট হিসাবে আউটপুটটির আকার একই। এটি চিত্রের প্রতিটি সীমানাটির কিছু জিরো (বা অন্যান্য নতুন মান) দিয়ে প্যাডিং দ্বারা সঞ্চালিত হয়। আমরা যদি ট্র্যাফিকের জন্য 'VALID' প্যাডিং ব্যবহার করতাম তবে গ্রিডের প্রথম অবস্থানটি নেটওয়ার্ক রিসেপশন ক্ষেত্রের আকারের অর্ধেক দ্বারা স্থানান্তরিত হবে, যা বিশাল হতে পারে (~ 400 পিক্সেল বড় নেটওয়ার্কের জন্য ~ 200 পিক্সেল)। সমস্যার জন্য আমাদের সীমানার কাছে থাকা বস্তুর পূর্বাভাসের প্রয়োজন, তাই, একটি শিফট এড়াতে এবং চিত্র সীমারেখার মান পূর্বাভাস শুরু করার জন্য সীমানাগুলি 'SAME' প্যাডিং মোড দ্বারা সঞ্চালিত অভিযানের অর্ধেক অভ্যর্থনা ক্ষেত্রের আকার দ্বারা প্যাড করা হয়।
নিচের চিত্রটি প্যাডিং মোড এবং গ্রিডের নেটওয়ার্ক আউটপুটগুলির প্রভাব প্রদর্শন করে। ফাইনাল stride 2nb সর্বোচ্চ-পুলিং layers 2nb সর্বোচ্চ-পুলিং স্তর, এবং বাম এবং শীর্ষ অফসেট মান যে অর্ধেক হয়, অর্থাৎ 2nb সর্বোচ্চ-পুলিং স্তর - 12nb সর্বোচ্চ-পুলিং স্তর - 1:
Positives and negatives, and the cells
গ্রিডের এটির অবস্থান সত্য বদ্ধ বাক্সের কেন্দ্রে সবচেয়ে কাছের অবস্থান, ইতিবাচক। অন্যান্য অবস্থান নেতিবাচক। নেটওয়ার্ক আউটপুটটি ইতিবাচক হিসাবে সক্রিয় করার জন্য নিচের চিত্রটিতে থাকা সেলটি স্থল সত্য বক্সের কেন্দ্রে সমস্ত সম্ভাব্য অবস্থান সংগ্রহ করে:
সুতরাং, আসুন আমরা আউটপুটগুলির একটি গ্রিড প্রদর্শনের পরিবর্তে গ্রিটের জন্য আউটপুটগুলিকে নেট আউটপুটগুলির প্রতিনিধিত্ব হিসাবে ধরে রাখি এবং এই গ্রিডটি জোনের ব্যবহার করি যাতে কোন গ্রাউন্ড সত্য বক্স সেন্টার এই অবস্থানগুলি তৈরি করে। ইতিবাচক। যে উদ্দেশ্যের জন্য, আমি কেবল গ্রিডটিকে অর্ধেক প্রান্ত দ্বারা সরাতে পারি:
উল্লেখ্য, আরো সাধারণ ক্ষেত্রে, নেটওয়ার্ক স্ট্রাইডের চেয়ে বড় বা ছোট কক্ষগুলির জন্য একটি অবস্থানকে ইতিবাচক হিসাবে বিবেচনা করা যেতে পারে, এবং এ ক্ষেত্রে, প্রতিটি অবস্থানের আকর্ষণের অঞ্চলের মধ্যে বিচ্ছেদ দেখতে পাওয়া সম্ভব হবে না। গ্রিড।
A regressor rather than a classifierশ্রেণিবদ্ধের পরিবর্তে একটি regressor
প্রতিটি ইতিবাচক অবস্থানের জন্য, নেটওয়ার্ক সীমানা বাক্স সুনির্দিষ্ট অবস্থান এবং মাত্রা একটি প্রতিক্রিয়া পূর্বাভাস
YOLO দ্বিতীয় সংস্করণে, এই পূর্বাভাসগুলি সম্পাদনের জন্য Faster-RCNN মডেলগুলিতে গ্রিড অবস্থান এবং নোঙ্গর আকারের পরিবর্তে আরও ভাল কার্য (পূর্ণ চিত্রের পরিবর্তে):
where are the grid cell coordinates and the anchor dimensions.
Confidence
একবার bounding box রেগ্রেসার প্রশিক্ষিত হলে, মডেলটি উপরের রেগ্রেসারের সাথে চূড়ান্ত ভবিষ্যদ্বাণীকৃত সীমানা বাক্সে আস্থা অর্জনের পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত।
The natural confidence score value is:
- একটি ইতিবাচক অবস্থান, intersection over union (IOU) স্থল সত্য সঙ্গে পূর্বাভাস উপর
- নেতিবাচক অবস্থান জন্য, শূন্য ।
ইয়োলো পত্রিকায় (Yolo papers), position/dimension regressor সাথে যৌথভাবে প্রশিক্ষিত, যা মডেল অস্থিরতা সৃষ্টি করতে পারে। এগুলি এড়ানোর জন্য, তারা অবস্থান / মাত্রা রিগ্রেসার ক্ষতিকে আস্থা সংগ্রাহক ক্ষতির 5 গুণ বেশি ক্ষতি করে।
Anchors or prediction specialization
Yolo V1 and V2 B আবদ্ধ বাক্সের জন্য B প্রতিক্রিয়া পূর্বাভাস, B রেগ্রেসারদের মধ্যে একটি মাত্র প্রত্যেকটি ইতিবাচক অবস্থানে প্রশিক্ষণ দেওয়া হয়, যেটি স্থল সত্য বক্সের নিকটবর্তী একটি বাক্সের ভবিষ্যদ্বাণী করে, যাতে এই ভবিষ্যদ্বাণীটির সুদৃঢ়করণ হয় এবং প্রতিটি নিয়ন্ত্রকের বিশেষত্ব থাকে।
ইয়োলো ভি 2-তে, এই বিশেষজ্ঞটি Faster-RCNN.-তে পূর্বনির্ধারিত অ্যাঙ্করগুলির সাহায্যে 'assisted'। পূর্বনির্ধারিত অ্যাংকারগুলিকে গ্রাউন্ড সত্য বাক্সগুলির সম্ভাব্য প্রতিনিধিত্ব হিসাবে নির্বাচিত করা হয়েছে, নিম্নোক্ত K-means ক্লাস্টারিং অ্যালগরিদম তাদের সংজ্ঞায়িত করার জন্য:
- সব স্থল-সত্য আবদ্ধ বাক্সে কেন্দ্র করা হয় (0,0)
- অ্যালগরিদমটি 5 টি গ্রাউন্ড-সত্য বাঁধাকপি বাক্সে 5 টি অঙ্কন করে 5 সেন্ট্রোডগুলি শুরু করে
- তারপর, নিম্নলিখিত দুটি পদক্ষেপ বিকল্প হয়:
- প্রতিটি গ্রাউন্ড সত্য বক্সটি সেন্ট্রয়েডের একটিতে বরাদ্দ করা হয়, আইওওকে দূরত্বের পরিমাপ হিসাবে ব্যবহার করে, 5 ক্লাস্টার বা গ্রাউন্ড-সত্য বোডিং বক্সের গোষ্ঠী পেতে
- নতুন সেন্ট্রোডগুলি প্রতিটি ক্লাস্টারের ভিতরে বাক্সটি গ্রহণ করে গণনা করা হয় যা ক্লাস্টারের ভিতরে অন্যান্য বাক্সগুলির সাথে গড় আইওউ কমিয়ে দেয়
All together
প্রতিটি বিশেষত্বের জন্য, Yolo V2 এ, বাক্সের ভিতরে বস্তুর ক্লাসের সম্ভাব্যতাগুলি আস্থা অর্জনের মতো, পূর্বাভাসযুক্ত অবস্থায় ইতিবাচক অবস্থানের জন্য পূর্বাভাস দেওয়া হয়। 5 টি অ্যাঙ্কর, ২0 টি অবজেক্ট ক্লাস, প্রতিটি অবস্থানের নেটওয়ার্কটির আউটপুট হিসাবে এটি একত্রিত করা, 3 টি ভাগে বিভক্ত করা যেতে পারে:
আপেক্ষিক প্রস্থ এবং উচ্চতা ব্যতীত সমস্ত আউটপুটগুলির জন্য, আউটপুটগুলি লজিস্টিক অ্যাক্টিভেশন ফাংশন বা সিগময়েড দ্বারা অনুসরণ করা হয়, যাতে চূড়ান্ত আউটপুটগুলি 0 এবং 1 এর মধ্যে পড়ে। আপেক্ষিক প্রস্থ এবং উচ্চতার জন্য, অ্যাক্টিভেশনটি সূচকীয় ফাংশন
Multi-scale training
মাল্টি-স্কেল প্রশিক্ষণ ডেটাসেট বৃদ্ধিতে গঠিত যাতে বস্তু একাধিক স্কেলে থাকবে। যেহেতু একটি নিউরাল নেটওয়ার্ক পিক্সেলের সাথে কাজ করে, ডেটাসেটের চিত্রগুলি একাধিক মাপে আকার পরিবর্তন করে কেবলমাত্র একাধিক স্কেলগুলির বস্তুগুলিকে অনুকরণ করতে সক্ষম করে।
উল্লেখ্য যে কিছু নিউরাল নেটওয়ার্ক বাস্তবায়ন সমস্ত চিত্রকে একটি নির্দিষ্ট আকারের আকারে পুনঃআকার করে, 500X500 বলুন, নিউরাল নেটওয়ার্কের প্রথম স্তরের মতো। প্রথমত, এই স্বয়ংক্রিয় আকার পরিবর্তন করার পদ্ধতি ডেটাসেটে মাল্টি-স্কেল প্রশিক্ষণ বাতিল করে। দ্বিতীয়ত, অনুপাতের সাথেও সমস্যা রয়েছে কারণ এই ক্ষেত্রে নেটওয়ার্ক কেবল বর্গক্ষেত্রের চিত্রগুলি মোকাবেলা করতে শিখবে: ইনপুট চিত্রের অংশটি (ফসল) বাতিল করা হয়, বা অনুপাতটি সংরক্ষিত হয় না, যা উভয় ক্ষেত্রেই সর্বনিম্ন। একাধিক মাপের চিত্রগুলির সাথে মোকাবিলা করার সর্বোত্তম উপায় হল ক্যালোভুলেশনগুলি কাজটি করতে দেওয়া হয়: বিভিন্ন মাপ এবং অনুপাতের চিত্রগুলির সাথে মোকাবিলা করার জন্য কনভোলিউশনগুলি স্বয়ংক্রিয়ভাবে প্রস্থ এবং উচ্চতা মাত্রার পাশে আরো কক্ষ যুক্ত করবে। একমাত্র জিনিস আপনাকে স্মরণ করতে হবে যে একটি নিউরাল নেটওয়ার্ক পিক্সেলের সাথে কাজ করে, যার অর্থ হল গ্রিডের প্রতিটি আউটপুট মানটি গ্রহণযোগ্য ক্ষেত্রের ভিতরে পিক্সেলগুলির একটি ফাংশন, বস্তুর রেজোলিউশনটির একটি ফাংশন এবং চিত্রের একটি ফাংশন নয়। প্রস্থ এবং উচ্চতা.
বিশ্বব্যাপী চিত্র প্রস্থ / উচ্চতাটি উল্লম্বভাবে এবং অনুভূমিকভাবে গ্রিডের কোষের সংখ্যাকে প্রভাবিত করে। স্থানীয়ভাবে, সংকোচনের গণনা করতে এবং সংখ্যার মোট সংখ্যা এবং বিশ্বব্যাপী চিত্রের প্রস্থ / উচ্চতা উপেক্ষা করে, সংকলনের প্রতিটি স্ট্যাক এবং নেট রচনা করে সর্বোচ্চ পুকুর স্তরগুলি গ্রহণযোগ্য ক্ষেত্রের পিক্সেল প্যাচ ব্যবহার করে। এই নিম্নলিখিত বিন্দু বাড়ে: নোঙ্গর মাপ পিক্সেল হিসাবে শুধুমাত্র প্রকাশ করা যাবে। মাল্টি-স্কেল প্রশিক্ষণের অনুমতি দেওয়ার জন্য, নোঙ্গর মাপ ইনপুট চিত্র প্রস্থ বা উচ্চতার সাথে তুলনা করবে না, কারণ মাল্টি-স্কেল প্রশিক্ষণের উদ্দেশ্য ইনপুট মাত্রা এবং নোঙ্গর মাপের মধ্যে অনুপাত সংশোধন করা। ইয়োলো বাস্তবায়নের মধ্যে, এই মাপগুলি গ্রিডের আকারের সাথে দেওয়া হয়, যা পাশাপাশি পিক্সেলগুলির সংখ্যারXসংখ্যার (নেটওয়ার্ক স্ট্রাইড, অর্থাৎ 32 পিক্সেল):
1.3221, 1.73145
3.19275, 4.00944
5.05587, 8.09892
9.47112, 4.84053
11.2364, 10.0071
0 comments:
Post a Comment