এই অধ্যায়ে আমরা ছবিতে বস্তুগুলি স্থানীয়করণ এবং সনাক্ত করার জন্য কনভোলিউশ নিউরাল নেটওয়ার্ক ব্যবহার সম্পর্কে শিখতে যাচ্ছি

- RCNN
- Fast RCNN
- Faster RCNN
- Yolo
- SSD
রিগ্রেশন একটি শ্রেণির পরিবর্তে একটি সংখ্যা ফেরত দেওয়ার বিষয়ে, আমাদের ক্ষেত্রে আমরা 4 নম্বর (x0, y0, প্রস্থ, উচ্চতা) ফিরে যাচ্ছি যা একটি বদ্ধ বাক্সের সাথে সম্পর্কিত। আপনি একটি চিত্রের সাথে একটি স্থল সত্য বদ্ধ বাক্সের সাথে এই সিস্টেমটি প্রশিক্ষিত করুন এবং ভবিষ্যদ্বাণীযুক্ত সীমানা বাক্স এবং স্থল সত্যের মধ্যে ক্ষতির গণনা করার জন্য L2 দূরত্বটি ব্যবহার করুন।


Comparing bounding box prediction accuracyসীমানা বক্স পূর্বাভাস সঠিকতা তুলনা
প্রকৃতপক্ষে আমাদের তুলনা করতে হবে যদি ভবিষ্যদ্বাণী এবং স্থল সত্যের মধ্যে ইন্টারসেক্ট ওভার ইউনিয়ন (Intersect Over Union (ioU)ioU) কিছু থ্রেশহোল্ডের তুলনায় বড় (উদাহরণস্বরূপ 0.5)

RCNN
RCNN (Regions + CNN) is a method that relies on a external region proposal system.
আরসিএএনএন এর সমস্যা এটি দ্রুত হতে তৈরি হয় না, উদাহরণস্বরূপ নেটওয়ার্ক ট্রেন করার জন্য এই পদক্ষেপগুলি হল:
- একটি প্রাক প্রশিক্ষিত imagenet cnn (প্রাক্তন Alexnet) নিন
- সনাক্ত করা প্রয়োজন বস্তু সঙ্গে শেষ সম্পূর্ণরূপে সংযুক্ত স্তর পুনরায় প্রশিক্ষন + "কোন বস্তু" বর্গ
- সব প্রস্তাব পান (= ~ 2000 পি / ইমেজ), সিএনএন ইনপুট মেলে, তারপর ডিস্ক সংরক্ষণ করুন।
- বস্তু এবং পটভূমি (প্রতিটি বর্গের জন্য একটি বাইনারি SVM) মধ্যে শ্রেণীবদ্ধ করার জন্য SVM ট্রেন
- BB রিগ্রেশন: কিছু সংশোধন ফ্যাক্টর আউটপুট যে একটি রৈখিক প্রতিক্রিয়া ক্লাসিফায়ার ট্রেন
পদক্ষেপ 3 সংরক্ষণ এবং প্রাক প্রক্রিয়া প্রস্তাব

ধাপ 5 (সীমানা বাক্স সামঞ্জস্য করুন)

ফাস্ট আরসিএনএন
ফাস্ট আরসিএনএন পদ্ধতিটি কিছু বহিরাগত সিস্টেমের (অঞ্চলগত অনুসন্ধান) থেকে অঞ্চল প্রস্তাবগুলি গ্রহণ করে। এই প্রস্তাবগুলি একটি স্তর (রাই পুলিং) -এ পাঠানো হবে যা তাদের ডেটা সহ একটি নির্দিষ্ট আকারে সমস্ত অঞ্চলের আকার পরিবর্তন করবে। এই পদক্ষেপটি প্রয়োজন কারণ সম্পূর্ণ সংযুক্ত স্তরটি আশা করে যে সমস্ত ভেক্টর একই আকারে থাকবে

প্রস্তাব উদাহরণ, বক্স = [আর, এক্স 1, Y1, x2, Y2]


এখনও অঞ্চল প্রস্তাব দিতে কিছু বাহ্যিক সিস্টেমের উপর নির্ভর করে (নির্বাচনী অনুসন্ধান)
Roi পুলিং স্তর

এটি ইনপুটের উপর নির্ভর করে একটি পুলের আকারের সাথে সর্বোচ্চ-পুলিংয়ের একটি প্রকার, যাতে আউটপুটটি সর্বদা একই আকারের থাকে। সম্পূর্ণরূপে সংযুক্ত স্তর সবসময় একই ইনপুট আকার প্রত্যাশিত কারণ এটি করা হয়।

Roi স্তর ইনপুট প্রস্তাব এবং শেষ convolution স্তর সক্রিয়করণ হবে। উদাহরণস্বরূপ নিম্নলিখিত ইনপুট ইমেজ বিবেচনা করুন, এবং এটি প্রস্তাব।
ইনপুট ইমেজ

দুই প্রস্তাবিত অঞ্চল

এখন সর্বশেষ কনভোলিউশন লেয়ারের অ্যাক্টিভেশনস (উদাঃ conv5)

প্রতিটি কনভোলিউশন অ্যাক্টিভেশন (উপরের ছবির প্রতিটি কক্ষ) রাই পুলিং লেয়ারটি পুনরায় আকার দেবে, সম্পূর্ণ প্রস্তাবিত লেয়ারের ক্ষেত্রে প্রস্তাবিত প্রস্তাবটি (লাল রঙে) প্রস্তাবটি আকারে পরিবর্তিত হবে। উদাহরণস্বরূপ সবুজ নির্বাচিত ঘর বিবেচনা।

এখানে আউটপুট হবে:


দ্রুত RCNN

প্রধান ধারণাটি অঞ্চল প্রস্তাবগুলি বিবেচনা করতে শেষ (বা গভীর) রূপান্তর স্তরগুলি ব্যবহার করে।
দ্রুত-আরসিএনএন দুটি মডিউল রয়েছে।
দ্রুত-আরসিএনএন দুটি মডিউল রয়েছে।
- RPN (অঞ্চল প্রস্তাব): গভীর সংকোচন স্তর উপর ভিত্তি করে আয়তক্ষেত্র একটি সেট দেয়
- ফাস্ট-আরসিএনএন রোই পুলিং লেয়ার: প্রতিটি প্রস্তাব শ্রেণীবদ্ধ করুন, এবং প্রস্তাবিত স্থান পরিমার্জন করুন
অঞ্চল প্রস্তাব নেটওয়ার্ক
এখানে আমরা কিভাবে দ্রুত RCNN কাজ করে একটি ব্লক ডায়াগ্রামে ভঙ্গ করি।
- একটি প্রশিক্ষিত (অর্থাত্ imagenet) কনভোলিউশন স্নায়ু নেটওয়ার্ক পান
- সর্বশেষ (বা গভীর) কনভোলিউশন স্তর থেকে বৈশিষ্ট্য মানচিত্র পান
- কোনও অঞ্চলের প্রস্তাব নেটওয়ার্ক ট্রেন করুন যা ছবিতে কোন বস্তু আছে কিনা তা নির্ধারণ করবে এবং একটি বক্স অবস্থান প্রস্তাব করবে
- একটি কাস্টম (পাইথন) স্তর ফলাফল দিন
- একটি ROI পুলিং স্তর প্রস্তাব (যেমন দ্রুত RCNN)
- সমস্ত প্রস্তাবের একটি ফিক্স সাইজ পুনরায় আকারে পেতে পরে, শ্রেণীবিভাগ চালিয়ে যেতে একটি সম্পূর্ণরূপে সংযুক্ত স্তর পাঠাতে


কিভাবে এটা কাজ করে
মূলত RPN বৈশিষ্ট্যাবলী মানচিত্রে একটি ছোট উইন্ডো (3x3) স্লাইড করে, যা বস্তুর আকারে বস্তু হিসাবে বস্তুটি বা শ্রেণিবদ্ধ নয় তা শ্রেণীবদ্ধ করে এবং কিছু আবদ্ধ বাক্সের অবস্থানও দেয়।
প্রতিটি স্লাইডিং উইন্ডো সেন্টারের জন্য এটি স্থায়ী কে নোঙ্গর বাক্সগুলি তৈরি করে এবং বাক্সগুলিকে বস্তু হিসাবে বা শ্রেণিবদ্ধ হিসাবে শ্রেণীবদ্ধ করে।
প্রতিটি স্লাইডিং উইন্ডো সেন্টারের জন্য এটি স্থায়ী কে নোঙ্গর বাক্সগুলি তৈরি করে এবং বাক্সগুলিকে বস্তু হিসাবে বা শ্রেণিবদ্ধ হিসাবে শ্রেণীবদ্ধ করে।

দ্রুত RCNN প্রশিক্ষণ
কাগজে, প্রতিটি নেটওয়ার্ক আলাদাভাবে প্রশিক্ষিত ছিল, তবে আমরা যৌথভাবে প্রশিক্ষণ দিতে পারি। শুধু মডেল 4 ক্ষতি থাকার বিবেচনা।
- RPN শ্রেণীবিভাগ (বস্তু বা বস্তু নয়)
- RPN Bounding বক্স প্রস্তাব
- দ্রুত RCNN শ্রেণীবিভাগ (সাধারণ বস্তু শ্রেণীবিভাগ)
- ফাস্ট আরসিএনএন বিউন্ডিং-বক্স রিগ্রেশন (আগের বিবি প্রস্তাব উন্নত করুন)

দ্রুত RCNN ফলাফল
সেরা ফলাফল এখন একটি রেজনেট 101 স্তর সহ দ্রুত RCNN।


সম্পূর্ণ দ্রুত RCNN চিত্র
এই চিত্রটি ভিজিজি 16 ব্যবহার করে ফাস্ট আরসিএনএন এর সম্পূর্ণ কাঠামোকে উপস্থাপন করে, আমি এখানেএকটি জিতুব প্রকল্পে খুঁজে পেয়েছি । এটি চেইনার নামে একটি ফ্রেমওয়ার্ক ব্যবহার করে যা শুধুমাত্র পাইথন (কখনও কখনও সাইথন) ব্যবহার করে সম্পূর্ণ কাঠামো।