Object Detection using Single Shot Multibox Detector(SSMD)

একক শট মাল্টিবক্স ডিটেকটর ব্যবহার করে বস্তু সনাক্তকরণ

আগের পোস্টে, আমরা গভীর শেখার মাধ্যমে বস্তুর সনাক্তকরণের বিভিন্ন পদ্ধতি আচ্ছাদিত করেছি। এই ব্লগে, আমি আরও বিস্তারিত জানার জন্য একক শট মাল্টিবিক্স ডিটেকটর আচ্ছাদন করব। এসএসডি সবচেয়ে জনপ্রিয় বস্তু সনাক্তকরণ অ্যালগরিদম এক কারণে বাস্তবায়ন এবং ভাল সঠিকতা বনাম গণনা প্রয়োজনীয় অনুপাত কারণে।

ক্রিশ্চিয়ান Szegedy দ্বারা প্রস্তাবিত SSD পেপারে আরো ভালো বোঝা যায় এই পেপারে

এই পদ্ধতি, যদিও Faster -RCNN & Fasrt RCNN (ইত্যাদি) এর তুলনায় বেশি স্বজ্ঞাত, তবে এটি একটি খুব শক্তিশালী অ্যালগরিদম।নকশা সহজ,তার বাস্তবায়ন GPU থেকে আরো সরাসরি এবং Deep Larning frameworks এর কেন্দ্র বিন্দু এবং এটি lightning speed সনাক্তকরণের ভারী ওজন উত্তোলন বহন করে। এছাড়াও, এই অ্যালগরিদমের মূল পয়েন্ট অন্যান্য অত্যাধুনিক পদ্ধতিগুলির আরও ভালভাবে বুঝতে সহায়তা করতে পারে।

এখানে আমি এই অ্যালগরিদমটিকে একটি ধাপে ধাপে ঢেকে রেখেছি যা আপনাকে সামগ্রিকভাবে কাজ করতে সাহায্য করবে।

The breakdown of the post is as follows:

General introduction to detection
Sliding window detection
Reducing redundant calculations of Sliding Window Method
Training Methodology for modified network
Dealing with Scale of the objects

Object detection and its relation to classification / অবজেক্ট সনাক্তকরণ এবং শ্রেণীবিভাগ তার সম্পর্ক

বস্তু সনাক্তকরণ শ্রেণীবিভাগ সমস্যা হিসাবে মডেল করা হয়। শ্রেণীবদ্ধকরণ চিত্রের উপস্থিত বস্তুর লেবেল পূর্বাভাস দেওয়ার সময়, সনাক্তকরণটি এর চেয়ে আরও বেশি যায় এবং সেগুলির অবস্থানগুলিও খুঁজে পায়। শ্রেণীবদ্ধকরণে, বস্তুটির চিত্রের মতো বস্তুর একটি উল্লেখযোগ্য অংশ বস্তুটি ধারণ করে।

ফিগার ঃ ১

ফিগার ঃ২

তাই চিত্র (চিত্র 2 তে দেখানো হয়েছে), যেখানে বিভিন্ন ধাপ / আকারের একাটি বস্তু বিভিন্ন স্থানে বিভিন্ন ভাবে উপস্থিত থাকে, সনাক্তকরণ আরও প্রাসঙ্গিক হয়ে ওঠে। সুতরাং এটি একটি চিত্রের উপস্থিত সমস্ত বস্তুগুলি, তাদের লেবেল / ক্লাসগুলির পূর্বাভাস এবং সেইসব বস্তুর চারপাশে একটি আবদ্ধ বাক্স নির্ধারণ করে।

চিত্র শ্রেণীবিভাগে, আমরা প্রত্যেক শ্রেণীর সম্ভাব্যতাগুলির পূর্বাভাস দিই, বস্তুর সনাক্তকরণের সময়, আমরা সেই বর্গটির বস্তু ধারণকারী একটি আবদ্ধ বাক্সটিও পূর্বাভাস দিই। সুতরাং, নেটওয়ার্ক আউটপুট হওয়া উচিত:

Class probabilities (like classification)শ্রেণী সম্ভাব্যতা (শ্রেণীবিভাগ হিসাবে)
Bounding Box সমন্বয় করা, আমরা এই দ্বারা বুঝি cx(x coordinate of center), cy(y coordinate of center), h(height of object), w(width of object)

ক্লাসের সম্ভাব্যতাগুলির মধ্যে একটি অতিরিক্ত লেবেলও ব্যাকগ্রাউন্ড প্রতিনিধিত্ব করতে হবে কারণ চিত্রের অনেক অবস্থান কোনও বস্তুর সাথে সম্পর্কিত নয়।

সুবিধার জন্য, আসুন আমরা অনুমান করি যে আমাদের একটি বিন্যাস রয়েছে যা বিড়াল এবং কুকুর ধারণ করে।ডেটাসেটের চিত্রটিতে যেকোন বিড়াল এবং কুকুরগুলির সংখ্যা থাকতে পারে।সুতরাং, আমাদের কাছে So, we have 3 possible outcomes of classification [1 0 0] for cat, [0 1 0] for dog and [0 0 1] for background. সম্ভাব্য ফলাফল রয়েছে

Object Detection as Image Classification problemচিত্র শ্রেণীবিভাগ হিসাবে বস্তু সনাক্তকরণ সমস্যা

একটি সনাক্তকরণ নেটওয়ার্ক প্রশিক্ষণের একটি সহজ কৌশল একটি শ্রেণীবিভাগ নেটওয়ার্ক ট্রেন করা হয়। এই শ্রেণীবিভাগ নেটওয়ার্ক বিড়ালদের, কুকুর, এবং পটভূমি জন্য প্রতিটি সংকেত সম্ভাব্য তিন আউটপুট হবে। প্রশিক্ষণ শ্রেণীকরণের জন্য, আমাদের বস্তুর সঠিকভাবে কেন্দ্রীভূত এবং তাদের সংশ্লিষ্ট লেবেলগুলির সাথে চিত্রগুলির প্রয়োজন।

সুতরাং আসুন একটি উদাহরণ নিতে (চিত্র 3) এবং শ্রেণীবিভাগ নেটওয়ার্কটির জন্য প্রশিক্ষণ ডেটা প্রস্তুত করা হয়েছে কিনা তা দেখুন।

figure 3: Input image for object detection

এটি করার জন্য, আমরা প্রথমে ইমেজ থেকে একাধিক প্যাচ আউট ফসল হবে। নিচের চিত্র চিত্র থেকে cropped নমুনা প্যাচ দেখায়।

patch 2 যা বস্তুটি ঠিকভাবে ধারণ করে তা একটি বস্তুর বর্গের সাথে লেবেলযুক্ত। তাই আমরা ক্লাসটিকে "বিড়াল" কে তার স্থল সত্য হিসাবে 2 টি patch দিতে পারি।

Sliding Window Detector/ উইন্ডো ডিটেকটর স্লাইডিং

ক্লাসিফিকেশন নেটওয়ার্ক প্রশিক্ষণ দেওয়ার পরে, এটি একটি স্লাইডিং উইন্ডোতে নতুন ইমেজ সনাক্ত করার জন্য ব্যবহার করা যেতে পারে। প্রথমত, আমরা একটি নির্দিষ্ট আকারের একটি উইন্ডো (নীল বাক্স) গ্রহণ করি এবং বিভিন্ন অবস্থানে চিত্রটি (নীচের চিত্রটিতে দেখানো) চালান।

তারপরে আমরা বক্সগুলিতে থাকা প্যাচগুলি ক্রপ করি এবং শ্রেণিবদ্ধ কনফেটের ইনপুট আকারে তাদের আকার পরিবর্তন করি। তারপর আমরা বস্তুর লেবেল প্রাপ্ত নেটওয়ার্ক মধ্যে এই প্যাচ ফিড। আমরা ছোট আকারের বস্তু ক্যাপচার করতে সক্ষম হবার জন্য ছোট উইন্ডো আকারের সাথে এই প্রক্রিয়াটি পুনরাবৃত্তি করি। সুতরাং ধারণাটি হল যে যদি কোন চিত্রটিতে উপস্থিত বস্তু উপস্থিত থাকে, তবে আমাদের এমন একটি উইন্ডো থাকবে যা সঠিকভাবে বস্তুর অন্তর্ভুক্ত করে এবং সেই বস্তুর সাথে সংশ্লিষ্ট লেবেল উত্পাদন করে। এখানে একটি gif যা একটি চিত্রের উপর স্লাইডিং উইন্ডো চালানো দেখায়:

কিন্তু, সমস্ত বস্তুকে Cover করার জন্য কত প্যাচ cropped করা উচিত? আমরা একাধিক অবস্থানে প্যাচ নিতে হবে না কিন্তু একাধিক স্কেলে নিতে হবে কারণ বস্তুর যেকোনো আকার হতে পারে। এটি হাজার হাজার প্যাচ এবং নেটওয়ার্কে তাদের প্রতিটিকে খাওয়ানোর পরিমাণ হিসাবে একটি একক চিত্রের ভবিষ্যদ্বাণী করতে প্রচুর সময় লাগবে।এটি হাজার হাজার প্যাচ এবং নেটওয়ার্কে তাদের প্রতিটিকে খাওয়ানোর পরিমাণ হিসাবে, একটি একক চিত্রের ভবিষ্যদ্বাণী করতে প্রচুর সময় লাগবে।

তাই চলুন এই সময় কমাতে পদ্ধতির দিকে তাকাই ।

Reducing redundant calculations to reduce timeসময় কমানোর অপ্রয়োজনীয় গণনা হ্রাস করি

figure 5

এখন একাধিক crops বিবেচনা করা যাক (চিত্র 5 দ্বারা দেখানো) কাছাকাছি অবস্থানে যেটি বিভিন্ন রঙ্গিন বক্স।

আমরা এই দুইটি প্যাচগুলির মধ্যে অনেকগুলি ওভারল্যাপ দেখতে পাচ্ছি (ছায়াপথযুক্ত অঞ্চল দ্বারা চিত্রিত)। এর মানে হল যে তারা যখন নেটওয়ার্কে আলাদাভাবে (ফসল এবং আকার পরিবর্তন করে) খাওয়ানো হয়, তখন উল্লিখিত অংশের জন্য গণনার একই সেট পুনরাবৃত্তি করা হয়। এটিকে সহজেই SPP-Net উপস্থাপিত একটি কৌশল ব্যবহার করে এড়ানো যেতে পারে এবং Fast R-CNN. জনপ্রিয় করে তুলেছে। এর বিস্তারিত জানতে এই উদাহরণ নেটওয়ার্ক গ্রহণ করা যাক।

Figure-6

এখন, ইনপুট চিত্র এবং বৈশিষ্ট্য মানচিত্রের মধ্যে সরাসরি ম্যাপিং দেখানোর জন্য আমরা একটু বড় ছবি তুলব। আসুন 14X14 ইমেজ বাড়িয়ে দিন (চিত্র 7)। আমরা দেখতে পাচ্ছি উপরের বাম চতুর্ভুজ (6,6 সেন্টারে) 12x12 প্যাচ নীল রঙের রঙিন রঙে 3 × 3 প্যাচ তৈরি করছে এবং অবশেষে চূড়ান্ত বৈশিষ্ট্য মানচিত্র (নীল রঙের) এ 1 × 1 স্কোর প্রদান করছে। উপরের ডান চতুর্ভুজ (লাল, কেন্দ্রে 8,6 এ প্রদর্শিত) থেকে প্রাপ্ত 12x12 আকারের দ্বিতীয় প্যাচ চূড়ান্ত লেয়ারে (লাল চিহ্নিত) 1x1 স্কোর আনুষ্ঠানিকভাবে উত্পন্ন করবে।

Figure 7: Depicting overlap in feature maps for overlapping image regions চিত্র 7: চিত্র অঞ্চলে ওভারল্যাপিং বৈশিষ্ট্যের মানচিত্রগুলিতে ওভারল্যাপের চিত্রণ

আপনি দেখতে পারেন, বিভিন্ন 12X12 প্যাচগুলির শেষবিচারের মানচিত্রে তাদের 3x3 উপস্থাপনা থাকবে এবং অবশেষে, তারা আউটপুট লেয়ারে তাদের সংশ্লিষ্ট বর্গ স্কোরগুলি উত্পাদন করবে।

সংগ্রাহক বৈশিষ্ট্য মানচিত্র গণনা computationally খুব ব্যয়বহুল এবং প্রতিটি প্যাচ জন্য এটি গণনা খুব দীর্ঘ সময় লাগবে। কিন্তু, এই প্রকল্পটি ব্যবহার করে, আমরা বিভিন্ন প্যাচগুলির মধ্যে সাধারণ অংশগুলির পুনঃ-গণনা এড়াতে পারি। এখানে আমরা শুধুমাত্র সম্পূর্ণ চিত্রের জন্য বৈশিষ্ট্য ম্যাপ গণনা করছি। এবং যেহেতু আমরা চিত্রের বিভিন্ন প্যাচগুলিতে ম্যাপ করা শেষবিচারের বৈশিষ্ট্য ম্যাপের অংশগুলি জানি, তাই আমরা কঠোরভাবে এটির উপরে ভবিষ্যদ্বাণী ওজন (শ্রেণীবিভাগ স্তর) প্রয়োগ করি। এটি ইনপুট চিত্রটি সম্পাদন করার পরিবর্তে কনভোলিউশনাল বৈশিষ্ট্য মানচিত্রে স্লাইডিং উইন্ডো সম্পাদন করার মতো। সুতরাং এই গণনা অনেক সংরক্ষণ করে।

সংক্ষেপে আমরা নেটওয়ার্ক এ পুরো ইমেজটি একযোগে ফিড করি এবং শেষমেষ মানচিত্রে বৈশিষ্ট্যটি পাই এবং তারপরে আমরা বিভিন্ন প্যাচগুলির জন্য বর্গ স্কোর অর্জন করতে এই মানচিত্রের উপরে 3x3 কার্নেল কনভোলিউশন সহ একটি স্লাইডিং উইন্ডো সনাক্তকরণ চালাই ।

যদিও একটি ছোটখাটো সমস্যা আছে। ইমেজ থেকে সব প্যাচ আউটপুট প্রতিনিধিত্ব করা হয় না। আমাদের উদাহরণে, 12X12 প্যাচগুলি (6,6), (8,6) ইত্যাদি (চিত্রটিতে চিহ্নিত) এ কেন্দ্রীভূত। নেটওয়ার্ক (7,6) সঙ্গে প্যাচ নেটওয়ার্ক মধ্যবর্তী পুলিং কারণে বাদ দেওয়া হয়। এক মুহুর্তে, আমরা এই ধরনের বস্তু / প্যাচগুলি কীভাবে পরিচালনা করব তা আমরা দেখব।

Default Boxes/Anchor সঞ্চালক Boxes ডিফল্ট বক্সস / নোঙ্গর বক্স

Training Methodology for modified network সংশোধিত নেটওয়ার্কের জন্য প্রশিক্ষণ পদ্ধতি।

চলুন দেখি কিভাবে আমরা আরেকটি উদাহরণ নিয়ে এই নেটওয়ার্কটি প্রশিক্ষণ দিতে পারি। এখানে আমরা একটি বৃহৎ ইনপুট ইমেজ, 24X24 একটি বিড়াল ধারণকারী চিত্র (চিত্র 8) একটি উদাহরণ গ্রহণ করা হয়। এটি প্রথমে উপরের উদাহরণের মতো সংশ্লেষক স্তরের মাধ্যমে গৃহীত হয়েছে এবং আকার 6 × 6 এর একটি আউটপুট বৈশিষ্ট্য মানচিত্র তৈরি করে।

প্রশিক্ষণের সেট প্রস্তুত করার জন্য, সর্বোপরি, আমাদের শ্রেণিবদ্ধ আউটপুটের সমস্ত পূর্বাভাসের জন্য স্থল সত্য বরাদ্দ করতে হবে। আসুন আমরা 7,7 গ্রিডের আউটপুট মানচিত্রে অবস্থানটি চিহ্নিত করি (i, j)।আমরা ইতিমধ্যে এই আউটপুট প্রতিটি সংশ্লিষ্ট ডিফল্ট বক্স জানি। রেফারেন্সের জন্য, আউটপুট এবং এর সংশ্লিষ্ট প্যাচটি উপরের বাম এবং নীচের ডান প্যাচটির জন্য চিহ্নিত চিত্রের রং।Now since patch corresponding to output (6,6) has a cat in it, so ground truth becomes [1 0 0]. Since the patches at locations (0,0), (0,1), (1,0) etc do not have any object in it, their ground truth assignment is [0 0 1].

অন্যান্য আউটপুট জন্য প্যাচ শুধুমাত্র আংশিকভাবে বিড়াল রয়েছে। আসুন দেখি তাদের নিয়োগ/ assignment কীভাবে করা হয়।

Ground truth Assignment for partially covered patches

বোঝার জন্য, আউটপুট (5,5) এ একটি প্যাচ নেই, যে প্যাচ পরিমাণ বিড়াল (ম্যাজেন্টা) পাশাপাশি চিত্র দেখানো হয়। আমরা বস্তুর সামান্য বাক্স থেকে স্থানান্তরিত হয় দেখতে পারি । বক্সটি বিড়ালটিকে ঠিক করে না, কিন্তু ওভারল্যাপের একটি শালীন পরিমাণ রয়েছে।

সুতরাং কার্যভারের জন্য, আমাদের দুটি বিকল্প রয়েছে: এই প্যাচটিকে ব্যাকগ্রাউন্ডের সাথে এক হিসাবে ট্যাগ করা অথবা এটি একটি বিড়াল হিসাবে ট্যাগ করুন। background(bg) হিসাবে ট্যাগ করা অবশ্যই অপরিহার্যভাবে কেবলমাত্র একটি বক্স যা বস্তুর সাথে যুক্ত করে তা একটি বস্তুর হিসাবে ট্যাগ করা হবে। এবং সব অন্যান্য বক্সে ট্যাগ করা হবে বিজি। এই দুটি সমস্যা আছে। প্রথমত প্রশিক্ষণ অত্যন্ত skewed হবে (বস্তু এবং বিজি ক্লাসের মধ্যে বড় ভারসাম্যহীনতা)। দ্বিতীয়ত, যদি বস্তুটি কোনও বাক্সে মাপসই না করে তবে এর অর্থ হবে বস্তুর সাথে কোনও বক্স ট্যাগ করা হবে না।

সুতরাং আমরা এই প্যাচটিকে বিড়াল হিসাবে ট্যাগ করার দ্বিতীয় সমাধানটি উপভোগ করি। কিন্তু এই সমাধানতে, আমাদের বস্তুর কেন্দ্র থেকে এই বাক্সের কেন্দ্রে অফসেটটির যত্ন নিতে হবে। আসুন আমরা উদাহরণস্বরূপ বলি, এক্স এবং ই-দিক বরাবর বস্তুর কেন্দ্র থেকে প্যাচের কেন্দ্রে যথাক্রমে cx এবং cy হল অফসেট (এছাড়াও দেখানো হয়েছে)। আমাদের এই প্যাচটির জন্য এমন একটি উপায় তৈরি করা দরকার যা নেটওয়ার্কটি এই অফসেটগুলির পূর্বাভাস দিতে পারে যা এভাবে বস্তুর প্রকৃত সমন্বয় খুঁজে পেতে ব্যবহার করা যেতে পারে।

তাই প্রতিটি অবস্থানের জন্য, আমরা নেটওয়ার্কের আরও দুটি আউটপুট যুক্ত করি (ক্লাসের সম্ভাবনা বাদে) যা কেন্দ্রের অফসেটের জন্য দাঁড়িয়ে থাকে। আসুন আমরা বাছুর ও অই হিসাবে নেটওয়ার্ক দ্বারা তৈরি পূর্বাভাস কল। এবং এই আউটপুটগুলি সিএক্স এবং সাইয়াকে পূর্বাভাস দেওয়ার জন্য, আমরা একটি প্রতিক্রিয়া ক্ষতির ব্যবহার করতে পারি। ভ্যানিলা স্কয়ার্ড ত্রুটি ক্ষতি এই ধরনের প্রতিক্রিয়া জন্য ব্যবহার করা যেতে পারে। সনাক্তকরণের কাগজপত্র সাধারণত L1 ক্ষতির মসৃণ রূপ ব্যবহার করে। আমরা এই আলোচনার জন্য এই ছোটখাট বিস্তারিত উপেক্ষা করবে।

Dealing with Scale changesস্কেল পরিবর্তন সঙ্গে আচরণ

এখন যেহেতু আমরা বিভিন্ন স্থানে বস্তুর যত্ন নিচ্ছি, দেখি কোন বস্তুর স্কেলে পরিবর্তনগুলি কীভাবে সমাধান করা যায়।
আমরা দুটি ভিন্ন ধরনের বস্তু মোকাবেলা করার জন্য দুটি ভিন্ন কৌশল দেখব। এক ধরনের বস্তু যার আকারটি 12x12 পিক্সেলের কাছাকাছি (বাক্সগুলির ডিফল্ট আকার) কাছে নির্দেশ করে। অন্যান্য ধরনের বস্তু যার আকার 12x12 থেকে উল্লেখযোগ্যভাবে ভিন্ন।

Objects with size close to 12X12
আকার 12x12 আকারের বস্তুর জন্য, আমরা অফসেট পূর্বাভাস অনুরূপভাবে তাদের মোকাবেলা করতে পারেন। আসুন আমরা অনুমান করি যে বস্তুর প্রকৃত উচ্চতা এবং প্রস্থ যথাক্রমে h এবং w। তাই আমরা আউটপুট এবং উচ্চতা (OH, OW) নির্দেশক আউটপুট আরো দুটি মাত্রা যোগ করুন। তারপর আমরা আবার এই আউটপুট সত্য উচ্চতা এবং প্রস্থ পূর্বাভাস করতে regression ব্যবহার।

Objects far smaller than 12X12
আকার 12x12 আকারের বস্তুর জন্য, আমরা অফসেট পূর্বাভাস অনুরূপভাবে তাদের মোকাবেলা করতে পারেন। আসুন আমরা অনুমান করি যে বস্তুর প্রকৃত উচ্চতা এবং প্রস্থ যথাক্রমে h এবং w। তাই আমরা আউটপুট এবং উচ্চতা (OH, OW) নির্দেশক আউটপুট আরো দুটি মাত্রা যোগ করুন। তারপর আমরা আবার এই আউটপুট সত্য উচ্চতা এবং প্রস্থ পূর্বাভাস করতে regression ব্যবহার।

Objects far smaller than 12X12
12X12 আকারের থেকে খুব ভিন্ন বস্তুগুলির সাথে ডিলিং একটু চতুর। আর্গুমেন্টের জন্য, আসুন আমরা অনুমান করি যে আমরা শুধুমাত্র এমন বস্তুর সাথে মোকাবিলা করতে চাই যা ডিফল্ট আকারের চেয়ে অনেক ছোট।

এটির একটি লাইন সমাধানটি 9 নম্বর চিত্র অনুসারে দেখানো প্রতিটি বৈশিষ্ট্যের মানচিত্র (প্রতিটি সংশ্লেষ স্তর পরে আউটপুট) শীর্ষক ভবিষ্যদ্বাণী করা। চিত্রের বেস নেটওয়ার্ক থেকে শাখা হিসাবে দেখানো হয়েছে। একক শট মাল্টিবিক্স ডিটেক্টর এ এটি চালু মূল ধারণা। আমাদের বিস্তারিত এই বুঝতে।

Using all feature maps for predictions
এর আগে আমরা কেবলমাত্র শেষবিচারের বৈশিষ্ট্য মানচিত্রটি ব্যবহার করেছি এবং আউটপুটগুলি (সম্ভাব্যতা, কেন্দ্র, উচ্চতা এবং বাক্সের প্রস্থ) পেতে একটি 3 এক্স 3 কার্নেল কনভোলিউশন প্রয়োগ করেছি। এখানে আমরা তাদের সকলের পূর্বাভাস পেতে নেটওয়ার্কটির সমস্ত বৈশিষ্ট্য মানচিত্রগুলিতে 3X3 কনভোলিউশন প্রয়োগ করছি। নিম্ন স্তর থেকে পূর্বাভাস ছোট আকারের বস্তু সঙ্গে ডিল করার সাহায্য। এটা কিভাবে হয়?

মনে রাখবেন, এক অবস্থানে রূপান্তর বৈশিষ্ট্য মানচিত্র একটি চিত্রের একটি অংশ / প্যাচ উপস্থাপন করে। যে তার গ্রহনযোগ্য ক্ষেত্রের আকার বলা হয়। আমরা আমাদের উদাহরণ নেটওয়ার্কের মধ্যে এটি দেখেছি যেখানে শেষবিচারের মানচিত্রের উপরে পূর্বাভাস 12X12 প্যাচ দ্বারা প্রভাবিত হচ্ছে।

কনভোলিউশনাল নেটওয়ার্ক প্রকৃতির অনুক্রমিক। এবং প্রতিটি ক্রমবর্ধমান স্তর ক্রমবর্ধমান জটিলতা একটি সত্তা প্রতিনিধিত্ব করে এবং এভাবে, আমরা গভীরে যেতে হিসাবে ইনপুট ইমেজ তাদের গ্রহনযোগ্য ক্ষেত্র বৃদ্ধি পায়। সুতরাং আমাদের নেটওয়ার্কে প্রান্তিক স্তর শীর্ষে পূর্বাভাসের সর্বাধিক গ্রহনযোগ্য ক্ষেত্রের আকার (12X12) রয়েছে এবং তাই এটি বড় আকারের বস্তুর যত্ন নিতে পারে। এবং ছোট গ্রহনযোগ্য ক্ষেত্র ধারণকারী ঝরনা স্তর ছোট আকারের বস্তু প্রতিনিধিত্ব করতে পারেন।

আমাদের নমুনা নেটওয়ার্কে, প্রথম বৈশিষ্ট্যের মানচিত্রে শীর্ষে থাকা পূর্বাভাসগুলিতে 5x5 এর একটি গ্রহণযোগ্য আকার রয়েছে (চিত্র 9টিতে ট্যাগকৃত কৃতিত্ব-মানচিত্র 1)। সহজে সহজ হিসাব ব্যবহার করে গণনা করা যেতে পারে। এটা চিত্র গ্রাফিকাল ব্যাখ্যা করা হয়েছে। একইভাবে, বৈশিষ্ট্যের মানচিত্রের উপরে ভবিষ্যদ্বাণীগুলি feat-map2 অ্যাকাউন্টে 9এক্স9 এর একটি প্যাচ নিন। সুতরাং আমরা দেখতে পাচ্ছি যে গভীরতার গভীরতার সাথে, গ্রহনযোগ্য ক্ষেত্রটিও বৃদ্ধি পায়।

এর মূলত অর্থ হচ্ছে আমরা লেয়ারের বৈশিষ্ট্যগুলি ব্যবহার করে একটি খুব ভিন্ন আকারের বস্তুটিকে মোকাবেলা করতে পারি যার স্বচ্ছ ক্ষেত্রের আকার অনুরূপ।

সুতরাং আগের মতই, আমরা ডিফল্ট বাক্সগুলিকে নেটওয়ার্কে বিভিন্ন বৈশিষ্ট্যের মানচিত্রের জন্য বিভিন্ন ডিফল্ট আকার এবং অবস্থানগুলির সাথে সংযুক্ত করি।

এখন প্রশিক্ষণ পর্যায়ে, আমরা একটি বস্তুটিকে বৈশিষ্ট্যের মানচিত্রে সংযুক্ত করি যা বস্তুর আকারের নিকটতম ডিফল্ট আকার ধারণ করে। উদাহরণস্বরূপ, যদি বস্তুর আকার 6X6 পিক্সেল হয়, তবে আমরা এমন বস্তুর জন্য ভবিষ্যদ্বাণী করতে feat-map2 উত্সর্গ করি। অতএব আমরা বস্তুর অবস্থান অনুযায়ী feat-map2 এর আউটপুটে প্রাসঙ্গিক ডিফল্ট বক্সটি সন্ধান করি। এবং তারপর আমরা বস্তুর বর্গ সঙ্গে তার স্থল সত্য লক্ষ্য বরাদ্দ। এই কৌশলটি নিশ্চিত করে যে কোন বৈশিষ্ট্য মানচিত্র এমন বস্তুর সাথে মোকাবিলা করতে পারে না যার আকারটি হ্যান্ডেল করতে পারে তার থেকে উল্লেখযোগ্যভাবে ভিন্ন। এবং এইভাবে এটি নেটওয়ার্ক আরও বৈষম্যমূলক ক্ষমতা দেয়।

এইভাবে আমরা এখন 12x12 আকারের তুলনায় উল্লেখযোগ্য আকারের বস্তুগুলি মোকাবেলা করতে পারি।

উপসংহার
এটি একটি তাত্ত্বিক দৃষ্টিকোণ থেকে এসএসডি একটি সংক্ষিপ্ত বিবরণ শেষ। আকৃতির বর্গক্ষেত্র নয় (স্কিউড দৃষ্টিপাত অনুপাত) নয় এমন প্রতিটি বস্তুর সাথে মোকাবিলা করার জন্য প্রতিটি শ্রেণীবদ্ধ স্তরটির জন্য আরো আউটপুট যোগ করার মতো আরও কিছু বিবরণ রয়েছে। এছাড়াও, এসএসডি কাগজটি ভিজিজি নেটওয়ার্ক থেকে একটি নেটওয়ার্ক তৈরি করে এবং লেয়ারের গ্রহণযোগ্য মাপকে কমিয়ে আনতে পরিবর্তন করে (এটারাস অ্যালগরিদম)। আমি এই সব বিবরণ এখন সহজে কাগজ উল্লেখ থেকে বোঝা যাবে আশা করি।

Mohammad Mostofa Zaman

Object Detection using Single Shot Multibox Detector(SSMD)

Ground truth Assignment for partially covered patches

0 comments:

Post a Comment

Popular Posts

New Research

SAY HELLO TO ME

ADDRESS

EMAIL

TELEPHONE

MOBILE