• Object Detection using Single Shot Multibox Detector(SSMD)

    একক শট মাল্টিবক্স ডিটেকটর ব্যবহার করে বস্তু সনাক্তকরণ
    আগের পোস্টে, আমরা গভীর শেখার মাধ্যমে বস্তুর সনাক্তকরণের বিভিন্ন পদ্ধতি আচ্ছাদিত করেছি। এই ব্লগে, আমি আরও বিস্তারিত জানার জন্য একক শট মাল্টিবিক্স ডিটেকটর আচ্ছাদন করব। এসএসডি সবচেয়ে জনপ্রিয় বস্তু সনাক্তকরণ অ্যালগরিদম এক কারণে বাস্তবায়ন এবং ভাল সঠিকতা বনাম গণনা প্রয়োজনীয় অনুপাত কারণে।

    ক্রিশ্চিয়ান Szegedy দ্বারা প্রস্তাবিত SSD পেপারে আরো ভালো বোঝা যায় এই পেপারে  
    এই পদ্ধতি, যদিও Faster -RCNN & Fasrt RCNN (ইত্যাদি) এর তুলনায় বেশি স্বজ্ঞাত, তবে এটি একটি খুব শক্তিশালী অ্যালগরিদম।নকশা সহজ,তার বাস্তবায়ন GPU থেকে আরো সরাসরি এবং Deep Larning frameworks এর কেন্দ্র বিন্দু এবং  এটি  lightning speed সনাক্তকরণের ভারী ওজন উত্তোলন বহন করে। এছাড়াও, এই অ্যালগরিদমের মূল পয়েন্ট অন্যান্য অত্যাধুনিক পদ্ধতিগুলির আরও ভালভাবে বুঝতে সহায়তা করতে পারে।
    এখানে আমি এই অ্যালগরিদমটিকে একটি ধাপে ধাপে ঢেকে রেখেছি যা আপনাকে সামগ্রিকভাবে কাজ করতে সাহায্য করবে।

    The breakdown of the post is as follows:
    1. General introduction to detection
    2. Sliding window detection
    3. Reducing redundant calculations of Sliding Window Method
    4. Training Methodology for modified network
    5. Dealing with Scale of the objects
    Object detection and its relation to classification / অবজেক্ট সনাক্তকরণ এবং শ্রেণীবিভাগ তার সম্পর্ক
    বস্তু সনাক্তকরণ শ্রেণীবিভাগ সমস্যা হিসাবে মডেল করা হয়। শ্রেণীবদ্ধকরণ চিত্রের উপস্থিত বস্তুর লেবেল পূর্বাভাস দেওয়ার সময়, সনাক্তকরণটি এর চেয়ে আরও বেশি যায় এবং সেগুলির অবস্থানগুলিও খুঁজে পায়। শ্রেণীবদ্ধকরণে, বস্তুটির চিত্রের মতো বস্তুর একটি উল্লেখযোগ্য অংশ বস্তুটি ধারণ করে। 


    ফিগার ঃ ১

    ফিগার ঃ২

     তাই চিত্র (চিত্র 2 তে দেখানো হয়েছে), যেখানে বিভিন্ন ধাপ / আকারের একাটি বস্তু বিভিন্ন স্থানে বিভিন্ন ভাবে উপস্থিত থাকে, সনাক্তকরণ আরও প্রাসঙ্গিক হয়ে ওঠে। সুতরাং এটি একটি চিত্রের উপস্থিত সমস্ত বস্তুগুলি, তাদের লেবেল / ক্লাসগুলির পূর্বাভাস এবং সেইসব বস্তুর চারপাশে একটি আবদ্ধ বাক্স নির্ধারণ করে।
    চিত্র শ্রেণীবিভাগে, আমরা প্রত্যেক শ্রেণীর সম্ভাব্যতাগুলির পূর্বাভাস দিই, বস্তুর সনাক্তকরণের সময়, আমরা সেই বর্গটির বস্তু ধারণকারী একটি আবদ্ধ বাক্সটিও পূর্বাভাস দিই। সুতরাং, নেটওয়ার্ক আউটপুট হওয়া উচিত:
    1. Class probabilities (like classification)শ্রেণী সম্ভাব্যতা (শ্রেণীবিভাগ হিসাবে)
    2. Bounding Box সমন্বয় করা, আমরা এই দ্বারা বুঝি cx(x coordinate of center), cy(y coordinate of center), h(height of object), w(width of object)

    ক্লাসের সম্ভাব্যতাগুলির মধ্যে একটি অতিরিক্ত লেবেলও ব্যাকগ্রাউন্ড প্রতিনিধিত্ব করতে হবে কারণ চিত্রের অনেক অবস্থান কোনও বস্তুর সাথে সম্পর্কিত নয়।
    সুবিধার জন্য, আসুন আমরা অনুমান করি যে আমাদের একটি বিন্যাস রয়েছে যা বিড়াল এবং কুকুর ধারণ করে।ডেটাসেটের চিত্রটিতে যেকোন বিড়াল এবং কুকুরগুলির সংখ্যা থাকতে পারে।সুতরাং, আমাদের কাছে So, we have 3 possible outcomes of classification [1 0 0] for cat, [0 1 0] for dog and [0 0 1] for background. সম্ভাব্য ফলাফল রয়েছে 

    Object Detection as Image Classification problemচিত্র শ্রেণীবিভাগ হিসাবে বস্তু সনাক্তকরণ সমস্যা
    একটি সনাক্তকরণ নেটওয়ার্ক প্রশিক্ষণের একটি সহজ কৌশল একটি শ্রেণীবিভাগ নেটওয়ার্ক ট্রেন করা হয়। এই শ্রেণীবিভাগ নেটওয়ার্ক বিড়ালদের, কুকুর, এবং পটভূমি জন্য প্রতিটি সংকেত সম্ভাব্য তিন আউটপুট হবে। প্রশিক্ষণ শ্রেণীকরণের জন্য, আমাদের বস্তুর সঠিকভাবে কেন্দ্রীভূত এবং তাদের সংশ্লিষ্ট লেবেলগুলির সাথে চিত্রগুলির প্রয়োজন।

    সুতরাং আসুন একটি উদাহরণ নিতে (চিত্র 3) এবং শ্রেণীবিভাগ নেটওয়ার্কটির জন্য প্রশিক্ষণ ডেটা প্রস্তুত করা হয়েছে কিনা তা দেখুন।
    figure 3: Input image for object detection

    এটি করার জন্য, আমরা প্রথমে ইমেজ থেকে একাধিক প্যাচ আউট ফসল হবে। নিচের চিত্র চিত্র থেকে cropped নমুনা প্যাচ দেখায়।
    patch 2 যা বস্তুটি ঠিকভাবে ধারণ করে তা একটি বস্তুর বর্গের সাথে লেবেলযুক্ত। তাই আমরা ক্লাসটিকে "বিড়াল" কে তার স্থল সত্য হিসাবে 2 টি patch দিতে পারি।

    Sliding Window Detector/ উইন্ডো ডিটেকটর স্লাইডিং
    ক্লাসিফিকেশন নেটওয়ার্ক প্রশিক্ষণ দেওয়ার পরে, এটি একটি স্লাইডিং উইন্ডোতে নতুন ইমেজ সনাক্ত করার জন্য ব্যবহার করা যেতে পারে। প্রথমত, আমরা একটি নির্দিষ্ট আকারের একটি উইন্ডো (নীল বাক্স) গ্রহণ করি এবং বিভিন্ন অবস্থানে চিত্রটি (নীচের চিত্রটিতে দেখানো) চালান।
    তারপরে আমরা বক্সগুলিতে থাকা প্যাচগুলি ক্রপ করি এবং শ্রেণিবদ্ধ কনফেটের ইনপুট আকারে তাদের আকার পরিবর্তন করি। তারপর আমরা বস্তুর লেবেল প্রাপ্ত নেটওয়ার্ক মধ্যে এই প্যাচ ফিড। আমরা ছোট আকারের বস্তু ক্যাপচার করতে সক্ষম হবার জন্য ছোট উইন্ডো আকারের সাথে এই প্রক্রিয়াটি পুনরাবৃত্তি করি। সুতরাং ধারণাটি হল যে যদি কোন চিত্রটিতে উপস্থিত বস্তু উপস্থিত থাকে, তবে আমাদের এমন একটি উইন্ডো থাকবে যা সঠিকভাবে বস্তুর অন্তর্ভুক্ত করে এবং সেই বস্তুর সাথে সংশ্লিষ্ট লেবেল উত্পাদন করে। এখানে একটি gif যা একটি চিত্রের উপর স্লাইডিং উইন্ডো চালানো দেখায়:

    কিন্তু, সমস্ত বস্তুকে Cover করার জন্য কত প্যাচ cropped করা উচিত? আমরা একাধিক অবস্থানে প্যাচ নিতে হবে না কিন্তু একাধিক স্কেলে নিতে হবে কারণ বস্তুর যেকোনো আকার হতে পারে। এটি হাজার হাজার প্যাচ এবং নেটওয়ার্কে তাদের প্রতিটিকে খাওয়ানোর পরিমাণ হিসাবে একটি একক চিত্রের ভবিষ্যদ্বাণী করতে প্রচুর সময় লাগবে।এটি হাজার হাজার প্যাচ এবং নেটওয়ার্কে তাদের প্রতিটিকে খাওয়ানোর পরিমাণ হিসাবে, একটি একক চিত্রের ভবিষ্যদ্বাণী করতে প্রচুর সময় লাগবে।

    তাই চলুন এই সময় কমাতে পদ্ধতির দিকে তাকাই । 
    Reducing redundant calculations to reduce timeসময় কমানোর  অপ্রয়োজনীয় গণনা হ্রাস করি 
    figure 5
    এখন একাধিক crops বিবেচনা করা যাক (চিত্র 5 দ্বারা দেখানো) কাছাকাছি অবস্থানে যেটি বিভিন্ন রঙ্গিন বক্স। 
    আমরা এই দুইটি প্যাচগুলির মধ্যে অনেকগুলি ওভারল্যাপ দেখতে পাচ্ছি (ছায়াপথযুক্ত অঞ্চল দ্বারা চিত্রিত)। এর মানে হল যে তারা যখন নেটওয়ার্কে আলাদাভাবে (ফসল এবং আকার পরিবর্তন করে) খাওয়ানো হয়, তখন উল্লিখিত অংশের জন্য গণনার একই সেট পুনরাবৃত্তি করা হয়। এটিকে সহজেই SPP-Net উপস্থাপিত একটি কৌশল ব্যবহার করে এড়ানো যেতে পারে এবং Fast R-CNN. জনপ্রিয় করে তুলেছে। এর বিস্তারিত জানতে এই উদাহরণ নেটওয়ার্ক গ্রহণ করা যাক।
    Figure-6
    এখন, ইনপুট চিত্র এবং বৈশিষ্ট্য মানচিত্রের মধ্যে সরাসরি ম্যাপিং দেখানোর জন্য আমরা একটু বড় ছবি তুলব। আসুন 14X14 ইমেজ বাড়িয়ে দিন (চিত্র 7)। আমরা দেখতে পাচ্ছি উপরের বাম চতুর্ভুজ (6,6 সেন্টারে) 12x12 প্যাচ নীল রঙের রঙিন রঙে 3 × 3 প্যাচ তৈরি করছে এবং অবশেষে চূড়ান্ত বৈশিষ্ট্য মানচিত্র (নীল রঙের) এ 1 × 1 স্কোর প্রদান করছে। উপরের ডান চতুর্ভুজ (লাল, কেন্দ্রে 8,6 এ প্রদর্শিত) থেকে প্রাপ্ত 12x12 আকারের দ্বিতীয় প্যাচ চূড়ান্ত লেয়ারে (লাল চিহ্নিত) 1x1 স্কোর আনুষ্ঠানিকভাবে উত্পন্ন করবে।


    Figure 7: Depicting overlap in feature maps for overlapping image regions চিত্র 7: চিত্র অঞ্চলে ওভারল্যাপিং বৈশিষ্ট্যের মানচিত্রগুলিতে ওভারল্যাপের চিত্রণ
    আপনি দেখতে পারেন, বিভিন্ন 12X12 প্যাচগুলির শেষবিচারের মানচিত্রে তাদের 3x3 উপস্থাপনা থাকবে এবং অবশেষে, তারা আউটপুট লেয়ারে তাদের সংশ্লিষ্ট বর্গ স্কোরগুলি উত্পাদন করবে।
    সংগ্রাহক বৈশিষ্ট্য মানচিত্র গণনা computationally খুব ব্যয়বহুল এবং প্রতিটি প্যাচ জন্য এটি গণনা খুব দীর্ঘ সময় লাগবে। কিন্তু, এই প্রকল্পটি ব্যবহার করে, আমরা বিভিন্ন প্যাচগুলির মধ্যে সাধারণ অংশগুলির পুনঃ-গণনা এড়াতে পারি। এখানে আমরা শুধুমাত্র সম্পূর্ণ চিত্রের জন্য বৈশিষ্ট্য ম্যাপ গণনা করছি। এবং যেহেতু আমরা চিত্রের বিভিন্ন প্যাচগুলিতে ম্যাপ করা শেষবিচারের বৈশিষ্ট্য ম্যাপের অংশগুলি জানি, তাই আমরা কঠোরভাবে এটির উপরে ভবিষ্যদ্বাণী ওজন (শ্রেণীবিভাগ স্তর) প্রয়োগ করি। এটি ইনপুট চিত্রটি সম্পাদন করার পরিবর্তে কনভোলিউশনাল বৈশিষ্ট্য মানচিত্রে স্লাইডিং উইন্ডো সম্পাদন করার মতো। সুতরাং এই গণনা অনেক সংরক্ষণ করে।
    সংক্ষেপে আমরা নেটওয়ার্ক এ পুরো ইমেজটি একযোগে ফিড করি এবং শেষমেষ মানচিত্রে বৈশিষ্ট্যটি পাই এবং তারপরে আমরা বিভিন্ন প্যাচগুলির জন্য বর্গ স্কোর অর্জন করতে এই মানচিত্রের উপরে 3x3 কার্নেল কনভোলিউশন সহ একটি স্লাইডিং উইন্ডো সনাক্তকরণ চালাই ।
    যদিও একটি ছোটখাটো সমস্যা আছে। ইমেজ থেকে সব প্যাচ আউটপুট প্রতিনিধিত্ব করা হয় না। আমাদের উদাহরণে, 12X12 প্যাচগুলি (6,6), (8,6) ইত্যাদি (চিত্রটিতে চিহ্নিত) এ কেন্দ্রীভূত। নেটওয়ার্ক (7,6) সঙ্গে প্যাচ নেটওয়ার্ক মধ্যবর্তী পুলিং কারণে বাদ দেওয়া হয়। এক মুহুর্তে, আমরা এই ধরনের বস্তু / প্যাচগুলি কীভাবে পরিচালনা করব তা আমরা দেখব।

    Default Boxes/Anchor সঞ্চালক Boxes ডিফল্ট বক্সস / নোঙ্গর বক্স
    Training Methodology for modified network সংশোধিত নেটওয়ার্কের জন্য প্রশিক্ষণ পদ্ধতি। 
    চলুন দেখি কিভাবে আমরা আরেকটি উদাহরণ নিয়ে এই নেটওয়ার্কটি প্রশিক্ষণ দিতে পারি। এখানে আমরা একটি বৃহৎ ইনপুট ইমেজ, 24X24 একটি বিড়াল ধারণকারী চিত্র (চিত্র 8) একটি উদাহরণ গ্রহণ করা হয়। এটি প্রথমে উপরের উদাহরণের মতো সংশ্লেষক স্তরের মাধ্যমে গৃহীত হয়েছে এবং আকার 6 × 6 এর একটি আউটপুট বৈশিষ্ট্য মানচিত্র তৈরি করে।
    প্রশিক্ষণের সেট প্রস্তুত করার জন্য, সর্বোপরি, আমাদের শ্রেণিবদ্ধ আউটপুটের সমস্ত পূর্বাভাসের জন্য স্থল সত্য বরাদ্দ করতে হবে। আসুন আমরা 7,7 গ্রিডের আউটপুট মানচিত্রে অবস্থানটি চিহ্নিত করি (i, j)।আমরা ইতিমধ্যে এই আউটপুট প্রতিটি সংশ্লিষ্ট ডিফল্ট বক্স জানি। রেফারেন্সের জন্য, আউটপুট এবং এর সংশ্লিষ্ট প্যাচটি উপরের বাম এবং নীচের ডান প্যাচটির জন্য চিহ্নিত চিত্রের রং।Now since patch corresponding to output (6,6) has a cat in it, so ground truth becomes [1 0 0]. Since the patches at locations (0,0), (0,1), (1,0) etc do not have any object in it, their ground truth assignment is [0 0 1].
    অন্যান্য আউটপুট জন্য প্যাচ শুধুমাত্র আংশিকভাবে বিড়াল রয়েছে। আসুন দেখি তাদের নিয়োগ/ assignment কীভাবে করা হয়।


    Ground truth Assignment for partially covered patches

    বোঝার জন্য, আউটপুট (5,5) এ একটি প্যাচ নেই, যে প্যাচ পরিমাণ বিড়াল (ম্যাজেন্টা) পাশাপাশি চিত্র দেখানো হয়। আমরা বস্তুর সামান্য বাক্স থেকে স্থানান্তরিত হয় দেখতে পারি । বক্সটি বিড়ালটিকে ঠিক করে না, কিন্তু ওভারল্যাপের একটি শালীন পরিমাণ রয়েছে।
    সুতরাং কার্যভারের জন্য, আমাদের দুটি বিকল্প রয়েছে: এই প্যাচটিকে ব্যাকগ্রাউন্ডের সাথে এক হিসাবে ট্যাগ করা  অথবা এটি একটি বিড়াল হিসাবে ট্যাগ করুন। background(bg)  হিসাবে  ট্যাগ করা অবশ্যই অপরিহার্যভাবে কেবলমাত্র একটি বক্স যা বস্তুর সাথে যুক্ত করে তা একটি বস্তুর হিসাবে ট্যাগ করা হবে। এবং সব অন্যান্য বক্সে ট্যাগ করা হবে বিজি। এই দুটি সমস্যা আছে। প্রথমত প্রশিক্ষণ অত্যন্ত skewed হবে (বস্তু এবং বিজি ক্লাসের মধ্যে বড় ভারসাম্যহীনতা)। দ্বিতীয়ত, যদি বস্তুটি কোনও বাক্সে মাপসই না করে তবে এর অর্থ হবে বস্তুর সাথে কোনও বক্স ট্যাগ করা হবে না।

    সুতরাং আমরা এই প্যাচটিকে বিড়াল হিসাবে ট্যাগ করার দ্বিতীয় সমাধানটি উপভোগ করি। কিন্তু এই সমাধানতে, আমাদের বস্তুর কেন্দ্র থেকে এই বাক্সের কেন্দ্রে অফসেটটির যত্ন নিতে হবে। আসুন আমরা উদাহরণস্বরূপ বলি, এক্স এবং ই-দিক বরাবর বস্তুর কেন্দ্র থেকে প্যাচের কেন্দ্রে যথাক্রমে cx এবং cy হল অফসেট (এছাড়াও দেখানো হয়েছে)। আমাদের এই প্যাচটির জন্য এমন একটি উপায় তৈরি করা দরকার যা নেটওয়ার্কটি এই অফসেটগুলির পূর্বাভাস দিতে পারে যা এভাবে বস্তুর প্রকৃত সমন্বয় খুঁজে পেতে ব্যবহার করা যেতে পারে।

    তাই প্রতিটি অবস্থানের জন্য, আমরা নেটওয়ার্কের আরও দুটি আউটপুট যুক্ত করি (ক্লাসের সম্ভাবনা বাদে) যা কেন্দ্রের অফসেটের জন্য দাঁড়িয়ে থাকে। আসুন আমরা বাছুর ও অই হিসাবে নেটওয়ার্ক দ্বারা তৈরি পূর্বাভাস কল। এবং এই আউটপুটগুলি সিএক্স এবং সাইয়াকে পূর্বাভাস দেওয়ার জন্য, আমরা একটি প্রতিক্রিয়া ক্ষতির ব্যবহার করতে পারি। ভ্যানিলা স্কয়ার্ড ত্রুটি ক্ষতি এই ধরনের প্রতিক্রিয়া জন্য ব্যবহার করা যেতে পারে। সনাক্তকরণের কাগজপত্র সাধারণত L1 ক্ষতির মসৃণ রূপ ব্যবহার করে। আমরা এই আলোচনার জন্য এই ছোটখাট বিস্তারিত উপেক্ষা করবে।

    Dealing with Scale changesস্কেল পরিবর্তন সঙ্গে আচরণ

    এখন যেহেতু আমরা বিভিন্ন স্থানে বস্তুর যত্ন নিচ্ছি, দেখি কোন বস্তুর স্কেলে পরিবর্তনগুলি কীভাবে সমাধান করা যায়।
    আমরা দুটি ভিন্ন ধরনের বস্তু মোকাবেলা করার জন্য দুটি ভিন্ন কৌশল দেখব। এক ধরনের বস্তু যার আকারটি 12x12 পিক্সেলের কাছাকাছি (বাক্সগুলির ডিফল্ট আকার) কাছে নির্দেশ করে। অন্যান্য ধরনের বস্তু যার আকার 12x12 থেকে উল্লেখযোগ্যভাবে ভিন্ন।

    Objects with size close to 12X12
    আকার 12x12 আকারের বস্তুর জন্য, আমরা অফসেট পূর্বাভাস অনুরূপভাবে তাদের মোকাবেলা করতে পারেন। আসুন আমরা অনুমান করি যে বস্তুর প্রকৃত উচ্চতা এবং প্রস্থ যথাক্রমে h এবং w। তাই আমরা আউটপুট এবং উচ্চতা (OH, OW) নির্দেশক আউটপুট আরো দুটি মাত্রা যোগ করুন। তারপর আমরা আবার এই আউটপুট সত্য উচ্চতা এবং প্রস্থ পূর্বাভাস করতে regression ব্যবহার।

    Objects far smaller than 12X12
    আকার 12x12 আকারের বস্তুর জন্য, আমরা অফসেট পূর্বাভাস অনুরূপভাবে তাদের মোকাবেলা করতে পারেন। আসুন আমরা অনুমান করি যে বস্তুর প্রকৃত উচ্চতা এবং প্রস্থ যথাক্রমে h এবং w। তাই আমরা আউটপুট এবং উচ্চতা (OH, OW) নির্দেশক আউটপুট আরো দুটি মাত্রা যোগ করুন। তারপর আমরা আবার এই আউটপুট সত্য উচ্চতা এবং প্রস্থ পূর্বাভাস করতে regression ব্যবহার।

    Objects far smaller than 12X12
    12X12 আকারের থেকে খুব ভিন্ন বস্তুগুলির সাথে ডিলিং একটু চতুর। আর্গুমেন্টের জন্য, আসুন আমরা অনুমান করি যে আমরা শুধুমাত্র এমন বস্তুর সাথে মোকাবিলা করতে চাই যা ডিফল্ট আকারের চেয়ে অনেক ছোট।

    এটির একটি লাইন সমাধানটি 9 নম্বর চিত্র অনুসারে দেখানো প্রতিটি বৈশিষ্ট্যের মানচিত্র (প্রতিটি সংশ্লেষ স্তর পরে আউটপুট) শীর্ষক ভবিষ্যদ্বাণী করা। চিত্রের বেস নেটওয়ার্ক থেকে শাখা হিসাবে দেখানো হয়েছে। একক শট মাল্টিবিক্স ডিটেক্টর এ এটি চালু মূল ধারণা। আমাদের বিস্তারিত এই বুঝতে।



    Using all feature maps for predictions
    এর আগে আমরা কেবলমাত্র শেষবিচারের বৈশিষ্ট্য মানচিত্রটি ব্যবহার করেছি এবং আউটপুটগুলি (সম্ভাব্যতা, কেন্দ্র, উচ্চতা এবং বাক্সের প্রস্থ) পেতে একটি 3 এক্স 3 কার্নেল কনভোলিউশন প্রয়োগ করেছি। এখানে আমরা তাদের সকলের পূর্বাভাস পেতে নেটওয়ার্কটির সমস্ত বৈশিষ্ট্য মানচিত্রগুলিতে 3X3 কনভোলিউশন প্রয়োগ করছি। নিম্ন স্তর থেকে পূর্বাভাস ছোট আকারের বস্তু সঙ্গে ডিল করার সাহায্য। এটা কিভাবে হয়?

    মনে রাখবেন, এক অবস্থানে রূপান্তর বৈশিষ্ট্য মানচিত্র একটি চিত্রের একটি অংশ / প্যাচ উপস্থাপন করে। যে তার গ্রহনযোগ্য ক্ষেত্রের আকার বলা হয়। আমরা আমাদের উদাহরণ নেটওয়ার্কের মধ্যে এটি দেখেছি যেখানে শেষবিচারের মানচিত্রের উপরে পূর্বাভাস 12X12 প্যাচ দ্বারা প্রভাবিত হচ্ছে।

    কনভোলিউশনাল নেটওয়ার্ক প্রকৃতির অনুক্রমিক। এবং প্রতিটি ক্রমবর্ধমান স্তর ক্রমবর্ধমান জটিলতা একটি সত্তা প্রতিনিধিত্ব করে এবং এভাবে, আমরা গভীরে যেতে হিসাবে ইনপুট ইমেজ তাদের গ্রহনযোগ্য ক্ষেত্র বৃদ্ধি পায়। সুতরাং আমাদের নেটওয়ার্কে প্রান্তিক স্তর শীর্ষে পূর্বাভাসের সর্বাধিক গ্রহনযোগ্য ক্ষেত্রের আকার (12X12) রয়েছে এবং তাই এটি বড় আকারের বস্তুর যত্ন নিতে পারে। এবং ছোট গ্রহনযোগ্য ক্ষেত্র ধারণকারী ঝরনা স্তর ছোট আকারের বস্তু প্রতিনিধিত্ব করতে পারেন।

    আমাদের নমুনা নেটওয়ার্কে, প্রথম বৈশিষ্ট্যের মানচিত্রে শীর্ষে থাকা পূর্বাভাসগুলিতে 5x5 এর একটি গ্রহণযোগ্য আকার রয়েছে (চিত্র 9টিতে ট্যাগকৃত কৃতিত্ব-মানচিত্র 1)। সহজে সহজ হিসাব ব্যবহার করে গণনা করা যেতে পারে। এটা চিত্র গ্রাফিকাল ব্যাখ্যা করা হয়েছে। একইভাবে, বৈশিষ্ট্যের মানচিত্রের উপরে ভবিষ্যদ্বাণীগুলি feat-map2 অ্যাকাউন্টে 9এক্স9 এর একটি প্যাচ নিন। সুতরাং আমরা দেখতে পাচ্ছি যে গভীরতার গভীরতার সাথে, গ্রহনযোগ্য ক্ষেত্রটিও বৃদ্ধি পায়।

    এর মূলত অর্থ হচ্ছে আমরা লেয়ারের বৈশিষ্ট্যগুলি ব্যবহার করে একটি খুব ভিন্ন আকারের বস্তুটিকে মোকাবেলা করতে পারি যার স্বচ্ছ ক্ষেত্রের আকার অনুরূপ।

    সুতরাং আগের মতই, আমরা ডিফল্ট বাক্সগুলিকে নেটওয়ার্কে বিভিন্ন বৈশিষ্ট্যের মানচিত্রের জন্য বিভিন্ন ডিফল্ট আকার এবং অবস্থানগুলির সাথে সংযুক্ত করি।

    এখন প্রশিক্ষণ পর্যায়ে, আমরা একটি বস্তুটিকে বৈশিষ্ট্যের মানচিত্রে সংযুক্ত করি যা বস্তুর আকারের নিকটতম ডিফল্ট আকার ধারণ করে। উদাহরণস্বরূপ, যদি বস্তুর আকার 6X6 পিক্সেল হয়, তবে আমরা এমন বস্তুর জন্য ভবিষ্যদ্বাণী করতে feat-map2 উত্সর্গ করি। অতএব আমরা বস্তুর অবস্থান অনুযায়ী feat-map2 এর আউটপুটে প্রাসঙ্গিক ডিফল্ট বক্সটি সন্ধান করি। এবং তারপর আমরা বস্তুর বর্গ সঙ্গে তার স্থল সত্য লক্ষ্য বরাদ্দ। এই কৌশলটি নিশ্চিত করে যে কোন বৈশিষ্ট্য মানচিত্র এমন বস্তুর সাথে মোকাবিলা করতে পারে না যার আকারটি হ্যান্ডেল করতে পারে তার থেকে উল্লেখযোগ্যভাবে ভিন্ন। এবং এইভাবে এটি নেটওয়ার্ক আরও বৈষম্যমূলক ক্ষমতা দেয়।

    এইভাবে আমরা এখন 12x12 আকারের তুলনায় উল্লেখযোগ্য আকারের বস্তুগুলি মোকাবেলা করতে পারি।

     উপসংহার
    এটি একটি তাত্ত্বিক দৃষ্টিকোণ থেকে এসএসডি একটি সংক্ষিপ্ত বিবরণ শেষ। আকৃতির বর্গক্ষেত্র নয় (স্কিউড দৃষ্টিপাত অনুপাত) নয় এমন প্রতিটি বস্তুর সাথে মোকাবিলা করার জন্য প্রতিটি শ্রেণীবদ্ধ স্তরটির জন্য আরো আউটপুট যোগ করার মতো আরও কিছু বিবরণ রয়েছে। এছাড়াও, এসএসডি কাগজটি ভিজিজি নেটওয়ার্ক থেকে একটি নেটওয়ার্ক তৈরি করে এবং লেয়ারের গ্রহণযোগ্য মাপকে কমিয়ে আনতে পরিবর্তন করে (এটারাস অ্যালগরিদম)। আমি এই সব বিবরণ এখন সহজে কাগজ উল্লেখ থেকে বোঝা যাবে আশা করি। 








  • 0 comments:

    Post a Comment

    New Research

    Attention Mechanism Based Multi Feature Fusion Forest for Hyperspectral Image Classification.

    CBS-GAN: A Band Selection Based Generative Adversarial Net for Hyperspectral Sample Generation.

    Multi-feature Fusion based Deep Forest for Hyperspectral Image Classification.

    ADDRESS

    388 Lumo Rd, Hongshan, Wuhan, Hubei, China

    EMAIL

    contact-m.zamanb@yahoo.com
    mostofa.zaman@cug.edu.cn

    TELEPHONE

    #
    #

    MOBILE

    +8615527370302,
    +8807171546477