বস্তু সনাক্তকরণটি কম্পিউটার দৃষ্টি এবং চিত্র প্রক্রিয়াকরণের সাথে সম্পর্কিত একটি কম্পিউটার প্রযুক্তি যা ডিজিটাল চিত্র এবং ভিডিওগুলিতে একটি নির্দিষ্ট বর্গের (যেমন মানুষের, বিল্ডিং, বা গাড়ি) শব্দার্থিক বস্তুর সনাক্তকরণের ঘটনাগুলি সনাক্ত করে। বস্তুর সনাক্তকরণের ভাল গবেষিত ডোমেনগুলি মুখ সনাক্তকরণ এবং পথচারী সনাক্তকরণ অন্তর্ভুক্ত। অবজেক্ট সনাক্তকরণে কম্পিউটারের দৃষ্টিভঙ্গির অনেকগুলি এলাকায় অ্যাপ্লিকেশন পুনরুদ্ধার এবং ভিডিও নজরদারি রয়েছে।
ব্যবহার
এটি কম্পিউটার সনাক্তকরণের ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয় যেমন মুখের সনাক্তকরণ, মুখ সনাক্তকরণ, ভিডিও অবজেক্ট সহ-বিভাজন। এটি বস্তুগুলি ট্র্যাকিংয়েও ব্যবহার করা হয়, উদাহরণস্বরূপ একটি ফুটবল ম্যাচ চলাকালীন একটি বল ট্র্যাক করা, একটি ক্রিকেট ব্যাট চলমান ট্র্যাকিং, একটি ভিডিওতে একজন ব্যক্তির ট্র্যাকিং।
Consept
প্রতিটি অবজেক্ট ক্লাসের নিজস্ব বিশেষ বৈশিষ্ট্য রয়েছে যা ক্লাস শ্রেণিবদ্ধ করতে সহায়তা করে - উদাহরণস্বরূপ সমস্ত চেনাশোনা বৃত্তাকার। অবজেক্ট ক্লাস সনাক্তকরণ এই বিশেষ বৈশিষ্ট্য ব্যবহার করে। উদাহরণস্বরূপ, যখন চেনাশোনাগুলি সন্ধান করা হয়, তখন কোনও বিন্দু থেকে নির্দিষ্ট দূরত্বে (যেমন কেন্দ্র) বস্তুগুলি চাওয়া হয়। একইভাবে, যখন স্কোয়ারের জন্য অনুসন্ধান করা হয়, কোণগুলিতে লম্বালম্বি এবং সমান পার্শ্ব দৈর্ঘ্য আছে এমন বস্তুগুলি প্রয়োজন। একই রকম পদ্ধতির মুখ সনাক্তকরণের জন্য ব্যবহৃত হয় যেখানে চোখ, নাক এবং ঠোঁট পাওয়া যায় এবং ত্বকের রঙ এবং চোখের মধ্যে দূরত্ব পাওয়া যায়।
Methodsপদ্ধতি
বস্তুর সনাক্তকরণের পদ্ধতিগুলি সাধারণত মেশিন লার্নিং-ভিত্তিক পন্থাগুলি বা গভীর শিক্ষার ভিত্তিক পন্থাগুলিতে পড়ে। মেশিন লার্নিং পন্থার জন্য, প্রথমে নিম্নোক্ত পদ্ধতিগুলি ব্যবহার করে বৈশিষ্ট্যগুলি সংজ্ঞায়িত করা আবশ্যক, তারপরে শ্রেণীকরণের জন্য সহায়তা ভেক্টর মেশিন (SVM) হিসাবে একটি কৌশল ব্যবহার করে। অন্য দিকে, গভীর শেখার কৌশল যা বিশেষভাবে বৈশিষ্ট্যগুলি সংজ্ঞায়িত না করে, শেষ থেকে শেষ অবজেক্ট সনাক্তকরণ করতে সক্ষম, এবং সাধারণত কনভোলনালাল নিউরাল নেটওয়ার্ক (সিএনএন) ভিত্তিক।
- Machine Learning approaches:
- Deep Learning approaches:
References[edit]
- ^ Dalal, Navneet (2005). "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1.
- ^ Ross, Girshick (2014). "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE. doi:10.1109/CVPR.2014.81.
- ^ Girschick, Ross (2015). "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440–1448. arXiv:1504.08083.
- ^ Shaoqing, Ren (2015). "Faster R-CNN" (PDF). Advances in Neural Information Processing Systems. arXiv:1506.01497.
- ^ Liu, Wei (October 2016). SSD: Single shot multibox detector. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. pp. 21–37. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3.
- ^ Redmon, Joseph (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
- ^ Redmon, Joseph (2017). "YOLO9000: better, faster, stronger". arXiv:1612.08242 [cs.CV].
- ^ Redmon, Joseph (2018). "Yolov3: An incremental improvement". arXiv:1804.02767 [cs.CV].
- "Object Class Detection". Vision.eecs.ucf.edu. Retrieved 2013-10-09.
- "ETHZ - Computer Vision Lab: Publications". Vision.ee.ethz.ch. Retrieved 2013-10-09.
External links[edit]
- Multiple object class detection
- Spatio-temporal action localization
- Video object detection and co-segmentation
0 comments:
Post a Comment