Deep Forest

Abstract

বর্তমান গভীর শেখার মডেলগুলি বেশিরভাগ নিউরাল নেটওয়ার্কগুলির উপর ভিত্তি করে তৈরি করা হয়, অর্থাত্ প্যারামিটারাইজড diﬀerentiable nonlinear module গুলির একাধিক স্তর যা ব্যাকপ্রোপ্যাগেশন দ্বারা প্রশিক্ষিত হতে পারে।এই কাগজে,আমরাdiﬀerentiable module গুলির ভিত্তিতে গভীর মডেল তৈরির সম্ভাবনাটি ঘুরে দেখি। আমরা অনুমান করি যে গভীর স্নায়বিক সাফল্যের পিছনে deep neural network গুলি তিনটি বৈশিষ্ট্য অনেক ঋণী ,অর্থাত, layer-by-layer processing, in-model feature transformation and suﬃcient model complexity/স্তর-দ্বারা-স্তর প্রক্রিয়াজাতকরণ, ইন-মডেল বৈশিষ্ট্যটির রূপান্তর এবং সু-মডেল জটিলতা আমরা প্রস্তাব করি gcForest পদ্ধতির ,যা এই বৈশিষ্ট্যগুলি ধারণ করে deep forest/গভীর বন তৈরি করে।এটি একটি decision tree সংগ্রহের পদ্ধতির,গভীর নিউরাল নেটওয়ার্কগুলির চেয়ে কম হাইপার-প্যারামিটার সহ,এবং এর মডেল জটিলতাটি একটি ডেটা-নির্ভর উপায়ে স্বয়ংক্রিয়ভাবে নির্ধারণ করা যায়।পরীক্ষাগুলি দেখায় যে, এর কার্যকারিতা হাইপার-প্যারামিটার সেটিংস থেকে বেশ মজবুত,যেমন বেশিরভাগ ক্ষেত্রে,এমন কি diﬀerent domains গুলি থেকে diﬀerent data জুড়ে,এটি একই default setting/ডিফল্ট সেটিংস ব্যবহার করে দুর্দান্ত পারফরম্যান্স পেতে সক্ষম।এই অধ্যয়নটি diﬀerentiable modules গুলির উপর ভিত্তি করে গভীর শিক্ষার দ্বার উন্মুক্ত করে,এবং ব্যাকপ্রোপেশন ব্যবহার না করেই গভীর মডেল নির্মাণের সম্ভাবনা প্রদর্শন করে।

Key words: Deep Forest, Deep Learning, Machine Learning, Ensemble Methods,

Decision Trees

1 Introduction

Deep learning [17] বিভিন্ন ডোমেনে হটওয়েভে পরিণত হয়েছে।যখন,Deep learning কি? উত্তরগুলি খুব সম্ভবত হতে পারে যে "Deep learning হ'ল deep neural networks গুলি ব্যবহার করে এমন machine learning-র একটি subﬁeld -" [৫২]। আসলে, great arXiv:1702.08835v3 [cs.LG] 14 May 2018 ভিজ্যুয়াল এবং visual and speech গুলির সাথে জড়িত কার্যগুলিতে deep neural networks (DNNs) সাফল্য [22,30] deep learning উত্থানের দিকে পরিচালিত করে,এবং প্রায় সমস্ত বর্তমান গভীর শেখার অ্যাপ্লিকেশনগুলি নিউরাল নেটওয়ার্ক মডেলগুলিতে বা আরও প্রযুক্তিগতভাবে তৈরি করা হয়েছে,প্যারামিটারাইজড diﬀerentiable ননলাইনার মডিউলগুলির একাধিক স্তর যা ব্যাকপ্রসারণ দ্বারা প্রশিক্ষিত হতে পারে।

যদিও deep neural network গুলি শক্তিশালী, তবে তাদের অনেকগুলি শৃঙ্খলা রয়েছে।প্রথমত, DNNs গুলি অনেক বেশি hyper-parameters সহ থাকে এবং learning performance টি যত্নবান প্যারামিটার টিউনিংয়ের উপর গুরুত্ব সহকারে নির্ভর করে।প্রকৃতপক্ষে,এমনকি যখন বেশ কয়েকজন লেখক সবাই convolutional neural networks গুলি [30,34,51] ব্যবহার করেন,convolutional layer structures র মতো অনেকগুলি diﬀerent এর কারণে তারা প্রকৃতপক্ষে diﬀerent learning model গুলী ব্যবহার করছে।এই সত্যটি কেবল DNNs দের প্রশিক্ষণকেই খুব জটিল করে তোলে না,প্রায় science/engineering এর চেয়ে কোনও শিল্পের মতো, তবে প্রায় diﬃcult গুরুরাল সংমিশ্রণগুলির সাথে অনেকগুলি interfering factors গুলির কারণে DNN-এর অত্যন্ত তাত্পর্যপূর্ণ তাত্ত্বিক বিশ্লেষণও।

দ্বিতীয়ত,এটি সুপরিচিত যে DNNs প্রশিক্ষণের জন্য প্রচুর পরিমাণে প্রশিক্ষণের ডেটা প্রয়োজন হয় এবং এইভাবে,যেখানে কেবলমাত্র small-scale training data রয়েছে সেখানে DNNs খুব কমই প্রয়োগ করা যেতে পারে,কখনও কখনও এমনকি মাঝারি স্কেল প্রশিক্ষণ ডেটা ব্যর্থ। নোট করুন যে এমনকি বড় ডেটা যুগে, অনেকগুলি আসল কার্যেই এখনও লেবেলযুক্ত high cost of labeling কারণে লেবেলযুক্ত ডেটা পরিমাণের labeled data due ,এই কাজগুলিতে DNNs গুলির নিকৃষ্ট কর্মক্ষমতা বাড়ে।অধিকন্তু, এটি সুপরিচিত যে neural networks গুলি black-box models গুলি যার সিদ্ধান্ত প্রক্রিয়াগুলি বোঝা শক্ত, theoretical analysis এর জন্য শিক্ষার আচরণগুলি অত্যন্ত বিচক্ষণ। তদ্ব্যতীত, প্রশিক্ষণের আগে নিউরাল neural network architecture/নেটওয়ার্ক আর্কিটেকচারটি নির্ধারণ করতে হবে,এবং এইভাবে, model complexity advance নির্ধারিত হয়।আমরা conjecture/অনুমান করি যে deep models গুলি সাধারণত প্রয়োজনের তুলনায় সাধারণত অতিরিক্ত মাত্রায় জটিল,শর্টকাট সংযোগ [20,53] যোগ করে DNN-র পারফরম্যান্স উন্নতি সম্পর্কে সম্প্রতি অনেকগুলি প্রতিবেদন রয়েছে যে পর্যবেক্ষণ দ্বারা সত্যই সম্পাদিত হয়েছে,shortcut connection [20,53], pruning [19,39], binarization [8,45], etc., কারণ এই ক্রিয়াকলাপগুলি আসল নেটওয়ার্কগুলিকে সহজতর করে এবং আসলে মডেলের জটিলতা হ্রাস করে।মডেল জটিলতা যদি কোনও ডেটা নির্ভর উপায়ে স্বয়ংক্রিয়ভাবে নির্ধারণ করা যায় তবে এটি আরও ভাল।এটি আরও লক্ষণীয় যে DNN গুলি উন্নতভাবে উন্নত করা হলেও এখনও অনেকগুলি কাজ রয়েছে যার উপর ডিএনএন উন্নত নয়,কখনও কখনও এমনকি অপর্যাপ্ত;উদাহরণস্বরূপ, Random Forest [5] or XGBoost [6] এখনও অনেকগুলি কাগল প্রতিযোগিতার কার্যক্রমে বিজয়ী।

আমরা বিশ্বাস করি যে complicated learning কাজগুলি মোকাবেলা করার জন্য, শেখার মডেলগুলি সম্ভবত আরও deep হতে হবে।Current deep models গুলি সর্বদা neural networks গুলিতে তৈরি হয়।উপরে আলোচিত হিসাবে, non-NN স্টাইলের deep models গুলি অন্বেষণ করার ভাল কারণ রয়েছে,বা অন্য কথায়,deep learning অন্যান্য মডিউলগুলির সাথে উপলব্ধি করা যায় কিনা তা বিবেচনা করা, কারণ তাদের নিজস্ব সুবিধাগুলি রয়েছে এবং গভীরভাবে যেতে সক্ষম হলে দুর্দান্ত সম্ভাবনা প্রদর্শন করতে পারে। নির্দিষ্টভাবে,নিউরাল নেটওয়ার্কগুলি প্যারামিটারাইজড diﬀerentiable nonlinear modules গুলির একাধিক স্তর হিসাবে বিবেচনা করে, যদিও world are diﬀerentiable or best modelled as diﬀerentiable , এই গবেষণাপত্রে আমরা এই মৌলিক প্রশ্নটির সমাধান করার চেষ্টা করি:

"non-diﬀerentiable modules গুলির সাহায্যে গভীর শিক্ষার উপলব্ধি করা যায় কি?"

ফলাফল যেমন অনেক গুরুত্বপূর্ণ বিষয় বুঝতে সাহায্য করতে পারে

(1) deep models ?= DNNs গুলি (বা, deep model গুলি কেবলমাত্র diﬀerentiable modules গুলি দিয়ে তৈরি করা যেতে পারে);

(২) backpropagation ছাড়াই কি deep models গুলি প্রশিক্ষণ দেওয়া সম্ভব? (backpropagation requires diﬀerentiability);

(3) deep models গুলি যে কাজগুলিতে র্যাrandom forest or XGBoost are better-র মতো এখন অন্য মডেলগুলি আরও ভাল সেগুলি কার্যকর করতে সক্ষম হওয়া সম্ভব?

আসলে,machine learning community টি প্রচুর শেখার মডিউল তৈরি করেছে, যদিও তাদের মধ্যে অনেকগুলিই non-diﬀerentiable modules গুলির ভিত্তিতে deep models গুলি তৈরি করা সম্ভব কিনা তা বোঝার ফলে এই মডিউলগুলি deep learning ক্ষেত্রে কাজে লাগানো যায় কিনা তা এই বিষয়ে আলোকপাত করবে।

এই কাগজে,আমরা আমাদের প্রাথমিক অধ্যয়নকে প্রসারিত করি [65] যা deep forest নির্মানের জন্য একটি non-NN style deep model , gcForest1 (multi-Grained Cascade Forest) পদ্ধতির প্রস্তাব দেয়। এটি একটি অভিনব decision tree ensemble ,একটি cascade structure যা বন দ্বারা প্রতিনিধিত্ব শেখার সক্ষম করে।এর representational learning ability multi-grained scanning, দ্বারা আরও বাড়ানো যেতে পারে, potentially ভাবে gcForest কে contextual or structural aware করতে সক্ষম করা। ক্যাcascade levels গুলি স্ব automatically determined করা যেতে পারে যে, model complexity প্রশিক্ষণের আগে ম্যানুয়ালি ডিজাইনের পরিবর্তে কোনও ডেটা নির্ভর নির্ভর উপায়ে নির্ধারণ করা যেতে পারে;এটি gcForest এমনকি ক্ষুদ্র-স্কেল ডেটাতেও ভালভাবে কাজ করতে সক্ষম করে এবং ব্যবহারকারীগণকে উপলব্ধ গণ্য সংস্থান অনুসারে প্রশিক্ষণ ব্যয় নিয়ন্ত্রণ করতে সক্ষম করে। অধিকন্তু, gcForest/জিসিফোরেস্টে DNN-এর চেয়ে অনেক কমhyperparameters রয়েছে। আরও ভাল খবর হ'ল hyper-parameter settings গুলি এর পারফরম্যান্স বেশ মজবুত;আমাদের পরীক্ষাগুলি দেখায় যে বেশিরভাগ ক্ষেত্রে, এটি ডিফল্ট ডোমেনগুলি থেকে diﬀerent data জুড়ে এমনকি default setting ব্যবহার করে excellent performance পেতে সক্ষম।

"geek forest/গীক বন" এর মতো শোনাচ্ছে।

The rest of this paper is organized as follows.
Section 2 explains our design motivations by analyzing why deep learning works.
Section 3 proposes our approach,
followed by experiments reported in Section 4.
Section 5 discusses on some related work.
Section 6 raises some issues for future exploration, followed by concluding remarks in Section 7.

2 Inspiration

2.1 Inspiration from DNNs

এটি widely recognized/ব্যাপকভাবে স্বীকৃত যে deep neural networks গুলির সাফল্যের জন্য উপস্থাপনা শেখার ক্ষমতা অত্যন্ত গুরুত্বপূর্ণ। DNN- তে representation learning/প্রতিনিধিত্বমূলক শিক্ষার জন্য কী গুরুত্বপূর্ণ? আমরা বিশ্বাস করি যে উত্তরটি স্তর-দ্বারা-স্তর প্রক্রিয়াজাতকরণ। চিত্র 1 একটি চিত্র সরবরাহ করে, স্তরটি নীচ থেকে উপরে উঠার সাথে সাথে উচ্চ স্তরের abstractএর features গুলি প্রকাশিত হয়।

Image result for layer-by-layer processing in deep neural networks

Image result for layer-by-layer processing in deep neural networks

Fig. 1. Illustration of the layer-by-layer processing in deep neural networks: Features of
higher levels of abstract emerge as the layer goes up from the bottom. Simulated from a
ﬁgure in [17].

Considering করে যে অন্যান্য সমস্যাগুলি যদি এক্সড হয়, তবে বড় মডেলের জটিলতা (or more accurately, model capacity) সাধারণত শক্তিশালী learning ability র দিকে পরিচালিত করে, DNNs গুলির সাফল্যকে বিশাল মডেলের জটিলতায় দায়ী করা যুক্তিসঙ্গত বলে মনে হয়। এটি তবে এই সত্যটি ব্যাখ্যা করতে পারে না যে অগভীর নেটওয়ার্কগুলি কেন গভীর নেটওয়ার্কগুলির মতো সফল হয় না, যেহেতু কেউ hidden units এর প্রায় inﬁnite number যোগ করে shallow networks গুলির জটিলতা বাড়িয়ে তুলতে পারে। সুতরাং, আমরা বিশ্বাস করি যে মডেল জটিলতা নিজেই ডিএনএনগুলির সাফল্য ব্যাখ্যা করতে পারে না। পরিবর্তে, আমরা অনুমান করি যে স্তর-দ্বারা-স্তর প্রক্রিয়াকরণ ডিএনএনগুলির পিছনে অন্যতম গুরুত্বপূর্ণ কারণ, কারণ networks নেটওয়ার্কগুলিতে (যেমন, এsingle-hidden-layer networks), তাদের জটিলতা যত বড় হতে পারে তা বিবেচনা করুন, স্তর-দ্বারা-স্তর প্রক্রিয়াজাতকরণের বৈশিষ্ট্যগুলি ধরে রাখবেন না। যদিও আমাদের কাছে এখনও কোনও কঠোর ন্যায্যতা নেই,এই অনুমান ও gcForest.

ডিজাইনের জন্য একটি গুরুত্বপূর্ণ অনুপ্রেরণা

কেউ প্রশ্ন করতে পারে যে এখানে শেখার মডেল রয়েছে,উদাহরণস্বরূপ, decision trees and Boosting machines ,যা layer-by-layer processing পরিচালনা করে,কেন তারা DNN -এর মতো সফল নয়?আমরা বিশ্বাস করি যে সবচেয়ে গুরুত্বপূর্ণ পার্থক্যকারী কারণটি হ'ল,DNN-এর বিপরীতে যেখানে চিত্র 1-এ বর্ণিত হিসাবে নতুন বৈশিষ্ট্য তৈরি করা হয়েছে, শিখার প্রক্রিয়া চলাকালীন নতুন বৈশিষ্ট্য তৈরি না করে decision trees এবং Boosting machines গুলি সর্বদা আসল বৈশিষ্ট্য উপস্থাপনায় কাজ করে বা অন্য কথায়, কোনও মডেল বৈশিষ্ট্য রূপান্তর হয় না।তদুপরি, DNN গুলির বিপরীতে যা নির্বিচারে উচ্চ মডেলের জটিলতায় ভোগ করা যায়,সিদ্ধান্ত গাছ এবং বুস্টিং মেশিনগুলির মধ্যে কেবলমাত্র সীমিত মডেলের জটিলতা থাকতে পারে।যদিও মডেল জটিলতা নিজেই DNN গুলির সাফল্য ব্যাখ্যা করে না,এটি এখনও গুরুত্বপূর্ণ কারণ বড় প্রশিক্ষণের ডেটা শোষণের জন্য বৃহত মডেলের সক্ষমতা প্রয়োজন।সামগ্রিকভাবে, আমরা অনুমান করি যে ডিএনএনগুলির রহস্যের পিছনে তিনটি গুরুত্বপূর্ণ বৈশিষ্ট্য রয়েছে,অর্থাত, layer-by-layer processing,
in-model feature transformation,
and suﬃcient model complexity। আমরা এই বৈশিষ্ট্যগুলিকে আমাদের nonNN style deep model-র কাছে রেখে দেওয়ার চেষ্টা করব।

2.2 Inspiration from Ensemble Learning
Ensemble learning [63]/এনসেম্বেল লার্নিং হ'ল একটি মেশিন লার্নিং দৃষ্টান্ত যেখানে multiple learners (e.g., classiﬁers) প্রশিক্ষণের জন্য এবং কোনও কাজের জন্য সম্মিলিত। এটি সুপরিচিত যে একটি উপহার সাধারণত single learners.-র চেয়ে আরও generalization performance অর্জন করতে পারে।
একটি ভাল ছাঁটাই তৈরি করতে, পৃথক শিক্ষার্থীদের accurate and diverse হওয়া উচিত।কেবলমাত্র accurate learner-র সংমিশ্রণ হ'ল কিছু তুলনামূলকভাবে দুর্বল -র সাথে কিছু নির্ভুল learners গুলি একত্রিত করার জন্য inferior/নিকৃষ্ট হয়,কারণ পরিপূরক বিশুদ্ধ নির্ভুলতার চেয়ে গুরুত্বপূর্ণ। আসলে, একটি সুন্দর সমীকরণ theoretically ভাবে error-ambiguity decomposition থেকে উদ্ভূত হয়েছে [32]:

E = ¯ E − ¯ A , ...................................................।(১)

যেখানে, E একটি ensemble-র error টি denotes/চিহ্নিত করে,¯ E সমবেত ক্ষেত্রে individual classiﬁers-র error এর average error টি চিহ্নিত করে এবং ¯A denotes একটি average ambiguity/গড় অস্পষ্টতা বোঝায় যা পরবর্তীতে individual classiﬁers-র মধ্যে diversity/বৈচিত্র নামে পরিচিত। Eq (1) প্রকাশ করে যে, পৃথক শ্রেণিবদ্ধদের আরও নিখুঁত ও তত বেশি বৈচিত্র্যময় সমবেত করা ভাল। এটি ensemble নির্মাণের জন্য একটি সাধারণ দিকনির্দেশনা; তবে এটি অপ্টিমাইজেশনের জন্য একটি উদ্দেশ্যমূলক কাজ হিসাবে গ্রহণ করা যায়নি, কারণ অস্পষ্টতা শব্দটি গাণিতিকভাবে ডেরিকডে অবতীর্ণ এবং সরাসরি পরিচালনা করা যায় না [32]। পরবর্তীতে, ensemble community প্রচুর পরিমাণে diversity measures-র নকশা করেছে তবে বৈচিত্র্যের জন্য সঠিক পরিবেশ হিসাবে [9,33] কোনওটিকেই গ্রহণ করা হয়নি। প্রকৃতপক্ষে, "what is diversityবৈচিত্র্য কী?" ensemble learning ক্ষেত্রে holy grail problem হিসাবে রয়ে গেছে এবং কিছু সাম্প্রতিক eﬀort [54,67] এ পাওয়া যাবে।

In practice, diversity বৃদ্ধির প্রাথমিক কৌশলটি প্রশিক্ষণ প্রক্রিয়া চলাকালীন কিছু heuristics/হিউরিস্টিকের ভিত্তিতে randomness based ভাবে ইনজেকশন করা। Roughly speaking/মোটামুটিভাবে বলতে গেলে, চারটি প্রধান শ্রেণির প্রক্রিয়া রয়েছে [63]। প্রথমটি হ'ল ডেটা স্যাম্পল ম্যানিপুলেশন, যা পৃথক শিখর প্রশিক্ষকদের প্রশিক্ষণ দিতে ডিআরেন্ট ডেটা নমুনা তৈরি করে কাজ করে। উদাহরণস্বরূপ, bootstrap sampling [12]] exploited by Bagging [2]] দ্বারা শোষণ করা হয়েছে, অন্যদিকে ক্রমবর্ধমান গুরুত্বের নমুনা AdaBoost/অ্যাডাবুস্ট দ্বারা গৃহীত হয়েছে [14]। দ্বিতীয়টি হ'ল input feature manipulation, যা individual learner প্রশিক্ষকদের প্রশিক্ষণের জন্য ডায়ারেন্ট বৈশিষ্ট্য উপ-স্থান তৈরি করে কাজ করে। উদাহরণস্বরূপ, র্যান্ডম সাবস্পেস পদ্ধতির [24] এলোমেলোভাবে প্রতিটি পৃথক শিক্ষার্থীর জন্য বৈশিষ্ট্যগুলির একটি উপসেট বেছে নিয়েছে। তৃতীয়টি হ'ল প্যারামিটার ম্যানিপুলেশন শিখছে, যা বিভিন্ন পৃথক শিক্ষার্থী তৈরি করতে বেস লার্নিং অ্যালগরিদমের ডিয়ারেন্ট প্যারামিটার সেটিংস ব্যবহার করে কাজ করে। উদাহরণস্বরূপ, ডিআরেন্ট প্রাথমিক ওজন স্বতন্ত্র নিউরাল নেটওয়ার্কগুলির জন্য ব্যবহার করা যেতে পারে [২৮], অন্যদিকে diﬀerent বিভাজন নির্বাচন পৃথক সিদ্ধান্তের গাছগুলিতে প্রয়োগ করা যেতে পারে [ 37] চতুর্থটি আউটপুট প্রতিনিধিত্বমূলক ম্যানিপুলেশন, যা বিভিন্ন স্বতন্ত্র শিক্ষানবিশকে জেনারেট করার জন্য diﬀerent আউটপুট উপস্থাপনা ব্যবহার করে কাজ করে। উদাহরণস্বরূপ, ECOC পদ্ধতির [10] নিয়োগ করে

অনুশীলনে, বৈচিত্র্য বৃদ্ধির প্রাথমিক কৌশলটি প্রশিক্ষণ প্রক্রিয়া চলাকালীন কিছু হিউরিস্টিকের ভিত্তিতে এলোমেলোভাবে ইনজেকশন করা। মোটামুটিভাবে বলতে গেলে, চারটি প্রধান শ্রেণির প্রক্রিয়া রয়েছে [63৩]। প্রথমটি হ'ল ডেটা স্যাম্পল ম্যানিপুলেশন, যা পৃথক শিখর প্রশিক্ষকদের প্রশিক্ষণ দিতে ডিআরেন্ট ডেটা নমুনা তৈরি করে কাজ করে। উদাহরণস্বরূপ, বুটস্ট্র্যাপের নমুনা [12] ব্যাগিং [2] দ্বারা শোষণ করা হয়েছে, অন্যদিকে ক্রমবর্ধমান গুরুত্বের নমুনা অ্যাডাবুস্ট দ্বারা গৃহীত হয়েছে [14]। দ্বিতীয়টি হ'ল ইনপুট বৈশিষ্ট্য ম্যানিপুলেশন, যা পৃথক শিখর প্রশিক্ষকদের প্রশিক্ষণের জন্য ডায়ারেন্ট বৈশিষ্ট্য উপ-স্থান তৈরি করে কাজ করে। উদাহরণস্বরূপ, র্যান্ডম সাবস্পেস পদ্ধতির [24] এলোমেলোভাবে প্রতিটি পৃথক শিক্ষার্থীর জন্য বৈশিষ্ট্যগুলির একটি উপসেট বেছে নিয়েছে। তৃতীয়টি হ'ল প্যারামিটার ম্যানিপুলেশন শিখছে, যা বিভিন্ন পৃথক শিক্ষার্থী তৈরি করতে বেস লার্নিং অ্যালগরিদমের ডিয়ারেন্ট প্যারামিটার সেটিংস ব্যবহার করে কাজ করে। উদাহরণস্বরূপ, ডিআরেন্ট প্রাথমিক ওজন স্বতন্ত্র নিউরাল নেটওয়ার্কগুলির জন্য ব্যবহার করা যেতে পারে [২৮], অন্যদিকে ডি-এ্যারেন্ট বিভাজন নির্বাচন পৃথক সিদ্ধান্তের গাছগুলিতে প্রয়োগ করা যেতে পারে [৩ 37]চতুর্থটি আউটপুট প্রতিনিধিত্বমূলক ম্যানিপুলেশন, যা বিভিন্ন স্বতন্ত্র শিক্ষানবিশকে জেনারেট করার জন্য ডায়ারেন্ট আউটপুট উপস্থাপনা ব্যবহার করে কাজ করে। উদাহরণস্বরূপ, ECOC পদ্ধতির [10] আউটপুট কোডগুলি ত্রুটি-সংশোধনকারী নিয়োগ করে, যেখানে Flipping Output method [4] randomly ভাবে কিছু প্রশিক্ষণের উদাহরণগুলির লেবেলগুলিকে পরিবর্তন করে। Diﬀerent mechanisms পদ্ধতিগুলি একসাথে ব্যবহার করা যেতে পারে, যেমন, [5,68] Note that, however, যে তবে এই পদ্ধতিগুলি সবসময় কার্যকর হয় না। উদাহরণস্বরূপ, ECOC পদ্ধতির [10] আউটপুট কোডগুলি ত্রুটি-সংশোধনকারী নিয়োগ করে, যেখানে Flipping Output method [4] randomly ভাবে কিছু প্রশিক্ষণের উদাহরণগুলির লেবেলগুলিকে পরিবর্তন করে। Diﬀerent mechanisms পদ্ধতিগুলি একসাথে ব্যবহার করা যেতে পারে, যেমন, [5,68] Note that, however, যে তবে এই পদ্ধতিগুলি সবসময় কার্যকর হয় না। উদাহরণস্বরূপ, data sample manipulation স্থিতিশীল শিখার সাথে ভাল কাজ করে না যার দক্ষতা প্রশিক্ষণ ডেটার সামান্য মোডিফিকেশন অনুসারে পরিবর্তিত হয়। ensemble শেখার সম্পর্কে আরও তথ্য [63] এ পাওয়া যাবে।

Next section টি gcForest introduce করবে, যা প্রায়শই সমস্ত শ্রেণীর বিভিন্নতা mechanisms/বৃদ্ধির জন্য utilizes/ব্যবস্থাকে কাজে লাগিয়ে এমন একটি decision tree ensemble পদ্ধতিরূপ হিসাবে দেখা যেতে পারে।

3 The gcForest Approach
এই বিভাগে আমরা প্রথমে cascade forest structure এবং তারপরে multi-grained scanning প্রবর্তন করব, এর পরে সামগ্রিক আর্কিটেকচার এবং হাইপারপ্যারামিটারে মন্তব্য করব।

3.1 Cascade Forest Structure
গভীর নিউরাল নেটওয়ার্কগুলিতে Representation learning বেশিরভাগ raw features গুলির layer-by-layer processing উপর নির্ভর করে। এই স্বীকৃতি দ্বারা অনুপ্রাণিত হয়ে, gcForest একটি cascade কাঠামো নিযুক্ত করে, যেমন চিত্র 2 তে চিত্রিত হয়েছে, যেখানে ক্যাসকেডের প্রতিটি স্তর তার পূর্ববর্তী স্তর দ্বারা প্রক্রিয়াজাত বৈশিষ্ট্য সম্পর্কিত তথ্য গ্রহণ করে এবং এর প্রসেসিং ফলাফলটিকে পরবর্তী স্তরে আউটপুট করে।
প্রতিটি স্তর decision tree forests-র একটি উপহার,অর্থাত্ ensemble of ensembles ।বৈচিত্র্যকে উত্সাহিত করার জন্য আমরা এখানে বিভিন্ন ধরণের বন অন্তর্ভুক্ত করেছি, কারণ ensemble construction-র জন্য বৈচিত্র্য অত্যন্ত গুরুত্বপূর্ণ [63]।For simplicity, ধরুন যে আমরা two completely-random tree forests/দুটি সম্পূর্ণ এলোমেলো গাছের বন এবং two random forests/দুটি এলোমেলো বন ব্যবহার করি [5]।প্রতিটি সম্পূর্ণরূপে গাছের বনটিতে 500 টি সম্পূর্ণ-এলোমেলো গাছ থাকে [37],এলোমেলোভাবে গাছের প্রতিটি নোডে বিভাজনের জন্য একটি বৈশিষ্ট্য নির্বাচন করে উত্পন্ন,এবং শুকনো পাতা অবধি গাছ বাড়ছে, অর্থাত্ প্রতিটি পাত নোডে কেবল একই শ্রেণীর উদাহরণ রয়েছে।
√d প্রার্থী হিসাবে এলোমেলোভাবে featuresd নির্বাচন করে (d is the number of input features) এবং বিভাজনের জন্য সেরা জিনির মান সহ একটি নির্বাচন করে। প্রতিটি বনে গাছের সংখ্যা একটি হাইপার-প্যারামিটার, যা বিভাগ 3.3 এ আলোচনা করা হবে।
Image result for deep forest zhihua zhou

Image result for deep forest zhihua zhou

চিত্র 2. ক্যাসকেড বন কাঠামোর চিত্র। ধরুন ক্যাসকেডের প্রতিটি স্তরদুটি এলোমেলো বন (কালো) এবং দুটি সম্পূর্ণ-এলোমেলো গাছের বন (নীল) নিয়ে গঠিত।ধরুন ভবিষ্যদ্বাণী করার জন্য এখানে তিনটি শ্রেণি রয়েছে; সুতরাং, প্রতিটি বন একটি ত্রিমাত্রিক আউটপুট হবে sional class vector/ সিওনাল শ্রেণীর ভেক্টর, যা মূল ইনপুটটির re-representation/পুনঃ-উপস্থাপনের জন্য সংযুক্ত হয়।

উদাহরণস্বরূপ, প্রতিটি বন শ্রেণীর distribution-র একটি estimate তৈরি করবে, যেখানে leaf node সংশ্লিষ্ট উদাহরণটি পড়ে সেখানে প্রশিক্ষণের উদাহরণগুলির diﬀerent classes-র percentage/শতাংশ গণনা করে, এবং একই বনের সমস্ত গাছ জুড়ে গড়ে চিত্র নেওয়া হবে চিত্র 3 3 , যেখানে লাল রঙগুলি সেই পথগুলিকে হাইলাইট করে যেখানে উদাহরণটি leaf nodes গুলিতে চলে।

The estimated class distribution forms a class vector, which is then concatenated with the original feature vector to be input to the next level of cascade. For example,

Fig. 3. Illustration of class vector generation. Diﬀerent marks in leaf nodes imply diﬀerent
classes.

suppose there are three classes, then each of the four forests will produce a threedimensional class vector; thus, the next level of cascade will receive 12 (= 3×4) augmented features.

নোট করুন যে এখানে আমরা ক্লাস ভেক্টরগুলির সহজ রূপটি গ্রহণ করি, অর্থাত্ leaf nodes গুলিতে শ্রেণি বিতরণ যেখানে সংশ্লিষ্ট দৃষ্টান্তটি পড়ে। এটা স্পষ্ট যে এই জাতীয় সংখ্যক augmented features গুলি খুব সীমিত সংযোজনিত তথ্য সরবরাহ করতে পারে এবং যখন মূল বৈশিষ্ট্যটির ভেক্টরগুলি উচ্চ-মাত্রিক হয় তখন এটি ডুবে যাওয়ার খুব সম্ভাবনা থাকে। আমরা পরীক্ষা-নিরীক্ষায় দেখাব যে এ জাতীয় সরল বৈশিষ্ট্য বর্ধন ইতিমধ্যে সুফল হয়েছে। এটি আরও প্রত্যাশিত যে আরও সংযোজন বৈশিষ্ট্যগুলি জড়িত থাকলে আরও প্রসেস পাওয়া যাবে। প্রকৃতপক্ষে, এটি স্পষ্ট যে আরও বৈশিষ্ট্যগুলি সংযুক্ত করা হতে পারে যেমন পিতামাত নোডগুলির শ্রেণিবন্টন যা পূর্ব বন্টন প্রকাশ করে, ভাইবোন নোডগুলি পরিপূরক বন্টন প্রকাশ করে ইত্যাদি etc. আমরা ভবিষ্যতের অন্বেষণের জন্য এই সম্ভাবনাগুলি ত্যাগ করি।

overﬁtting র ঝুঁকি কমাতে, প্রতিটি বন দ্বারা উত্পাদিত শ্রেণি ভেক্টর k-fold cross validation র দ্বারা উত্পন্ন হয়। বিশদভাবে, প্রতিটি উদাহরণ k − 1 বারের জন্য প্রশিক্ষণ ডেটা হিসাবে ব্যবহৃত হবে, ফলস্বরূপ k − 1 শ্রেণীর ভেক্টর, যার পরে গড় স্তরের ক্যাসকেডের পরবর্তী স্তরের উন্নত বৈশিষ্ট্য হিসাবে শ্রেণীর ভেক্টর উত্পাদন করতে হবে। একটি নতুন স্তর প্রসারণের পরে, পুরো ক্যাসকেডের পারফরম্যান্সটি বৈধতা সেট অনুসারে অনুমান করা যেতে পারে, এবং যদি কোনও চিহ্ন-ক্যান্ট পারফরম্যান্স লাভ না হয় তবে প্রশিক্ষণ পদ্ধতিটি সমাপ্ত হবে; সুতরাং, ক্যাসকেড স্তরের সংখ্যা স্বয়ংক্রিয়ভাবে নির্ধারিত হয়। নোট করুন যে ক্রস বৈধকরণের ত্রুটির পরিবর্তে প্রশিক্ষণের ত্রুটি ক্যাসকেড বৃদ্ধি নিয়ন্ত্রণ করতে ব্যবহার করা যেতে পারে যখন প্রশিক্ষণের ব্যয়টি সম্পর্কিত হয় বা সীমাবদ্ধ গণনার উত্স উপলব্ধ থাকে। বেশিরভাগ গভীর নিউরাল নেটওয়ার্কগুলির বিপরীতে যার মডেল জটিলতা হয়, পর্যাপ্ত পর্যায়ে যখন প্রশিক্ষণ বন্ধ করে gcForest adaptively decides ভাবে তার মডেল জটিলতা সিদ্ধান্ত নেয়। এটি এটিকে প্রশিক্ষণের ডেটাগুলির diﬀerent scales গুলির ক্ষেত্রে প্রযোজ্য করতে সক্ষম করে, বৃহত্তর স্কেলগুলির মধ্যে সীমাবদ্ধ নয়।

3.2 Multi-Grained Scanning

গভীর স্নায়ুবহুল নেটওয়ার্কগুলি বৈশিষ্ট্য সম্পর্কগুলি পরিচালনা করতে শক্তিশালী, যেমন, কনভোলশনাল নিউরাল নেটওয়ার্কগুলি চিত্রের ডেটাগুলিতে eﬀective যেখানে raw pixelsর মধ্যে স্থানিক সম্পর্ক critica [30,34]; পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি সিক্যুয়েন্স ডেটাতে eﬀective যেখানে sequence data সম্পর্কের সমালোচনা [7,18]। এই স্বীকৃতি দ্বারা অনুপ্রাণিত হয়ে আমরা multi-grained scanning র একটি পদ্ধতি দিয়ে ক্যাসকেড বনকে বাড়িয়ে তুলি
Image result for deep forest zhihua zhou

Fig. 4. Illustration of feature re-representation using sliding window scanning. Suppose there are three classes, raw features are 400-dim, and sliding window is 100-dim.

চিত্র 4 চিত্রিত হিসাবে,sliding window গুলি raw features গুলি স্ক্যান করতে ব্যবহৃত হয়। ধরুন এখানে 400 টি raw features রয়েছে এবং 100 টি features-র উইন্ডো আকার ব্যবহার করা হয়েছে।sequence data র জন্য, একটি বৈশিষ্ট্যের জন্যwindow টি স্লাইড করে একটি 100-dimensional feature vector তৈরি করা হবে; মোট 301 feature vectors are produced হয়।যদি raw features গুলি spacial relationships-র সাথে থাকে, যেমন 400 ইমেজ পিক্সেলের 20 × 20 প্যানেল, তবে 10 × 10 উইন্ডো 121 feature vectors তৈরি করবে (যেমন, 121 10 × 10 প্যানেল)।ইতিবাচক / নেতিবাচক প্রশিক্ষণের উদাহরণ থেকে প্রাপ্ত সমস্ত বৈশিষ্ট্য ভেক্টরকে positive/negative training উদাহরণ হিসাবে বিবেচনা করা হয়,যা Section 3.1 এর মতো ক্লাস ভেক্টর তৈরি করতে ব্যবহৃত হবে: একই আকারের উইন্ডোজ থেকে প্রাপ্ত উদাহরণগুলি সম্পূর্ণরূপে এলোমেলো গাছের বন এবং একটি এলোমেলো বন প্রশিক্ষণের জন্য ব্যবহৃত হবে এবং তারপরে generate class vectors/শ্রেণি ভেক্টরগুলি রূপান্তরিত হিসাবে উত্পন্ন এবং সংমিশ্রিত করা হবে বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে।চিত্র 4 চিত্রিত হিসাবে, মনে করুন যে এখানে 3 টি শ্রেণি রয়েছে এবং একটি 100-মাত্রিক উইন্ডো ব্যবহৃত হয়েছে; তারপরে, প্রতিটি বন দ্বারা 301 ত্রিমাত্রিক শ্রেণীর ভেক্টর উত্পাদিত হয়, যার ফলে 1,006-dimensional transformed feature vector টি মূল 400 dimensional raw feature vector-র সাথে মিলিত হয়।

উইন্ডোজগুলি থেকে সরানো দৃষ্টান্তগুলির জন্য, আমরা কেবল তাদের মূল প্রশিক্ষণের উদাহরণের লেবেল সহ অর্পণ করি। এখানে কিছু লেবেল অ্যাসাইনমেন্ট সহজাতভাবে ভুল। উদাহরণস্বরূপ, ধরুন মূল প্রশিক্ষণের উদাহরণটি "car" সম্পর্কে ইতিবাচক চিত্র; এটি পরিষ্কারভাবে দেখা যায় যে অনেকগুলি উত্তোলিত দৃষ্টান্তগুলিতে একটি গাড়ী থাকে না এবং তাই এগুলি ভুলভাবে ইতিবাচক হিসাবে চিহ্নিত করা হয়। এটি আসলে Flipping Output method র সাথে সম্পর্কিত [4], ensemble diversity enhancement/জমায়েত বৈচিত্র্য বৃদ্ধির জন্য আউটপুট প্রতিনিধিত্বমূলক হেরফেরের একটি প্রতিনিধি।

নোট করুন যে যখন transformed feature vector গুলির থাকার ব্যবস্থা খুব দীর্ঘ হয়, তখন feature sampling সম্পন্ন করা যায়, উদাহরণস্বরূপ, উইন্ডো স্ক্যানিং স্লাইডিং দ্বারা উত্পন্ন উদাহরণগুলিকে sub sampling করে, যেহেতু completely-random trees গুলির বৈশিষ্ট্য বিভাজন নির্বাচনের উপর নির্ভর করে না যদিও random forests গুলি যথেষ্ট সংবেদনশীল নয় ভুল বৈশিষ্ট্য split/বিভাজন নির্বাচন। এই জাতীয়eature sampling প্রক্রিয়াটি র্যাRandom Subspace method [24], এর সাথে সম্পর্কিত, যা বিভিন্ন উপকরণের বৃদ্ধির জন্য ইনপুট বৈশিষ্ট্যের manipulation/দক্ষতাসহকারে ব্যবহারের প্রতিনিধি।

Figure 4 shows only one size of sliding window. By using multiple sizes of sliding windows, diﬀerently grained feature vectors will be generated, as shown in Figure 5.

Fig.5.The overall procedure of gcForest.Suppose there are three classes to predict,raw features are 400-dim,and three sizes of sliding windows areused.

3.3 Overall Procedure and Hyper-Parameters
চিত্র 5 gcForest overall পদ্ধতির সংক্ষিপ্তসার জানায়। মনে করুন যে আসল ইনপুটটি 400 টি কাঁচা বৈশিষ্ট্যযুক্ত এবং তিনটি উইন্ডো আকারগুলি multi-grained scanning র জন্য ব্যবহৃত হয়। মি প্রশিক্ষণের উদাহরণগুলির জন্য, 100 টি বৈশিষ্ট্যযুক্ত একটি উইন্ডো 301 × m 100-মাত্রিক প্রশিক্ষণের উদাহরণগুলির একটি ডেটা সেট তৈরি করবে। এই ডেটাগুলি সম্পূর্ণরূপে এলোমেলো গাছের বন এবং একটি এলোমেলো বন, যার প্রত্যেকটিতে 500 টি গাছ রয়েছে তা প্রশিক্ষণের জন্য ব্যবহৃত হবে। যদি পূর্বাভাসিত তিনটি শ্রেণি থাকে তবে বিভাগ 3.1-এ বর্ণিত হিসাবে 1,806-dimensional feature vector প্রাপ্ত হবে। transformed training set টি তখন cascade forest-র 1 ম শ্রেণির প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত হবে।

একইভাবে, 200 এবং 300 টি feature যুক্ত উইন্ডোগুলি স্লাইডিং প্রতিটি মূল প্রশিক্ষণের উদাহরণের জন্য যথাক্রমে 1,206 মাত্রিক এবং 606-dimensional feature vector উত্পন্ন করবে। পূর্ববর্তী গ্রেড দ্বারা উত্পাদিত শ্রেণীর ভেক্টরের সাথে সংযুক্ত transformed feature vectors গুলি পরে যথাক্রমে ক্যাসকেড বনগুলির 2nd-grade and 3rd-grade প্রশিক্ষণের জন্য ব্যবহৃত হবে validation performance একত্রিত হওয়া অবধি এই পদ্ধতি পুনরাবৃত্তি করা হবে। অন্য কথায়, ﬁnal মডেলটি আসলে cascade of cascades/ক্যাসকেডগুলির একটি ক্যাসকেড, যেখানে প্রতিটি ক্যাসকেড স্ক্যানিংয়ের একটি কণার সাথে সম্পর্কিত প্রতিটি স্তরের multiple levels নিয়ে গঠিত হয়, উদাহরণস্বরূপ, প্রথম ক্যাসকেড Level 1A to Level 1C গঠিত যা চিত্র 5 এ দেখানো হয়েছে। diﬃcult task গুলির জন্য, যদি computational resource গুলি অনুমতি দেয় তবে ব্যবহারকারীরা আরও কণা ব্যবহার করতে পারেন।

একটি পরীক্ষার উদাহরণ দেওয়া হয়েছে, এটি এর অনুরূপ রূপান্তরিত বৈশিষ্ট্য উপস্থাপনা পেতে মাল্টি-গ্রেইন্ড স্ক্যানিং প্রক্রিয়াটি অতিক্রম করবে এবং তারপরে শেষ স্তর পর্যন্ত ক্যাসকেডের মধ্য দিয়ে যাবে। সর্বশেষ স্তরে চার ত্রি-মাত্রিক শ্রেণি ভেক্টরকে একত্রিত করে এবং সর্বাধিক সম্মিলিত মান সহ শ্রেণি গ্রহণের মাধ্যমে ﬁnal ভবিষ্যদ্বাণীটি পাওয়া যাবে।

Table 1 summarizes the hyper-parameters of deep neural networks and gcForest, where the default values used in our experiments are given.

Table 1 Summary of hyper-parameters and default settings. Boldfont highlights hyper-parameters with relatively larger inﬂuence; “?” indicates default value unknown, or generally requiring diﬀerent settings for diﬀerent tasks.

4 Experiments

4.1 Conﬁguration

এই বিভাগে আমরা gcForest ডিপ নিউরাল নেটওয়ার্ক এবং অন্যান্য বেশ কয়েকটি জনপ্রিয় লার্নিং অ্যালগরিদমের সাথে তুলনা করি। লক্ষ্যটি হ'ল gcForest গভীর স্নায়ুবিক নেটওয়ার্কগুলির সাথে অত্যন্ত প্রতিযোগিতামূলক পারফরম্যান্স অর্জন করতে পারে, এমনকি বিভিন্ন কার্যক্রমে সহজেই parameter tuning করে। সমস্ত পরীক্ষায় gcForest একই ক্যাসকেড কাঠামো ব্যবহার করছে: প্রতিটি স্তরে ৪ টি completely-random tree forests এবং ৪ টি random forests রয়েছে, যার প্রতিটি অংশে ৫০০ টি গাছ রয়েছে, Section 3.1 -এ বর্ণিত রয়েছে। ক্লাস ভেক্টর জেনারেশনের জন্য cross validation ব্যবহৃত হয়। ক্যাসকেড স্তরের সংখ্যা স্বয়ংক্রিয়ভাবে নির্ধারিত হয়। বিশদভাবে, আমরা প্রশিক্ষণ সেটটিকে দুটি ভাগে বিভক্ত করি, অর্থাত্, growing set and estimating set2/ক্রমবর্ধমান সেট এবং সেট 2 অনুমান করা; তারপরে আমরা ক্যাসকেড বাড়ানোর জন্য ক্রমবর্ধমান সেটটি ব্যবহার করি, এবং পারফরম্যান্সটি অনুমান করার জন্য estimating র সেট। যদি নতুন স্তরের ক্রমবর্ধমান কার্যকারিতা উন্নতি করে না, তবে ক্যাসকেডের বৃদ্ধিটি সমাপ্ত হয় এবং estimating স্তরের সংখ্যা প্রাপ্ত হয়। তারপরে, ক্রমবর্ধমান ও বর্ধমান সেটগুলি মার্জ করার উপর ভিত্তি করে পুনরায় প্রশিক্ষণ দেওয়া হবে। সমস্ত পরীক্ষার জন্য আমরা বর্ধমান সেটের জন্য প্রশিক্ষণের ডেটা 80% এবং সেট আনুমানিক জন্য 20% নিই। multi-grained scanning র জন্য, তিনটি উইন্ডো আকার ব্যবহার করা হয়। d raw feature গুলির জন্য, আমরা bd/16c, bd/8c, bd/4c; মাপের বৈশিষ্ট্যযুক্ত উইন্ডো ব্যবহার করি; যদি raw feature গুলি প্যানেল কাঠামোর সাথে থাকে (such as images), বৈশিষ্ট্য উইন্ডোগুলিও চিত্র ৪-এ প্রদর্শিত প্যানেল কাঠামোর সাথে রয়েছে নোট করুন যে একটি সাবধানে টাস্ক-স্পেসিফিক সি টিউনিং আরও ভাল পারফরম্যান্স আনতে পারে; এখানে হাইলাইট করার জন্য যে ডিগ্রি নিউরাল নেটওয়ার্কগুলির তুলনায় gcForest র হাইপার-প্যারামিটার সেটিংটি অনেক সহজ, আমরা কেবল সমস্ত কাজের জন্য একই সেটিংটি ব্যবহার করি, যেখানে DNN-এর জন্য টাস্ক-স্পেসিফিক সি টিউনিং করা হয়।
Some experimental datasets are given with training/validation sets. To avoid confusion,
here we call the subsets generated from training set as growing/estimating sets.

গভীর নিউরাল নেটওয়ার্ক conﬁgurations গাইডের জন্য, আমরা অ্যাক্টিভেশন ফাংশনের জন্য ReLU/রিলু ব্যবহার করি, loss function-র জন্য crossentropy/ক্রসসেন্ট্রপি, অপ্টিমাইজেশনের জন্য adadelta/অ্যাডাল্টাটা, ট্রেনিং ডেটার স্কেল অনুযায়ী লুকানো স্তরগুলির জন্য ড্রপআউট রেট 0.25 বা 0.5 নেটওয়ার্ক structure hyperparameter গুলি অবশ্য পুরো কাজগুলিতে ﬁxed করা যায় না, অন্যথায় কর্মক্ষমতাটি বিব্রতকরভাবে অসন্তুষ্ট হবে। উদাহরণস্বরূপ, ADULT ডেটাসেটে একটি নেটওয়ার্ক 80% নির্ভুলতা অর্জন করেছে একই আর্কিটেকচারের সাহায্যে YEAST এ কেবল 30% নির্ভুলতা অর্জন করেছে,(কেবলমাত্র ইনপুট / আউটপুট নোডের ডেটা অনুসারে পরিবর্তন হয়েছে)। অতএব, গভীর স্নায়বিক নেটওয়ার্কগুলির জন্য, আমরা বৈধতা সেটগুলিতে বিভিন্ন আর্কিটেকচার পরীক্ষা করি এবং সেরা পারফরম্যান্সের সাথে একটি বাছাই করি, তারপরে প্রশিক্ষণ সেটটিতে পুরো নেটওয়ার্কটিকে পুনরায় প্রশিক্ষণ দিন এবং পরীক্ষার নির্ভুলতার প্রতিবেদন করুন।

4.2 Results
We run experiments on a broad range of tasks.
Image Categorization

MNIST dataset [34] প্রশিক্ষণে (and validating/এবং যাচাইকরণের জন্য) 28 বাই 28 আকারের 60,000 চিত্র এবং পরীক্ষার জন্য 10,000 টি চিত্র ধারণ করে। আমরা এটিকে LeNet-5 (a modern version of LeNet with dropout and ReLUs/ড্রপআউট এবং রিলিজগুলির সাথে লেনেটের একটি আধুনিক সংস্করণ), rbf kernel র সাথে SVM, এবং 2000 টি গাছ সহ একটি স্ট্যান্ডার্ড র‌্যান্ডম ফরেস্টের পুনরায় বাস্তবায়নের সাথে তুলনা করি। আমরা [23] তে উল্লিখিত Deep Belief Nets-র ফলাফলের ফলাফলও অন্তর্ভুক্ত করি। পরীক্ষার ফলাফলগুলি টেবিল 2 এ সংক্ষিপ্তসারিত হয়েছে, এটি দেখায় যে gcForest, কেবল সারণি 1 এ ডিফল্ট সেটিংস ব্যবহার করে অত্যন্ত প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করে।

Table 2 Comparison of test accuracy on MNIST

Image result for deep forest zhihua zhou table

Face Recognition

ORL dataset [47] এ 40 জন ব্যক্তির কাছ থেকে নেওয়া 400 ধূসর-স্কেল ফেসিয়াল ইমেজ রয়েছে। আমরা এটিকে 2 × 3 কার্নেলের 3 x 2 টি বৈশিষ্ট্যযুক্ত মানচিত্রযুক্ত 2 টি conv-layers-র সমন্বিত CNNএর সাথে তুলনা করি এবং প্রতিটি conv-layersরে 2 × 2 সর্বাধিক-পুলিং স্তর থাকে। 128 টি hidden units -র একটি ঘন স্তর সম্পূর্ণরূপে convolutional layers গুলির সাথে সংযুক্ত এবং hidden nally 40 টি গোপন ইউনিট সহ একটি সম্পূর্ণরূপে সংযুক্ত soft-max layer শেষে যুক্ত করা হয়। ReLU/রিলু, crossentropy loss, 0.25 এর dropout rate এবং adadelta/অ্যাডাল্টা প্রশিক্ষণের জন্য ব্যবহৃত হয়। ব্যাচের আকারটি 10 এ সেট করা হয়েছে এবং 50 টি epochs/যুগ ব্যবহৃত হচ্ছে। আমরা অন্যান্য CNN conﬁgurations ও চেষ্টা করেছি

যদিও, এই এক best performance দেয়। আমরা প্রশিক্ষণের জন্য randomly choose 5/7/9 images চয়ন করি এবং remaining images গুলিতে পরীক্ষার কার্যকারিতা টি report করি। নোট করুন যে একটি random guess/এলোমেলো অনুমান 2.5% নির্ভুলতা অর্জন করবে, যেহেতু 40 টি সম্ভাব্য ফলাফল রয়েছে। এখানে kNN method তে সমস্ত ক্ষেত্রে k = 3 ব্যবহার করা হয়। পরীক্ষার ফলাফলগুলি টেবিল 3-এ সংক্ষিপ্ত করা হয়েছে , 3. 3 সারণি 1-তে বর্ণিত একই conﬁguration গুলি ব্যবহার করেও gcForest/জিসিফোরেস্ট তিনটি ক্ষেত্রেই ভালভাবে চালিত হয়।

Table 3
Comparison of test accuracy on ORL

Music Classiﬁcation

GTZAN dataset/জিটিজান ডাটাসেট [৫] তে 10 টি genres/জেনার সংগীত ক্লিপ রয়েছে যার প্রতিটি 30 সেকেন্ড দৈর্ঘ্যের, 100 টি tracks/ট্র্যাক দ্বারা represented/প্রতিনিধিত্ব করে। আমরা ডেটাসেটকে প্রশিক্ষণের জন্য 700 টি ক্লিপ এবং পরীক্ষার জন্য 300 ক্লিপে বিভক্ত করি। তদতিরিক্ত, আমরা প্রতি 30 সেকেন্ডের সংগীত ক্লিপ উপস্থাপন করতে MFCC feature/এমএফসিসি বৈশিষ্ট্যটি ব্যবহার করি, যা মূল শব্দ তরঙ্গকে 1,280 × 13 feature/বৈশিষ্ট্য ম্যাট্রিক্সে রূপান্তর করে। প্রতিটি ফ্রেম তার নিজস্ব প্রকৃতি অনুযায়ী atomic/পারমাণবিক হয়; সুতরাং, CNN একটি 13 × 8 শাঁস/কার্নেলটি conv-layer হিসাবে 32 টি feature maps/বৈশিষ্ট্যযুক্ত মানচিত্র সহ ব্যবহার করে, যার পরে একটি pooling layer থাকে। যথাক্রমে 1,024 and 512 units সহ দুটি fully connected layers সংযোজন করা হয়েছে, এবং ﬁnally একটি soft-max layer যুক্ত করা হয়। আমরা এটির MLP কে দুটি hidden layers যথাক্রমে 1,024 এবং 512 ইউনিট সহ respectively/তুলনা করি। দুটি নেটওয়ার্কই অ্যাক্টিভেশন ফাংশন এবং লস ফাংশন হিসাবে শ্রেণীবদ্ধ cross-entropy হিসাবে ReLU/রিলু ব্যবহার করে। Random Forest, Logistic Regression and SVM এর জন্য প্রতিটি ইনপুট একটি 1,280 × 13 feature vector হিসাবে সংযুক্ত করা হয়। পরীক্ষার ফলাফলগুলি সংক্ষিপ্ত করে সারণি 4 এ দেওয়া হয়েছে।

There are studies where CNNs perform more excellently for face recognition, by using huge amount of face images to train the model. Here, we simply use the training data.

Table 4 Comparison of test accuracy on GTZAN

Hand Movement Recognition

sEMG ডেটাসেট [৪৯] এর মধ্যে ছয়টি হাতের চলাচলগুলির একটি, যেমন, spherical, tip, palmar, lateral, cylindrical and hook

/গোলাকার, টিপ, পালমার, পার্শ্বীয়, নলাকার এবং হুকের অন্তর্ভুক্ত 1,800 টি রেকর্ড রয়েছে। এটি একটি timeseries dataset, যেখানে EMG sensors গুলি প্রতি সেকেন্ডে 500 টি বৈশিষ্ট্য ক্যাপচার করে এবং প্রতিটি রেকর্ড 3,000 বৈশিষ্ট্যের সাথে যুক্ত। ইনপুট-1,024-512-আউটপুট কাঠামো সহ একটি MLP ছাড়াও, আমরা 128 hidden units and sequence length-র 6 (500-dim input vector per second/প্রতি সেকেন্ডে 500 মিমি ইনপুট ভেক্টর) সহ একটি recurrent neural network, LSTM [16] মূল্যায়নও করি। পরীক্ষার ফলাফলগুলি সংক্ষিপ্ত আকারে টেবিল 5 এ দেওয়া হয়েছে।

Table 5 Comparison of test accuracy on sEMG data

Sentiment/অনুভূতি Classiﬁcation
IMDB dataset [40] training-র জন্য 25,000 চলচ্চিত্র reviews এবং 25,000 testing-র জন্য রয়েছে। reviews/পর্যালোচনাগুলি tf-idf features দ্বারা represented করা হয়। এটি image data নয় এবং সুতরাং CNNs সরাসরি প্রযোজ্য নয়। সুতরাং, আমরা এটি স্ট্রাকচার ইনপুট-1,024-1,024-512-256-আউটপুট সহ একটি MLP সঙ্গে তুলনা করি। আমরা [26] এ রিপোর্ট করা ফলাফলও অন্তর্ভুক্ত করি, যা শব্দ embeding/এম্বেডিংয়ের সাথে সুবিধাজনক CNN ব্যবহার করে। tf-idf features/টিএফ-আইডিএফ বৈশিষ্ট্যগুলি spacial or sequential relationships/স্থানিক বা অনুক্রমিক সম্পর্কগুলি প্রকাশ করে না তা বিবেচনা করে আমরা gcForest জন্য multi-grained scanning এড়িয়ে চলেছি । পরীক্ষার নির্ভুলতার সংক্ষিপ্তসার ছক ছকে দেওয়া হয়েছে।

Table 6 Comparison of test accuracy on IMDB

4.3 Low-Dimensional Data

অপেক্ষাকৃত স্বল্প সংখ্যক বৈশিষ্ট্য সহ আমরা UCI-datasets [৩] এ gcForest কেও মূল্যায়ন করি:16 টি বৈশিষ্ট্য এবং 16,000 / 4,000 প্রশিক্ষণ / পরীক্ষার উদাহরণ সহ 14 টি বৈশিষ্ট্যযুক্ত ADULT এবং 32,561 / 16,281 প্রশিক্ষণ / পরীক্ষার উদাহরণ এবং কেবল 8 টি বৈশিষ্ট্য এবং 1,038 / 446 প্রশিক্ষণ / পরীক্ষার উদাহরণ সহ YEAST।সিএনএন-এর মতো অভিনব আর্কিটেকচার যেমন ডেটাতে কাজ করতে পারেনি কারণ স্থানিক সম্পর্ক ব্যতীত খুব কম বৈশিষ্ট্য রয়েছে।সুতরাং, আমরা এটি MLP গুলির সাথে তুলনা করি।Unfortunately, যদিও MLP গুলিতে CNN-এর তুলনায় less conﬁguration বিকল্প রয়েছে,তারা এখনও সেট আপ খুব tricky/কৃপণ।

উদাহরণস্বরূপ, ইনপুট-16-8-8-আউটপুট কাঠামো এবং ReLU/রিলু অ্যাক্টিভেশন সহ MLP 76.37% নির্ভুলতা অর্জন করে তবে LETTER মাত্র 33%।আমরা উপসংহারে পৌঁছেছি যে একটি MLP structure বাছাই করার কোনও উপায় নেই যা সমস্ত ডেটাসেটগুলিতে শালীন কার্য সম্পাদন করে।অতএব,আমরা সেরা পারফরম্যান্স সহ diﬀerent MLP কাঠামোগুলি report করি: LETTER র জন্য কাঠামোটি ইনপুট -70-50-আউটপুট, ADULT/অ্যাডাল্টের জন্য ইনপুট-30-20-আউটপুট,এবং YEAST এর জন্য ইনপুট -50-30-আউটপুট। বিপরীতে, gcForest সারণী 1 এ দেখানো একই conﬁguration ব্যবহার করে,এই small-scale ডেটার বৈশিষ্ট্যগুলি স্পেসিয়াল রাখে না তা বিবেচনা করে multi-grained scanning টি পরিত্যাগ করা হবে বা অনুক্রমিক সম্পর্ক। পরীক্ষার ফলাফলগুলি সংক্ষিপ্ত করে সারণি 7 এ দেওয়া হয়েছে।

Table 7 Comparison of test accuracy on low-dim data

4.4 High-Dimensional Data

CIFAR-10 dataset [৩১] প্রশিক্ষণের জন্য 10 টি ক্লাসের 50,000 চিত্র এবং পরীক্ষার জন্য 10,000 চিত্র ধারণ করে। এখানে, প্রতিটি চিত্র একটি 32 বাই 32 রঙের চিত্র 8 টি গ্রেলিভেল সহ; সুতরাং, প্রতিটি উদাহরণ 8192-dim। পরীক্ষার ফলাফলগুলি টেবিল 8-এ দেখানো হয়েছে, এতে সাহিত্যে বেশ কয়েকটি deep neural networks-র ফলাফলও অন্তর্ভুক্ত রয়েছে।

Table 8 Comparison of test accuracy on CIFAR-10

যেমন আমরা Section 3 তে আলোচনা করেছি, বর্তমানে আমরা প্রতিটি বন থেকে কেবলমাত্র 10-dim augmented feature vector ব্যবহার করি এবং এ জাতীয় সংখ্যক augmented feature গুলি সহজেই মূল দীর্ঘ বৈশিষ্ট্য ভেক্টরে নিমজ্জিত হবে। তবুও, যদিও ডিফল্ট সেটিং সহ gcForest, অর্থাত্, gcForest (ডিফল্ট), অত্যাধুনিক DNN- এর চেয়ে নিম্নতর এটি ডি-এন-এন পদ্ধতির মধ্যে ইতিমধ্যে সেরা। তদুপরি, task-speciﬁc tuningর মাধ্যমে gcForest এর কার্যকারিতা আরও উন্নত করা যেতে পারে, যেমন, আরও grains/শস্য অন্তর্ভুক্ত করে (i.e., using more sliding window sizes in multi-grained scanning/যেমন, মাল্টি-গ্রেইন্ড স্ক্যানিংয়ে আরও স্লাইডিং উইন্ডো আকারগুলি ব্যবহার করে) যেমন gcForest(5grains) শস্য ব্যবহার করে। এটি দেখতেও আকর্ষণীয় যে পারফরম্যান্সটি gcForest(gbdt)) দিয়ে signiﬁcant improvement পায় যা কেবল GBDT [6]. Section 4.8 এর সাথে ﬁnal স্তরের প্রতিস্থাপন করে। বিভাগ ৪.৮ দেখায় যে আরও বৃহত্তর মডেলগুলিকে প্রশিক্ষণ দিতে পারলে আরও ভাল পারফরম্যান্স পাওয়া যায়।

4.5 Running time

আমাদের পরীক্ষাগুলিPC with 2 Intel E5 2695 v4 CPUs (18 cores) সহ একটি পিসি ব্যবহার করে এবং gcForest চলমান eﬃciency ভাল। উদাহরণস্বরূপ, IMDB dataset (25,000 examples with 5,000 features), এটি ক্যাসকেড স্তরের প্রতি 267.1 সেকেন্ড সময় নেয় এবং স্বয়ংক্রিয়ভাবে 9 ক্যাসকেড স্তর সহ শেষ হয়, 2,404 সেকেন্ড বা 40 মিনিটের পরিমাণ। বিপরীতে, একই ডেটাসেটের তুলনায় MLP কে কনভার্জেশনের জন্য 50 epochs এবং প্রতি epochs-র 93 সেকেন্ডের প্রয়োজন, প্রশিক্ষণের জন্য 4,650 সেকেন্ড বা 77.5 মিনিটের পরিমাণ; GPU (Nvidia Titan X pascal) ব্যবহার করে, প্রতি পর্বের 14 সেকেন্ড with batch size of 32), 700 সেকেন্ড বা 11.6 মিনিটের পরিমাণ। Multi-grained scanning gcForest র ব্যয় বাড়িয়ে তুলবে; তবে diﬀerent grains of scanning সহজাতভাবে সমান্তরাল। এছাড়াও, দুটি completely-random tree forests এবং random forests are parallel ensemble methods [63]। সুতরাং, gcForest র eﬃciency অপ্টিমাইজড সমান্তরাল বাস্তবায়নের মাধ্যমে আরও উন্নতি করা যায়। নোট করুন যে training cost নিয়ন্ত্রণযোগ্য কারণ ব্যবহারকারীগণ গণ্যমূল্য ব্যয় উপলক্ষে বিবেচনা করে শস্য, বন, গাছের সংখ্যা নির্ধারণ করতে পারেন। এটি আরও লক্ষণীয় যে উপরের তুলনাটি gcForest র সাথে কিছুটা অন্যায়, কারণ অনেকগুলি diﬀerent আর্কিটেকচারের রিপোর্ট করা পারফরম্যান্স অর্জনের জন্য নিউরাল নেটওয়ার্কগুলির জন্য চেষ্টা করা হয়েছে তবে এই সময়ের ব্যয়টি অন্তর্ভুক্ত নয়।

4.6 Inﬂuence of Multi-Grained Scanning

cascade forest structure এবং multi-grained scanning-র পৃথক অবদান অধ্যয়ন করতে, সারণী 9 cascade forest on MNIST, GTZAN and sEMG datasets ফরেস্টের সাথে gcForest র তুলনা করে। এটা স্পষ্ট যে spacial or sequential feature relationships আছে যখন, multi-grained scanning প্রক্রিয়া দৃশ্যত কর্মক্ষমতা উন্নত করতে সহায়তা করে।

Table 9 Results of gcForest w/wo multi-grained scanning

4.7 Inﬂuence of Cascade Structure

GcForest এর ﬁnal model structure টি ক্যাসকেডগুলির একটি ক্যাসকেড, যেখানে প্রতিটি ক্যাসকেডে scanning-র একটি grainর সাথে সম্পর্কিত প্রতিটি স্তরের একাধিক স্তর রয়েছে যা চিত্র 5 এ দেখানো হয়েছে। একাধিক grain থেকে বৈশিষ্ট্যগুলি শোষণের অন্যান্য সম্ভাব্য উপায় রয়েছে, উদাহরণস্বরূপ, সমস্ত বৈশিষ্ট্য একসাথে একত্র করে, চিত্র 6 এ দেখানো হয়েছে

সারণী 10 gcForestconc সঙ্গে gcForest তুলনা করে, যা দেখায় যে multiple grains থেকে বৈশিষ্ট্যগুলি একত্রিত করা gcForest বর্তমান নকশার মতো ভাল নয়।তবুও, আরও ভাল ফলাফল আরও ভাল ফলাফল হতে পারে; আমরা এটি future exploration.র জন্য রেখে দিই।

4.8 Inﬂuence of Larger Models

চিত্র 7-এ আমাদের ফলাফলগুলি প্রস্তাব দেয় যে বৃহত্তর মডেলগুলি আরও ভাল পারফরম্যান্সে হতে পারে,যদিও আমরা আরও বেশি grain চেষ্টা করি নি, computational resource এর সীমাবদ্ধতার কারণে forests and trees । নোট করুন যে বৃহত মডেলগুলির প্রশিক্ষণ সক্ষম করার জন্য গণ্য সুবিধাগুলি গুরুত্বপূর্ণ; যেমন,DNNগুলির জন্য GPU। On one hand , কিছু নতুন computational devices ,যেমন Intel KNL of the MIC (Many Integrated Core) আর্কিটেকচার, gcForest র জন্য DNN-এর GPU-র মতো potential acceleration হতে পারে। অন্য দিকে,gcForest এর কিছু উপাদান যেমন, multi-grained scanning, GPU গুলি ব্যবহার করে accelerated হতে পারে। তদুপরি, distributed কম্পিউটিং বাস্তবায়নের সাথে উন্নতির জন্য প্রচুর জায়গা রয়েছে।

Mohammad Mostofa Zaman

Deep Forest

0 comments:

Post a Comment

Popular Posts

New Research

SAY HELLO TO ME

ADDRESS

EMAIL

TELEPHONE

MOBILE