• Deep Learning (deep learning) study notes finishing series (7)

    table of Contents:

    I. Overview

    Background

    Third, the human brain visual mechanism

    Fourth, about characteristics

           4.1.Granularity of feature representation

           4.2 Elementary (shallow) feature representation

           4.3, structural feature representation

           4.4 How many features are needed?

    Five, the basic idea of ​​Deep Learning

    6. Shallow Learning and Deep Learning

    Seven, Deep learning and Neural Network

    Eight, Deep learning training process

           8.1.Training methods of traditional neural networks

           8.2 Deep learning training process

    Nine, common models or methods of Deep Learning

           9.1, AutoEncoder

           9.2 Sparse Coding

           9.3 Restricted Boltzmann Machine (RBM)

           9.4 Deep BeliefNetworks

           9.5 Convolutional Neural Networks

    X. Summary and Outlook

    Eleven references and deep learning learning resources




    Connect



    9.5 Convolutional Neural Networks

           Convolutional neural network is a kind of artificial neural network, which has become a research focus in the field of speech analysis and image recognition. Its weight-sharing network structure makes it more similar to biological neural networks, reducing the complexity of the network model and reducing the number of weights. This advantage is more obvious when the input of the network is a multi-dimensional image, so that the image can be directly used as the input of the network, avoiding the complex feature extraction and data reconstruction processes in traditional recognition algorithms. A convolutional network is a multi-layer perceptron specially designed to recognize two-dimensional shapes. This network structure is highly invariant to translation, scaling, tilt, or other forms of deformation.

           CNNs are affected by early time-delay neural networks (TDNN). Time-delay neural networks reduce learning complexity by sharing weights in the time dimension, and are suitable for processing speech and time series signals.

           CNNs is the first learning algorithm to successfully train multi-layer network structures. It uses spatial relationships to reduce the number of parameters to be learned to improve the training performance of general forward BP algorithms. CNNs are proposed as a deep learning architecture to minimize data preprocessing requirements. In CNN, a small part of the image (local receptive area) is used as the input of the lowest layer of the hierarchical structure, and the information is transmitted to different layers in turn. Each layer uses a digital filter to obtain the most significant features of the observation data. This method can obtain the salient features of the observation data that is invariant to translation, scaling, and rotation, because the local receptive area of ​​the image allows neurons or processing units to access the most basic features, such as oriented edges or corner points.

    1) History of convolutional neural networks

           In 1962, Hubel and Wiesel proposed the concept of receptive field through the study of cat visual cortex cells. In 1984, Japanese scholar Fukushima's neural cognitive machine (neocognitron) based on the concept of receptive field could be regarded as a convolutional nerve. The first implementation of the network is also the first application of the receptive field concept in the field of artificial neural networks. The neural cognitive machine decomposes a visual pattern into many sub-patterns (features), and then enters the hierarchically connected feature planes for processing. It attempts to model the visual system so that it can be used even when the object is displaced or slightly deformed. At the same time, recognition can also be completed.

           Generally, the neurocognitive machine contains two types of neurons, namely the S-element that undertakes feature extraction and the C-element that resists deformation. The S-element involves two important parameters, namely the receptive field and the threshold parameter. The former determines the number of input connections, and the latter controls the degree of response to the characteristic sub-pattern. Many scholars have been working on improving the performance of neural cognitive machines: in traditional neural cognitive machines, the amount of visual blur caused by C-elements in each S-element's photosensitive area is normally distributed. If the blurring effect of the edge of the photosensitive area is greater than the center, the S-element will accept the greater distortion tolerance caused by this non-normal blur. What we want is that the difference between the effect of training mode and deformed stimulus mode on the edge of the receptive field and its center becomes larger and larger. In order to effectively form such non-normal ambiguities, Fukushima proposed an improved neural cognitive machine with double C-element layers.

           Van Ooyen and Niehuis introduced a new parameter to improve the discrimination ability of neural cognitive machines. In fact, this parameter serves as a suppression signal, which suppresses the neuron's stimulation of repeated excitation characteristics. Most neural networks memorize training information in weights. According to Hebb learning rules, the more times a certain feature is trained, the easier it is to be detected in the subsequent recognition process. Some scholars have combined evolutionary computing theory with neural cognitive machines to reduce the training and learning of repetitive stimulus features, so that the network pays attention to those different features to help improve discrimination. The above are the development processes of neural cognitive machines, and convolutional neural networks can be regarded as a form of promotion of neural cognitive machines. Neurocognitive machines are a special case of convolutional neural networks.

    2) Network structure of convolutional neural network

          A convolutional neural network is a multilayer neural network. Each layer is composed of multiple two-dimensional planes, and each plane is composed of multiple independent neurons.



           Figure: Demonstration of the concept of convolutional neural network: the input image is convolved with three trainable filters and offsets. The filtering process is shown in Figure 1. After the convolution, three feature maps are generated on the C1 layer. Then, The four pixels of each group in the feature map are then summed, weighted, and biased. Three S2 layer feature maps are obtained through a Sigmoid function. These maps are then filtered to get the C3 layer. This hierarchy produces S4 as well as S2. In the end, these pixel values ​​are rasterized and connected into a vector to the traditional neural network to get the output.

           Generally, the C layer is a feature extraction layer. The input of each neuron is connected to the local receptive field of the previous layer, and the local features are extracted. Once the local feature is extracted, its positional relationship with other features is also It is then determined; the S layer is a feature mapping layer. Each computing layer of the network consists of multiple feature maps, each feature maps to a plane, and all neurons on the plane have equal weights. The feature map structure uses the sigmoid function with a small influence function kernel as the activation function of the convolution network, so that the feature map has displacement invariance.

           In addition, because the neurons on a mapping surface share weights, the number of free parameters of the network is reduced, and the complexity of network parameter selection is reduced. Each feature extraction layer (C-layer) in a convolutional neural network is followed by a calculation layer (S-layer) for local average and secondary extraction. This unique feature extraction structure makes the network It has high distortion tolerance for input samples during recognition.

    3) About parameter reduction and weight sharing

          As mentioned above, it seems that a great place for CNN is that it reduces the number of parameters that the neural network needs to train through receptive fields and weight sharing. So what is it?

           Bottom left: If we have an image of 1000x1000 pixels and 1 million hidden neurons, then if they are fully connected (each hidden neuron is connected to each pixel of the image), there will be 1000x1000x1000000 = 10 ^ 12 connections, that is, 10 ^ 12 weight parameters. However, the spatial connection of images is local. Just like people experience external images through a local receptive field, each neuron does not need to feel the global image. Each neuron only feels the local image area, and then At a higher level, these neurons that experience different localities can be combined to obtain global information. In this way, we can reduce the number of connections, that is, reduce the number of weight parameters that the neural network needs to train. As shown in the right figure below: if the local receptive field is 10x10, each receptive field in the hidden layer only needs to be connected to the 10x10 local image, so there are only 100 million connections for 1 million hidden layer neurons, that is 10 ^ 8 parameters . It is reduced by four 0 (order of magnitude) compared to the original, so that training is not so laborious, but it still feels a lot, so what else can I do?



           We know that each neuron in the hidden layer is connected to 10x10 image regions, which means that each neuron has 10x10 = 100 connection weight parameters. What if our 100 parameters are the same for each neuron? In other words, each neuron uses the same convolution kernel to deconvolve the image. So how many parameters do we have? ? Only 100 parameters! !! !! Dear! No matter how many neurons you have in the hidden layer, I only have 100 parameters for the connection between the two layers! Dear! This is weight sharing! Dear! This is the main selling point of convolutional neural networks! Dear! (A bit annoying, huh, huh) Maybe you will ask, is this reliable? Why is it feasible? This ... learn together.

           Well, you will think, it is not reliable to extract features in this way, so you have only extracted one feature? By the way, really smart, we need to extract multiple features, right? If a filter, that is, a convolution kernel, is a feature of the proposed image, such as an edge in a certain direction. Then we need to extract different features. What should we do? Isn't it enough to add more filters? correct. So suppose we add to 100 kinds of filters, and each filter has different parameters, which means that it proposes different features of the input image, such as different edges. In this way, each filter deconvolves the image to get a projection of the different features of the image. We call it a Feature Map. So there are 100 Feature Maps for 100 kinds of convolution kernels. These 100 Feature Maps make up a layer of neurons. It's clear by this time. How many parameters does our layer have? 100 kinds of convolution kernels x each convolution kernel shares 100 parameters = 100x100 = 10K, that is, 10,000 parameters. Only 10,000 parameters! Dear! (Here again, I can't stand it!) See the figure on the right: Different colors express different filters.



           Hey, a question is missing. It was just said that the number of parameters in the hidden layer has nothing to do with the number of neurons in the hidden layer, but only with the size of the filter and the number of filter types. So how to determine the number of hidden neurons? It is related to the original image, that is, the size of the input (the number of neurons), the size of the filter, and the sliding step of the filter in the image! For example, my image is 1000x1000 pixels and the filter size is 10x10. Assuming the filters do not overlap, that is, the step size is 10, the number of neurons in the hidden layer is (1000x1000) / (10x10) = 100x100 neurons Now, assuming the step size is 8, that is, the convolution kernel will overlap two pixels, then ... I don't need to worry about it, just understand it. Note that this is just a filter, that is, the number of neurons in a Feature Map. If 100 Feature Maps are 100 times. It can be seen that the larger the image, the greater the wealth gap between the number of neurons and the number of weight parameters to be trained.



          It is important to note that none of the above discussions considered the biased part of each neuron. So the number of weights needs to be increased by 1. This is also shared by the same filter.

          In short, the core idea of ​​convolutional networks is to combine the three structural ideas of local receptive fields, weight sharing (or weight copying), and time or space subsampling to obtain a certain degree of invariance in displacement, scale, and deformation. .

    4) A typical example illustrates

           A typical convolutional network used to identify numbers is LeNet-5 ( see here for effects and papers ). Most US banks used it to identify handwritten digits on checks. To be able to reach such a commercial level, its accuracy is conceivable. After all, the combination of academia and industry is currently the most controversial.



          Then let's use this example to illustrate.



            LeNet-5 has 7 layers in total and does not contain inputs. Each layer contains trainable parameters (connection weights). The input image is 32 * 32. This is larger than the largest letter in the Mnist database (a recognized handwritten database). The reason for this is to hope that potentially obvious features such as power failure or corner points can appear at the center of the receptive field of the top-level feature monitor.

            We need to be clear: each layer has multiple Feature Maps, each Feature Map uses a convolution filter to extract a feature of the input, and then each Feature Map has multiple neurons.

            The C1 layer is a convolution layer (why is it a convolution? An important feature of the convolution operation is that the original signal features can be enhanced and the noise can be reduced through the convolution operation). It consists of 6 feature maps. Each neuron in the feature map is connected to a 5 * 5 neighborhood in the input. The size of the feature map is 28 * 28, which can prevent the input connection from falling outside the boundary (for calculation during BP feedback, without gradient loss, personal opinion). C1 has 156 trainable parameters (5 * 5 = 25 unit parameters and a bias parameter for each filter, a total of 6 filters, (5 * 5 + 1) * 6 = 156 parameters), a total of 156 * (28 * 28) = 122,304 connections.

           The S2 layer is a downsampling layer (why is it downsampling? Using the principle of local correlation of the image, subsampling the image can reduce the amount of data processing while retaining useful information), and has six 14 * 14 feature maps. Each cell in the feature map is connected to the 2 * 2 neighborhood of the corresponding feature map in C1. The 4 inputs of each unit of the S2 layer are added, multiplied by a trainable parameter, and a trainable offset is added. The result is calculated by the sigmoid function. Trainable coefficients and biases control the degree of non-linearity of the sigmoid function. If the coefficients are small, the operation is similar to a linear operation, and subsampling is equivalent to a blurred image. If the coefficient is relatively large, subsampling can be viewed as a noisy OR operation or a noisy AND operation depending on the magnitude of the offset. The 2 * 2 receptive fields of each unit do not overlap, so the size of each feature map in S2 is 1/4 of the size of the feature map in C1 (1/2 for each row and column). The S2 layer has 12 trainable parameters and 5880 connections.



    Figure: Convolution and sub-sampling process: The convolution process includes: using a trainable filter f x to convolve an input image (the first stage is the input image, and the later stage is the convolution feature map), and then Add a bias b x to get the convolutional layer C x . The subsampling process includes: summing four pixels in each neighborhood into one pixel, then weighting by a scalar W x + 1 , then increasing the offset b x + 1 , and then passing a sigmoid activation function to generate a roughly four times Feature map S x + 1 .

           Therefore, the mapping from one plane to the next can be regarded as a convolution operation, and the S-layer can be regarded as a fuzzy filter, which plays the role of secondary feature extraction. The spatial resolution between the hidden layer and the hidden layer decreases, and the number of planes contained in each layer increases, which can be used to detect more feature information.

           The C3 layer is also a convolution layer. It also deconvolves the layer S2 through a 5x5 convolution kernel, and then the feature map is only 10x10 neurons, but it has 16 different convolution kernels, so there are 16 Feature map. One thing to note here is that each feature map in C3 is connected to all 6 or several feature maps in S2, indicating that the feature map in this layer is a different combination of the feature maps extracted from the previous layer (this It's not the only way). (See no, here is the combination, just like the human visual system we talked about before, the bottom structure constitutes the more abstract structure of the upper layer, such as the edge forming the shape or the part of the target).

           It was just said that each feature map in C3 is composed of all 6 or several feature maps in S2. Why not connect each feature map in S2 to each feature map in C3? There are two reasons for this. First, the incomplete connection mechanism keeps the number of connections within a reasonable range. Second, and most important, it undermines the symmetry of the network. Since different feature maps have different inputs, they are forced to extract different features (hopefully complementary).

          For example, one way exists: the first 6 feature maps of C3 take 3 adjacent feature map subsets in S2 as input. The next six feature maps take 4 subsets of neighboring feature maps in S2 as input. The next three take the non-adjacent 4 feature map subsets as input. The last one takes all the feature maps in S2 as input. In this way, the C3 layer has 1516 trainable parameters and 151600 connections.

           The S4 layer is a down-sampling layer, which consists of 16 feature maps of size 5 * 5. Each cell in the feature map is connected to the 2 * 2 neighborhood of the corresponding feature map in C3, which is the same as the connection between C1 and S2. The S4 layer has 32 trainable parameters (1 factor and 1 bias per feature map) and 2000 connections.

           The C5 layer is a convolutional layer with 120 feature maps. Each unit is connected to the 5 * 5 neighborhood of all 16 units in the S4 layer. Since the size of the S4 layer feature map is also 5 * 5 (same as the filter), the size of the C5 feature map is 1 * 1: this constitutes a full connection between S4 and C5. The reason why C5 is still labeled as a convolutional layer instead of a fully associative layer is because if the input of LeNet-5 becomes larger and the other remains unchanged, then the dimension of the feature map will be larger than 1 * 1 . The C5 layer has 48120 trainable connections.

            The F6 layer has 84 units (the reason for choosing this number comes from the design of the output layer), which is fully connected to the C5 layer. There are 10164 trainable parameters. Like the classic neural network, the F6 layer calculates the dot product between the input vector and the weight vector, plus a bias. It is then passed to the sigmoid function to generate a state of unit i.

          Finally, the output layer consists of Euclidean Radial Basis Function units, one unit for each class, and 84 inputs for each. In other words, each output RBF unit calculates the Euclidean distance between the input vector and the parameter vector. The farther the input is from the parameter vector, the larger the RBF output. An RBF output can be understood as a penalty term that measures how well the input pattern matches a model associated with the RBF. In probabilistic terms, the RBF output can be understood as the negative log-likelihood of the Gaussian distribution of the F6 layer configuration space. Given an input mode, the loss function should be able to make the configuration of F6 close enough to the RBF parameter vector (that is, the expected classification of the mode). The parameters of these units are manually selected and kept fixed (at least initially). The components of these parameter vectors are set to -1 or 1. Although these parameters can be selected in a way such as -1 and 1 probability, or constitute an error correction code, they are designed as a 7 * 12 size (ie 84) formatted picture of the corresponding character class. This representation is not very useful for identifying individual numbers, but it is useful for identifying strings in the printable ASCII set.

          Another reason to use this distributed encoding instead of the more commonly used "1 of N" encoding for generating output is that, when the categories are larger, non-distributed encoding is less effective. The reason is that the output of non-distributed encoding must be 0 most of the time. This makes it difficult to achieve with sigmoid units. Another reason is that classifiers are used not only to recognize letters, but also to reject non-letters. RBF using distributed coding is more suitable for this goal. Because unlike sigmoid, they are excited in a better restricted area of ​​the input space, and non-typical patterns are more likely to fall outside.

            The RBF parameter vector plays the role of the F6 layer target vector. It should be pointed out that the components of these vectors are +1 or -1, which is in the range of F6 sigmoid, so it can prevent the sigmoid function from being saturated. In fact, +1 and -1 are the points of maximum curvature of the sigmoid function. This allows the F6 unit to operate within the maximum non-linear range. Saturation of the sigmoid function must be avoided, as this will lead to slower convergence and ill-conditioned problems of the loss function.

    5) Training process

            The mainstream of neural networks for pattern recognition is supervised learning networks, and unsupervised learning networks are more used for cluster analysis. For guided pattern recognition, since the type of any sample is known, the distribution of the sample in space is no longer divided according to its natural distribution tendency, but based on the distribution of similar samples in space and between different types of samples Find a suitable method of spatial division, or find a classification boundary, so that different types of samples are located in different regions. This requires a long and complicated learning process, constantly adjusting the position of the classification boundary used to divide the sample space, so that as few samples as possible are divided into non-homogeneous regions.

           A convolutional network is essentially an input-to-output mapping. It can learn a large number of mappings between inputs and outputs without the need for any precise mathematical expressions between the inputs and outputs. The model trains the convolutional network, and the network has the mapping capability between input and output pairs. The convolutional network performs mentor training, so its sample set is composed of vector pairs of the form: (input vector, ideal output vector). All these vector pairs should be derived from the actual "running" results of the system that the network is about to simulate. They can be collected from actual operating systems. Before starting training, all weights should be initialized with some different small random numbers. The "small random number" is used to ensure that the network does not enter a saturation state due to excessive weights, which causes training failure; "different" is used to ensure that the network can learn normally. In fact, if the weight matrix is ​​initialized with the same number, the network cannot learn.

           The training algorithm is similar to the traditional BP algorithm. It consists of 4 steps, which are divided into two phases:

    The first stage, the forward propagation stage:

    a) Take a sample (X, Y p ) from the sample set and enter X into the network;

    b) Calculate the corresponding actual output O p .

          At this stage, information is transformed step by step from the input layer to the output layer. This process is also performed when the network is running normally after completing training. In this process, the network performs calculations (in fact, the input is multiplied by the weight matrix of each layer to get the final output result):

              O p = F n (... (F 2 (F 1 (X p W (1) ) W (2) ) ...) W (n) )

    Second stage, backward propagation stage

    a) Calculate the difference between the actual output O p and the corresponding ideal output Y p ;

    b) Backpropagate the adjustment weight matrix by minimizing the error.

    6) Advantages of convolutional neural networks

            Convolutional neural network CNN is mainly used to identify two-dimensional graphics with invariance of displacement, scaling, and other forms of distortion. Since the CNN feature detection layer learns from training data, when using CNN, explicit feature extraction is avoided, and learning is implicitly performed from the training data; furthermore, due to the weight of neurons on the same feature mapping surface The same, so the network can learn in parallel, which is also a great advantage of the convolutional network over the network of neurons connected to each other. Convolutional neural networks have unique advantages in speech recognition and image processing due to their special structure of local weight sharing. Their layout is closer to the actual biological neural network. Weight sharing reduces the complexity of the network, especially multi-dimensional The feature that the input vector image can be directly input to the network avoids the complexity of data reconstruction during feature extraction and classification.

            The classification of flows is almost based on statistical features, which means that certain features must be extracted before discrimination. However, explicit feature extraction is not easy, and it is not always reliable in some application problems. Convolutional neural networks, which avoid explicit feature sampling and implicitly learn from training data. This makes the convolutional neural network clearly different from other neural network-based classifiers, and integrates feature extraction into multi-layer perceptrons through structural reorganization and weight reduction. It can directly process grayscale pictures and can be used directly to process image-based classification.

           Convolutional networks have the following advantages over general neural networks in image processing: a) the topological structure of the input image and the network match well; b) feature extraction and pattern classification are performed simultaneously and generated at the same time in training; c) weights Sharing can reduce the training parameters of the network, making the neural network structure simpler and more adaptable.

    7) Summary

           The close relationship between the layer-to-layer relationship and spatial information in CNNs makes it suitable for image processing and understanding. Moreover, it also shows relatively good performance in automatically extracting salient features of images. In some examples, Gabor filters have been used in an initialization pre-processing step to simulate the response of the human visual system to visual stimuli. In most of the current work, researchers have applied CNNs to a variety of machine learning problems, including face recognition, document analysis, and language detection. In order to achieve the purpose of finding the coherence between frames in a video, CNNs are currently trained through a time coherence, but this is not unique to CNNs.

            Hehe, this part is too verbose, but it doesn't touch on the point. There is no way. Let ’s do this first. I have n’t gone through this process yet, so my level is limited. Need to change it later, huh, huh.


    9.5 কনভোলিউশনাল নিউরাল নেটওয়ার্কসমূহ

           কনভলিউশনাল নিউরাল নেটওয়ার্ক হ'ল এক ধরণের কৃত্রিম নিউরাল নেটওয়ার্ক, যা বক্তৃতা বিশ্লেষণ এবং চিত্রের স্বীকৃতি ক্ষেত্রে গবেষণার কেন্দ্রবিন্দুতে পরিণত হয়েছে। এর ওজন ভাগ করে নেওয়ার নেটওয়ার্ক কাঠামো এটিকে জৈবিক নিউরাল নেটওয়ার্কগুলির সাথে আরও অনুরূপ করে তোলে, নেটওয়ার্ক মডেলের জটিলতা হ্রাস করে এবং ওজন সংখ্যা হ্রাস করে। এই সুবিধাটি আরও স্পষ্ট যখন নেটওয়ার্কের ইনপুটটি একটি বহুমাত্রিক চিত্র হয়, যাতে চিত্রটি directlyতিহ্যগত স্বীকৃতি অ্যালগরিদমে জটিল বৈশিষ্ট্য নিষ্কাশন এবং ডেটা পুনর্গঠন প্রক্রিয়া এড়িয়ে নেটওয়ার্কের ইনপুট হিসাবে সরাসরি ব্যবহার করা যায়। একটি কনভ্যুশনাল নেটওয়ার্ক হ'ল একটি মাল্টি-লেয়ার পার্সেপেট্রন বিশেষত দ্বি-মাত্রিক আকারগুলি সনাক্ত করার জন্য ডিজাইন করা হয়েছে network এই নেটওয়ার্ক কাঠামোটি অনুবাদ, স্কেলিং, টিল্ট বা অন্যান্য রূপের বিকৃতিতে অত্যন্ত আক্রমণাত্মক।

           সিএনএনগুলি প্রাথমিক সময়ের-বিলম্বিত নিউরাল নেটওয়ার্কগুলি (টিডিএনএন) দ্বারা প্রভাবিত হয়। সময়-বিলম্বিত নিউরাল নেটওয়ার্কগুলি সময় মাত্রায় ওজন ভাগ করে শেখার জটিলতা হ্রাস করে এবং বক্তৃতা এবং সময় সিরিজের সংকেত প্রক্রিয়াকরণের জন্য উপযুক্ত।

           সিএনএন হ'ল মাল্টি-লেয়ার নেটওয়ার্ক স্ট্রাকচারকে সফলভাবে প্রশিক্ষণ দেওয়ার জন্য প্রথম লার্নিং অ্যালগরিদম। এটি সাধারণ ফরোয়ার্ড বিপি অ্যালগরিদমের প্রশিক্ষণ কার্যকারিতা উন্নত করতে শিখতে পরামিতিগুলির সংখ্যা হ্রাস করতে স্থানিক সম্পর্ক ব্যবহার করে। সিএনএনগুলি ডেটা প্রিপ্রোসেসিং প্রয়োজনীয়তাগুলি হ্রাস করার জন্য একটি গভীর শিক্ষার আর্কিটেকচার হিসাবে প্রস্তাবিত। সিএনএন-তে চিত্রের একটি ছোট অংশ (স্থানীয় গ্রহণযোগ্য অঞ্চল) শ্রেণিবিন্যাসের নিম্নতম স্তরের ইনপুট হিসাবে ব্যবহৃত হয় এবং তথ্যগুলি বিভিন্ন স্তরগুলিতে পরিবর্তিত হয় পর্যবেক্ষণের তথ্যের সর্বাধিক উল্লেখযোগ্য বৈশিষ্ট্য পেতে প্রতিটি স্তর একটি ডিজিটাল ফিল্টার ব্যবহার করে। এই পদ্ধতিটি অনুবাদ, স্কেলিং এবং রোটেশনের জন্য অবিচ্ছিন্ন পর্যবেক্ষণের তথ্যের প্রধান বৈশিষ্ট্যগুলি অর্জন করতে পারে কারণ চিত্রটির স্থানীয় গ্রহনকারী অঞ্চলটি নিউরন বা প্রক্রিয়াকরণ ইউনিটগুলিকে সর্বাধিক প্রাথমিক বৈশিষ্ট্য যেমন অরিয়েন্টেড এজ বা কোণার পয়েন্টগুলিতে অ্যাক্সেস করতে দেয়।

    1) কনভোলশনাল নিউরাল নেটওয়ার্কগুলির ইতিহাস

           ১৯62২ সালে, হুবেল এবং উইজেল বিড়াল ভিজ্যুয়াল কর্টেক্স কোষগুলির অধ্যয়নের মাধ্যমে গ্রহনযোগ্য ক্ষেত্রের ধারণার প্রস্তাব করেছিলেন। 1984 সালে জাপানী পন্ডিত ফুকুশিমার নিউরাল কগনিটিভ মেশিন (নিউওকনজিট্রন) রিসিপটিভ ফিল্ডের ধারণার উপর ভিত্তি করে একটি বিবর্তনমূলক স্নায়ু হিসাবে বিবেচিত হতে পারে। নেটওয়ার্কের প্রথম বাস্তবায়ন কৃত্রিম নিউরাল নেটওয়ার্কগুলির ক্ষেত্রে গ্রহনযোগ্য ক্ষেত্র ধারণার প্রথম প্রয়োগ। নিউরাল কগনিটিভ মেশিনটি একটি ভিজ্যুয়াল প্যাটার্নকে অনেকগুলি সাব-প্যাটার্ন (বৈশিষ্ট্য )গুলিতে বিভক্ত করে এবং তারপরে প্রক্রিয়াজাতকরণের জন্য হায়ারারাক্লিকভাবে সংযুক্ত বৈশিষ্ট্য প্লেনগুলিতে প্রবেশ করে It এটি ভিজ্যুয়াল সিস্টেমটি মডেল করার চেষ্টা করে যাতে বস্তুটি বাস্তুচ্যুত বা সামান্য বিকৃত হয়ে গেলেও এটি ব্যবহার করা যায় একই সাথে, স্বীকৃতিও শেষ করা যেতে পারে।

           সাধারণত, নিউরোকগনিটিভ মেশিনে দুটি ধরণের নিউরন থাকে, যথা এস-এলিমেন্ট যা বৈশিষ্ট্য নিষ্কাশন করে এবং সি-উপাদান যা বিকৃতি প্রতিহত করে। এস-উপাদানটিতে দুটি গুরুত্বপূর্ণ পরামিতি জড়িত, যথা গ্রহনযোগ্য ক্ষেত্র এবং প্রান্তিকের প্যারামিটার former পূর্ববর্তী ইনপুট সংযোগগুলির সংখ্যা নির্ধারণ করে এবং পরবর্তীটি বৈশিষ্ট্যযুক্ত উপ-প্যাটার্নের প্রতিক্রিয়া ডিগ্রি নিয়ন্ত্রণ করে। অনেক পণ্ডিত নিউরাল কগনিটিভ মেশিনের কর্মক্ষমতা উন্নত করার জন্য কাজ করছেন: প্রচলিত নিউরাল কগনিটিভ মেশিনে, প্রতিটি এস-এলিমেন্টের আলোক সংশ্লেষিত অঞ্চলে সি-উপাদানগুলির দ্বারা সৃষ্ট ভিজ্যুয়াল ব্লার পরিমাণ সাধারণত বিতরণ করা হয়। যদি আলোক সংবেদনশীল অঞ্চলটির প্রান্তটির ঝাপসা প্রভাব কেন্দ্রের চেয়ে বেশি হয়, এস-উপাদানটি এই অ-স্বাভাবিক অস্পষ্টতার কারণে বৃহত্তর বিকৃতি সহনশীলতা গ্রহণ করবে। আমরা যা চাই তা হ'ল গ্রহণযোগ্য ক্ষেত্র এবং এর কেন্দ্রের প্রান্তে প্রশিক্ষণ মোড এবং বিকৃত উদ্দীপক মোডের প্রভাবের মধ্যকার পার্থক্য বড় এবং বৃহত্তর হয়। এ জাতীয় অস্বাভাবিক অস্পষ্টতা কার্যকরভাবে গঠনের জন্য, ফুকুশিমা ডাবল সি-এলিমেন্ট স্তর সহ একটি উন্নত নিউরাল কগনিটিভ মেশিনের প্রস্তাব করেছিলেন।

           ভ্যান ওয়েন এবং নিহুইস নিউরাল কগনিটিভ মেশিনগুলির বৈষম্য ক্ষমতা উন্নত করতে একটি নতুন প্যারামিটার চালু করেছিলেন। আসলে, এই পরামিতিটি দমন সংকেত হিসাবে পরিবেশন করে যা বারবার উত্তেজনার বৈশিষ্ট্যগুলির নিউরনের উদ্দীপনাকে দমন করে। বেশিরভাগ নিউরাল নেটওয়ার্ক ওজনে প্রশিক্ষণের তথ্য মুখস্ত করে। হেব শেখার নিয়ম অনুসারে, নির্দিষ্ট বৈশিষ্ট্যটি যত বেশিবার প্রশিক্ষণ দেওয়া হয়, পরবর্তী স্বীকৃতি প্রক্রিয়ায় এটি সনাক্ত করা তত সহজ। কিছু পণ্ডিত পুনরাবৃত্তি উদ্দীপক বৈশিষ্ট্য প্রশিক্ষণ এবং শেখার হ্রাস করতে নিউরাল কগনিটিভ মেশিনগুলির সাথে বিবর্তনীয় কম্পিউটিং তত্ত্বকে একত্রিত করেছেন, যাতে নেটওয়ার্ক বৈষম্য উন্নত করতে সেই বিভিন্ন বৈশিষ্ট্যগুলিতে মনোযোগ দেয়। উপরেরটি নিউরাল কগনিটিভ মেশিনগুলির বিকাশ প্রক্রিয়া, এবং কনভোলশনাল নিউরাল নেটওয়ার্কগুলি নিউরাল কগনিটিভ মেশিনগুলির প্রচারের একটি রূপ হিসাবে বিবেচনা করা যেতে পারে। নিউরোকগনিটিভ মেশিনগুলি কনভোলশনাল নিউরাল নেটওয়ার্কগুলির একটি বিশেষ ক্ষেত্রে are

    2) কনভোলশনাল নিউরাল নেটওয়ার্কের কাঠামো

          একটি কনভ্যুশনাল নিউরাল নেটওয়ার্ক হ'ল একাধিক স্তরের নিউরাল নেটওয়ার্ক প্রতিটি স্তর একাধিক দ্বি-মাত্রিক প্লেন দ্বারা গঠিত এবং প্রতিটি বিমান একাধিক স্বতন্ত্র নিউরন দ্বারা গঠিত।



           চিত্র: কনভ্যুশনাল নিউরাল নেটওয়ার্কের ধারণার বিক্ষোভ: ইনপুট চিত্রটি তিনটি প্রশিক্ষণযোগ্য ফিল্টার এবং অফসেটের সাহায্যে দ্রবীভূত করা হয়েছে The ফিল্টারিং প্রক্রিয়া চিত্র 1 এ দেখানো হয়েছে সমাবর্তনের পরে, C1 স্তরটিতে তিনটি বৈশিষ্ট্য মানচিত্র তৈরি করা হয়েছে Then বৈশিষ্ট্য মানচিত্রে প্রতিটি গোষ্ঠীর চার পিক্সেলকে সংক্ষিপ্ত, ভারযুক্ত এবং পক্ষপাতদুষ্ট করা হয়। তিনটি এস 2 স্তর বৈশিষ্ট্য মানচিত্র সিগময়েড ফাংশনের মাধ্যমে প্রাপ্ত হয়। এই মানচিত্রগুলি তখন সি 3 স্তর পেতে ফিল্টার করা হয়। এই শ্রেণিবিন্যাস এস 4 এর পাশাপাশি এস 4 উত্পাদন করে। শেষ পর্যন্ত, এই পিক্সেল মানগুলি রাস্টারাইজড হয় এবং আউটপুটটি পেতে toতিহ্যবাহী নিউরাল নেটওয়ার্কের সাথে একটি ভেক্টরের সাথে সংযুক্ত থাকে।

           সাধারণত সি স্তরটি বৈশিষ্ট্য আহরণের স্তর each প্রতিটি নিউরনের ইনপুটটি পূর্ববর্তী স্তরের স্থানীয় গ্রহণযোগ্য ক্ষেত্রের সাথে সংযুক্ত থাকে এবং স্থানীয় বৈশিষ্ট্যগুলি বের করা হয় Once স্থানীয় বৈশিষ্ট্যটি একবার বের করার পরে, অন্যান্য বৈশিষ্ট্যগুলির সাথে এর অবস্থানগত সম্পর্কও হয় এরপরে এটি নির্ধারিত হয়; এস স্তরটি একটি বৈশিষ্ট্য ম্যাপিং স্তর the নেটওয়ার্কের প্রতিটি কম্পিউটিং স্তরটিতে একাধিক বৈশিষ্ট্য মানচিত্র, একটি বিমানের প্রতিটি বৈশিষ্ট্য মানচিত্র এবং বিমানের সমস্ত নিউরনের সমান ওজন থাকে। বৈশিষ্ট্য মানচিত্রের কাঠামোটি কনভলিউশন নেটওয়ার্কটির অ্যাক্টিভেশন ফাংশন হিসাবে একটি ছোট প্রভাব ফাংশন কার্নেলের সাথে সিগময়েড ফাংশনটি ব্যবহার করে, যাতে বৈশিষ্ট্য মানচিত্রে স্থানচ্যুতি অদলবদল থাকে।

           তদতিরিক্ত, ম্যাপিং পৃষ্ঠের নিউরনগুলি ওজন ভাগ করে নেওয়ার কারণে, নেটওয়ার্কের মুক্ত পরামিতিগুলির সংখ্যা হ্রাস হয়, এবং নেটওয়ার্ক পরামিতি নির্বাচনের জটিলতা হ্রাস পায়। কনভোলশনাল নিউরাল নেটওয়ার্কের প্রতিটি বৈশিষ্ট্য নিষ্কাশন স্তর (সি-স্তর) স্থানীয় গড় এবং গৌণ এক্সট্রাকশন জন্য গণনা স্তর (এস-স্তর) দ্বারা অনুসরণ করা হয়। এই অনন্য বৈশিষ্ট্য নিষ্কাশন কাঠামোটি নেটওয়ার্ককে তোলে স্বীকৃতি চলাকালীন এতে ইনপুট নমুনাগুলির জন্য উচ্চ বিকৃতির সহনশীলতা রয়েছে।

    3) পরামিতি হ্রাস এবং ওজন ভাগ করে নেওয়া সম্পর্কে

          উপরে উল্লিখিত হিসাবে, দেখে মনে হচ্ছে যে সিএনএন এর জন্য একটি দুর্দান্ত জায়গা এটি নিউরাল নেটওয়ার্কটি গ্রহনযোগ্য ক্ষেত্র এবং ওজন ভাগ করে নেওয়ার মাধ্যমে প্রশিক্ষণের জন্য প্রয়োজনীয় পরামিতিগুলির সংখ্যা হ্রাস করে। তাহলে এটা কি?

           নীচে বাম: যদি আমাদের 1000x1000 পিক্সেল এবং 1 মিলিয়ন লুকানো নিউরনগুলির চিত্র থাকে তবে সেগুলি সম্পূর্ণরূপে সংযুক্ত থাকলে (প্রতিটি লুকানো নিউরন চিত্রের প্রতিটি পিক্সেলের সাথে সংযুক্ত থাকে), সেখানে 1000x1000x1000000 = 10 ^ থাকবে 12 সংযোগ, যা, 10 ^ 12 ওজনের পরামিতি। তবে চিত্রগুলির স্থানিক সংযোগটি স্থানীয়। স্থানীয় লোকের মতো গ্রহণযোগ্য ক্ষেত্রের মাধ্যমে লোকেরা যেমন বাহ্যিক চিত্র অনুভব করে তেমনি প্রতিটি নিউরনকে বিশ্বব্যাপী চিত্র অনুভব করার প্রয়োজন হয় না Each প্রতিটি নিউরন কেবল স্থানীয় চিত্রের অঞ্চল অনুভব করে এবং তারপরে উচ্চতর স্তরে, এই নিউরনগুলি যা বিভিন্ন অঞ্চলে অভিজ্ঞ তারা বৈশ্বিক তথ্য প্রাপ্তির জন্য একত্রিত হতে পারে। এইভাবে, আমরা সংযোগের সংখ্যা হ্রাস করতে পারি, অর্থাৎ, নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য প্রয়োজনীয় ওজন পরামিতিগুলির সংখ্যা হ্রাস করতে পারি। নীচের ডান চিত্রটিতে যেমন দেখানো হয়েছে: স্থানীয় গ্রহণযোগ্য ক্ষেত্রটি যদি 10x10 হয় তবে লুকানো স্তরের প্রতিটি গ্রহনযোগ্য ক্ষেত্রটি কেবলমাত্র 10x10 স্থানীয় চিত্রের সাথে সংযুক্ত হওয়া দরকার, সুতরাং 1 মিলিয়ন লুকানো স্তর নিউরনের জন্য কেবলমাত্র 100 মিলিয়ন সংযোগ রয়েছে, যা 10 ^ 8 পরামিতি । মূলটির তুলনায় এটি চার 0 (মাত্রার ক্রম) দ্বারা হ্রাস পেয়েছে, যাতে প্রশিক্ষণ এতটা শ্রমসাধ্য না হয় তবে এটি এখনও অনেক বেশি অনুভূত হয়, তবে আমি আর কী করতে পারি?



           আমরা জানি যে লুকানো স্তরের প্রতিটি নিউরন 10x10 চিত্র অঞ্চলে সংযুক্ত থাকে, যার অর্থ প্রতিটি নিউরনে 10x10 = 100 সংযোগ ওজন পরামিতি রয়েছে। আমাদের নিউরনের জন্য যদি আমাদের 100 পরামিতি একই হয় তবে কী হবে? অন্য কথায়, প্রতিটি নিউরন ইমেজটি ডিকনভল করতে একই কনভলিউশন কার্নেল ব্যবহার করে। সুতরাং আমরা কত পরামিতি আছে? ? মাত্র 100 পরামিতি! ! ! প্রো! লুকানো স্তরে আপনার কতগুলি নিউরন রয়েছে তা বিবেচনা করে না, দুটি স্তরের মধ্যে সংযোগের জন্য আমার কাছে কেবলমাত্র 100 পরামিতি রয়েছে! প্রো! এটি ওজন ভাগাভাগি! প্রো! এটি কনভোলশনাল নিউরাল নেটওয়ার্কগুলির প্রধান বিক্রয় পয়েন্ট! প্রো! (কিছুটা বিরক্তিকর, হুঁ, হুহ) আপনি জিজ্ঞাসা করবেন, এটি কি নির্ভরযোগ্য? কেন এটি সম্ভব? এই ... একসাথে শিখুন।

           ঠিক আছে, আপনি ভাববেন, এইভাবে বৈশিষ্ট্যগুলি আহরণ করা নির্ভরযোগ্য নয়, তাই আপনি কেবল একটি বৈশিষ্ট্যই বের করেছেন? যাইহোক, সত্যিই স্মার্ট, আমাদের একাধিক বৈশিষ্ট্য তোলা দরকার, তাই না? যদি একটি ফিল্টার, এটি, একটি কনভ্যুশনাল কার্নেল, প্রস্তাবিত চিত্রটির একটি বৈশিষ্ট্য, যেমন নির্দিষ্ট দিকের একটি প্রান্ত। তারপরে আমাদের বিভিন্ন বৈশিষ্ট্যগুলি বের করতে হবে What আমাদের কী করা উচিত? আরও ফিল্টার যুক্ত করার পক্ষে কি যথেষ্ট নয়? হ্যাঁ। সুতরাং ধরুন আমরা 100 টি ফিল্টার যুক্ত করেছি এবং প্রতিটি ফিল্টারের বিভিন্ন পরামিতি রয়েছে যার অর্থ এটি ইনপুট চিত্রের বিভিন্ন বৈশিষ্ট্য যেমন বিভিন্ন প্রান্তের প্রস্তাব দেয় prop এইভাবে, প্রতিটি ফিল্টার চিত্রের বিভিন্ন বৈশিষ্ট্যের অভিক্ষেপ পেতে চিত্রটিকে ডিকনভলভ করে। আমরা এটিকে একটি বৈশিষ্ট্য মানচিত্র বলি। সুতরাং 100 ধরণের কনভ্যুশনাল কার্নেলের জন্য 100 টি বৈশিষ্ট্যযুক্ত মানচিত্র রয়েছে। এই 100 বৈশিষ্ট্যযুক্ত মানচিত্রগুলি নিউরনের একটি স্তর তৈরি করে। এটি এতক্ষণে স্পষ্ট। আমাদের স্তরটির কতটি পরামিতি রয়েছে? 100 ধরণের কনভ্যুশনাল কার্নেল x প্রতিটি কনভলিউশন কার্নেল 100 প্যারামিটার = 100x100 = 10 কে, 10,000 প্যারামিটার শেয়ার করে। মাত্র 10,000 প্যারামিটার! প্রো! (এখানে আবার, আমি এটি দাঁড়াতে পারছি না!) ডানদিকে চিত্রটি দেখুন: বিভিন্ন রঙ বিভিন্ন ফিল্টার প্রকাশ করে।



           আরে, একটি প্রশ্ন অনুপস্থিত। এটি কেবল বলা হয়েছিল যে লুকানো স্তরের পরামিতিগুলির সংখ্যার কোনও গোপন স্তরের নিউরনের সংখ্যার সাথে কোনও সম্পর্ক নেই, তবে কেবলমাত্র ফিল্টারের আকার এবং ফিল্টার ধরণের সংখ্যার সাথে। তাহলে কীভাবে লুকানো নিউরনের সংখ্যা নির্ধারণ করবেন? এটি মূল চিত্রের সাথে সম্পর্কিত, অর্থাত্ ইনপুটটির আকার (নিউরনের সংখ্যা), ফিল্টারটির আকার এবং চিত্রের ফিল্টারের স্লাইডিং স্টেপ! উদাহরণস্বরূপ, আমার চিত্রটি 1000x1000 পিক্সেল, এবং ফিল্টারটির আকার 10x10 Ass ধরে নেওয়া যায় যে ফিল্টারগুলি ওভারল্যাপ হয় না, অর্থাত, ধাপের আকার 10, লুকানো স্তরের নিউরনের সংখ্যা (1000x1000) / (10x10) = 100x100 নিউরন। এখন, ধাপের আকারটি 8 ধরে ধরে নেওয়া, অর্থাত্ কনভলিউশন কার্নেলটি দুটি পিক্সেলকে ওভারল্যাপ করবে, তারপরে ... আমার এটি নিয়ে চিন্তা করার দরকার নেই, কেবল এটি বুঝতে হবে understand দ্রষ্টব্য যে এটি কেবল একটি ফিল্টার, এটি কোনও বৈশিষ্ট্য মানচিত্রে নিউরনের সংখ্যা If 100 বৈশিষ্ট্যযুক্ত মানচিত্র যদি 100 বার হয়। এটি দেখা যায় যে চিত্রটি বৃহত্তর হবে, প্রশিক্ষণ নেওয়ার জন্য নিউরনের সংখ্যা এবং ওজনের পরামিতির সংখ্যার মধ্যে সম্পদের ব্যবধানটি তত বেশি।



          এটি লক্ষণীয় গুরুত্বপূর্ণ যে উপরের আলোচনার কোনওটিই প্রতিটি নিউরনের পক্ষপাতিত্বমূলক অংশ বিবেচনা করে না। সুতরাং ওজনের সংখ্যা 1 বাড়াতে হবে। এটি একই ফিল্টার দ্বারা ভাগ করা হয়।

          সংক্ষেপে, কনভোলশনাল নেটওয়ার্কগুলির মূল ধারণাটি হ'ল স্থানীয় গ্রহণযোগ্য ক্ষেত্রগুলির তিনটি কাঠামোগত ধারণাগুলি, ওজন ভাগাভাগি (বা ওজন কপি করা), এবং সময় বা স্থান সাবসাম্পলিংয়ের স্থানান্তর, স্কেল এবং বিকৃতকরণের নির্দিষ্ট ডিগ্রি অর্জনের জন্য একত্রিত করা। ।

    ৪) একটি সাধারণ উদাহরণ চিত্রিত করে

           সংখ্যা সনাক্ত করতে ব্যবহৃত একটি সাধারণ কনভোলিউশনাল নেটওয়ার্ক হ'ল লেনেট -5 ( প্রভাব এবং কাগজপত্রের জন্য এখানে দেখুন )। বেশিরভাগ মার্কিন ব্যাংক চেকগুলিতে হস্তাক্ষর অঙ্কগুলি সনাক্ত করতে এটি ব্যবহার করে। এই জাতীয় বাণিজ্যিক পর্যায়ে পৌঁছতে সক্ষম হওয়ার জন্য, এর যথার্থতা অনুমেয়। সর্বোপরি, একাডেমিয়া এবং শিল্পের সংমিশ্রণটি বর্তমানে সবচেয়ে বিতর্কিত।



          তাহলে উদাহরণস্বরূপ এই উদাহরণটি ব্যবহার করুন।



            লেনেট -5 এর মোট 7 টি স্তর রয়েছে এবং এতে ইনপুট থাকে না প্রতিটি স্তরে প্রশিক্ষণযোগ্য প্যারামিটার (সংযোগের ওজন) থাকে। ইনপুট চিত্রটি 32 * 32। এটি মনিস্ট ডাটাবেসের বৃহত্তম স্বাক্ষর (স্বীকৃত হাতের লিখিত ডাটাবেস) এর চেয়ে বড়। এর কারণটি আশা করা যে সম্ভাব্য সুস্পষ্ট বৈশিষ্ট্য যেমন বিদ্যুৎ ব্যর্থতা বা কর্নার পয়েন্টগুলি শীর্ষ-স্তরের বৈশিষ্ট্য মনিটরের গ্রহণযোগ্য ক্ষেত্রের কেন্দ্রে উপস্থিত হতে পারে।

            আমাদের পরিষ্কার হওয়া দরকার: প্রতিটি স্তরের একাধিক বৈশিষ্ট্য মানচিত্র রয়েছে, প্রতিটি বৈশিষ্ট্য মানচিত্র ইনপুটটির একটি বৈশিষ্ট্য আহরণের জন্য একটি কনভোলশন ফিল্টার ব্যবহার করে এবং তারপরে প্রতিটি বৈশিষ্ট্য মানচিত্রে একাধিক নিউরন থাকে।

            সি 1 স্তরটি একটি কনভ্যুশন স্তর (এটি কেন কনভলশন হয়? কনভোলশন অপারেশনের একটি গুরুত্বপূর্ণ বৈশিষ্ট্য হ'ল আসল সংকেত বৈশিষ্ট্যগুলি উন্নত করা যায় এবং কনভলশন অপারেশনের মাধ্যমে শব্দ কমিয়ে আনা যায়)। বৈশিষ্ট্য মানচিত্রে প্রতিটি নিউরন ইনপুটটিতে 5 * 5 পাড়ার সাথে সংযুক্ত থাকে। বৈশিষ্ট্য মানচিত্রের আকারটি ২৮ * ২৮, যা ইনপুট সংযোগটি সীমানার বাইরে পড়তে বাধা দিতে পারে (বিপি প্রতিক্রিয়ার সময় গণনার জন্য, গ্রেডিয়েন্ট ক্ষতি ছাড়াই, ব্যক্তিগত মতামত ছাড়াই)। সি 1 এর 156 প্রশিক্ষণযোগ্য প্যারামিটার (5 * 5 = 25 ইউনিট প্যারামিটার এবং প্রতিটি ফিল্টারের জন্য একটি পক্ষপাত প্যারামিটার, মোট 6 টি ফিল্টার, (5 * 5 + 1) * 6 = 156 পরামিতি), মোট 156 * (28 * 28) = 122,304 সংযোগ।

           এস 2 স্তরটি একটি ডাউনস্যাম্পলিং স্তর (কেন এটি ডাউনস্যাম্পলিং হয়? চিত্রের স্থানীয় পারস্পরিক সম্পর্কের নীতিটি ব্যবহার করে, চিত্রটি স্যাম্পলিং করা দরকারী তথ্য বজায় রেখে ডেটা প্রসেসিংয়ের পরিমাণ হ্রাস করতে পারে) এবং এতে ছয় 14 * 14 বৈশিষ্ট্যযুক্ত মানচিত্র রয়েছে। বৈশিষ্ট্য মানচিত্রের প্রতিটি ঘর সি 1-তে সংশ্লিষ্ট বৈশিষ্ট্য মানচিত্রের 2 * 2 পাড়ার সাথে সংযুক্ত। এস 2 স্তরটির প্রতিটি ইউনিটের 4 টি ইনপুট যোগ করা হয়, একটি প্রশিক্ষণযোগ্য পরামিতি দ্বারা গুণিত করা হয় এবং একটি প্রশিক্ষণযোগ্য অফসেট যুক্ত করা হয়। সিগময়েড ফাংশন দ্বারা ফলাফল গণনা করা হয়। প্রশিক্ষণযোগ্য সহগ এবং পক্ষপাতগুলি সিগময়েড ফাংশনের অ-লিনিয়ারিটি ডিগ্রি নিয়ন্ত্রণ করে। সহগগুলি যদি ছোট হয় তবে অপারেশনটি একটি রৈখিক অপারেশনের সমান এবং সাবম্যাপলিং একটি অস্পষ্ট চিত্রের সমতুল্য। যদি সহগ তুলনামূলকভাবে বড় হয় তবে অফসেটের প্রস্থের উপর নির্ভর করে সাবমপলিংকে একটি শোরগোল বা অপারেশন বা একটি শোরগোল এবং অপারেশন হিসাবে দেখা যেতে পারে। প্রতিটি ইউনিটের 2 * 2 গ্রাহক ক্ষেত্রগুলি ওভারল্যাপ করে না, সুতরাং এস 2 এর প্রতিটি বৈশিষ্ট্য মানচিত্রের আকার সি 1 (প্রতিটি সারি এবং কলামের জন্য 1/2) এর বৈশিষ্ট্য মানচিত্রের আকারের 1/4 হয়। এস 2 স্তরের 12 টি প্রশিক্ষণযোগ্য প্যারামিটার এবং 5880 সংযোগ রয়েছে।



    চিত্র: কনভলিউশন এবং সাব-স্যাম্পলিং প্রক্রিয়া: কনভোলশন প্রক্রিয়াটি অন্তর্ভুক্ত: একটি ইনপুট চিত্রকে কনভল করার জন্য একটি ট্রেনযোগ্য ফিল্টার এফ এক্স ব্যবহার করা (প্রথম পর্যায়ে ইনপুট চিত্র, এবং পরবর্তী পর্যায়ে কনভলিউশন বৈশিষ্ট্য মানচিত্র) এবং তারপরে পক্ষপাতিত্ব বি যোগ এক্স একটি সংবর্তন স্তর সি প্রাপ্ত, এক্স । সাবসাম্পলিং প্রক্রিয়াটি অন্তর্ভুক্ত করে: প্রতিটি পাড়ায় চার পিক্সেলকে এক পিক্সেলে যোগ করে, তারপরে স্কেলার ডাব্লু এক্স + 1 দ্বারা ওজন করা , তারপরে অফসেট বি x + 1 বৃদ্ধি করা এবং তারপরে প্রায় চারগুণ হ্রাস উত্পন্ন করতে একটি সিগময়েড অ্যাক্টিভেশন ফাংশন পাস করা বৈশিষ্ট্য মানচিত্র এস এক্স + 1 ।

           অতএব, একটি সমতল থেকে অন্য বিমানের ম্যাপিংকে কনভলিউশন অপারেশন হিসাবে বিবেচনা করা যেতে পারে এবং এস-স্তরটিকে একটি अस्पष्ट ফিল্টার হিসাবে বিবেচনা করা যেতে পারে, যা গৌণ বৈশিষ্ট্য নিষ্কাশনের ভূমিকা পালন করে। লুকানো স্তর এবং লুকানো স্তরের মাঝে স্থানিক রেজোলিউশন হ্রাস পায় এবং প্রতিটি স্তরে থাকা বিমানগুলির সংখ্যা বৃদ্ধি পায় যা আরও বৈশিষ্ট্য সম্পর্কিত তথ্য সনাক্ত করতে ব্যবহার করা যেতে পারে।

           সি 3 স্তরটিও একটি কনভ্যুশন স্তর It এটি 5x5 কনভ্যুশন কার্নেলের মাধ্যমে স্তরটি এস 2 কেও বিভক্ত করে এবং তারপরে বৈশিষ্ট্য মানচিত্রটি কেবল 10x10 নিউরন হয় তবে এটিতে 16 টি পৃথক কনভ্যুশনাল কার্নেল থাকে, সুতরাং সেখানে 16 রয়েছে বৈশিষ্ট্য মানচিত্র। এখানে একটি বিষয় লক্ষণীয় হ'ল সি 3-এর প্রতিটি বৈশিষ্ট্য মানচিত্র এস 2-এর সমস্ত 6 বা কয়েকটি বৈশিষ্ট্য মানচিত্রের সাথে সংযুক্ত রয়েছে, ইঙ্গিত করে যে এই স্তরের বৈশিষ্ট্য মানচিত্রটি পূর্ববর্তী স্তর থেকে প্রাপ্ত বৈশিষ্ট্য মানচিত্রের পৃথক সংমিশ্রণ (এটি এটি একমাত্র উপায় নয়)। (দেখুন না, এখানে এই সংমিশ্রণটি রয়েছে, ঠিক যেমনটি আমরা আগে মানব ভিজ্যুয়াল সিস্টেমের সাথে আলোচনা করেছি, নীচের কাঠামোটি উপরের স্তরের আরও বিমূর্ত কাঠামো গঠন করে, যেমন প্রান্তটি আকৃতির গঠন বা লক্ষ্যটির অংশ)।

           এটি কেবল বলা হয়েছিল যে সি 3-এর প্রতিটি বৈশিষ্ট্য মানচিত্র এস 2-এ সমস্ত 6 বা কয়েকটি বৈশিষ্ট্য মানচিত্রের সমন্বয়ে গঠিত। এস 3-তে প্রতিটি বৈশিষ্ট্য মানচিত্রকে সি 3-তে প্রতিটি বৈশিষ্ট্য মানচিত্রে সংযুক্ত করবেন না কেন? এর দুটি কারণ রয়েছে। প্রথমত, অসম্পূর্ণ সংযোগ ব্যবস্থা একটি যুক্তিসঙ্গত সীমার মধ্যে সংযোগের সংখ্যা রাখে। দ্বিতীয়ত, এবং সবচেয়ে গুরুত্বপূর্ণ, এটি নেটওয়ার্কের প্রতিসাম্যকে ক্ষুন্ন করে। যেহেতু বিভিন্ন বৈশিষ্ট্যের মানচিত্রের আলাদা আলাদা ইনপুট রয়েছে, তাই তারা বিভিন্ন বৈশিষ্ট্যগুলি বের করতে বাধ্য হয় (আশা করি পরিপূরক)।

          উদাহরণস্বরূপ, একটি উপায় বিদ্যমান: সি 3 এর প্রথম 6 বৈশিষ্ট্য মানচিত্রগুলি এস 2 তে ইনপুট হিসাবে 3 সংলগ্ন বৈশিষ্ট্য মানচিত্রের উপসেট গ্রহণ করে। পরবর্তী ছয় বৈশিষ্ট্যের মানচিত্রগুলি ইনপুট হিসাবে এস 2 এ প্রতিবেশী বৈশিষ্ট্য মানচিত্রের 4 টি উপগ্রহ নেয়। পরের তিনটি নন-সংলগ্ন 4 বৈশিষ্ট্য মানচিত্রের সাবটাকে ইনপুট হিসাবে গ্রহণ করবে। শেষটি এস 2-এ সমস্ত বৈশিষ্ট্য মানচিত্রকে ইনপুট হিসাবে গ্রহণ করে। এইভাবে, সি 3 স্তরের 1516 প্রশিক্ষণযোগ্য প্যারামিটার এবং 151600 সংযোগ রয়েছে।

           এস 4 স্তরটি একটি ডাউন-স্যাম্পলিং স্তর যা 5 * 5 আকারের 16 টি বৈশিষ্ট্যযুক্ত মানচিত্র নিয়ে গঠিত। বৈশিষ্ট্য মানচিত্রের প্রতিটি ঘর সি 3 এ সম্পর্কিত বৈশিষ্ট্য মানচিত্রের 2 * 2 পাড়ার সাথে সংযুক্ত, যা সি 1 এবং এস 2 এর সংযোগের সমান। এস 4 স্তরটির 32 টি প্রশিক্ষণযোগ্য প্যারামিটার রয়েছে (বৈশিষ্ট্য ম্যাপে 1 ফ্যাক্টর এবং 1 পক্ষপাত) এবং 2000 সংযোগ রয়েছে।

           সি 5 স্তরটি একটি বৈশিষ্ট্যযুক্ত 120 টি বৈশিষ্ট্যযুক্ত মানযুক্ত স্তর। প্রতিটি ইউনিট এস 4 স্তরের সমস্ত 16 ইউনিটের 5 * 5 পাড়ার সাথে সংযুক্ত। যেহেতু এস 4 স্তর বৈশিষ্ট্য মানচিত্রের আকারটিও 5 * 5 (ফিল্টারের মতো), তাই সি 5 বৈশিষ্ট্য মানচিত্রের আকার 1 * 1: এটি এস 4 এবং সি 5 এর মধ্যে একটি সম্পূর্ণ সংযোগ গঠন করে। সি 5 এখনও পুরোপুরি এসোসিয়েটিভ লেয়ারের পরিবর্তে কনভোলসিয়াল স্তর হিসাবে লেবেলযুক্ত হওয়ার কারণ হ'ল যদি লেনেট -5 এর ইনপুট আরও বড় হয়ে যায় এবং অন্যটি অপরিবর্তিত থাকে, তবে বৈশিষ্ট্য মানচিত্রের মাত্রা 1 * 1 এর চেয়ে বড় হবে। । সি 5 স্তরটির 48120 প্রশিক্ষণযোগ্য সংযোগ রয়েছে।

            এফ 6 স্তরটির 84 টি ইউনিট রয়েছে (এই সংখ্যাটি বেছে নেওয়ার কারণটি আউটপুট স্তরের নকশা থেকে আসে), যা পুরোপুরি সি 5 স্তরটির সাথে সংযুক্ত। এখানে 10164 প্রশিক্ষণযোগ্য পরামিতি রয়েছে। ক্লাসিক নিউরাল নেটওয়ার্কের মতো, এফ 6 স্তর ইনপুট ভেক্টর এবং ওজন ভেক্টর এবং আরও একটি পক্ষপাতিত্বের মধ্যে ডট পণ্য গণনা করে। এরপরে সিগময়েড ফাংশনে এটি ইউনিট এর একটি রাজ্য উত্পন্ন করতে পাস করা হয়।

          অবশেষে, আউটপুট স্তরটিতে ইউক্লিডিয়ান রেডিয়াল বেসিস ফাংশন ইউনিট, প্রতিটি শ্রেণির জন্য একটি ইউনিট এবং প্রতিটিটির জন্য ৮৪ টি ইনপুট থাকে। অন্য কথায়, প্রতিটি আউটপুট আরবিএফ ইউনিট ইনপুট ভেক্টর এবং পরামিতি ভেক্টরের মধ্যে ইউক্লিডিয়ান দূরত্ব গণনা করে। আর ইনপুটটি প্যারামিটার ভেক্টর থেকে, আরবিএফ আউটপুট আরও বড়। একটি আরবিএফ আউটপুট পেনাল্টি শব্দ হিসাবে বোঝা যায় যা আরবিএফের সাথে সম্পর্কিত কোনও মডেলের সাথে ইনপুট প্যাটার্নটি কতটা ভাল মেলে তা পরিমাপ করে। সম্ভাব্য ভাষায়, আরবিএফ আউটপুটটি এফ 6 স্তর কনফিগারেশন স্পেসের গাউসীয় বিতরণের নেতিবাচক লগ-সম্ভাবনা হিসাবে বোঝা যায়। একটি ইনপুট মোড দেওয়া হয়েছে, ক্ষতি ফাংশনটি আরবিএফ প্যারামিটার ভেক্টরের (এটি মোডের প্রত্যাশিত শ্রেণিবিন্যাসের) কাছে যথেষ্ট পরিমাণে F6 এর কনফিগারেশন করতে সক্ষম হবে। এই ইউনিটগুলির প্যারামিটারগুলি ম্যানুয়ালি নির্বাচন করা হয় এবং স্থির রাখা হয় (কমপক্ষে প্রাথমিকভাবে)। এই প্যারামিটার ভেক্টরের উপাদানগুলি -1 বা 1 তে সেট করা আছে। যদিও এই পরামিতিগুলি -1 এবং 1 সম্ভাব্যতার মতো কোনও উপায়ে নির্বাচন করা যেতে পারে, বা ত্রুটি সংশোধন কোড গঠন করা যায় তবে এগুলি সম্পর্কিত অক্ষর শ্রেণীর 7 * 12 আকারের (অর্থাত্ 84) ফর্ম্যাট চিত্র হিসাবে নকশা করা হয়েছে। এই প্রতিনিধিত্ব পৃথক সংখ্যা সনাক্তকরণের জন্য খুব কার্যকর নয়, তবে এটি মুদ্রণযোগ্য ASCII সেটে স্ট্রিং সনাক্তকরণের জন্য দরকারী।

          আউটপুট উত্পাদনের জন্য বেশি ব্যবহৃত "এন এর 1 1" এনকোডিংয়ের পরিবর্তে এই বিতরণযুক্ত এনকোডিংটি ব্যবহার করার আরেকটি কারণ হ'ল, বিভাগগুলি বড় হলে, বিতরণকৃত এনকোডিং কম কার্যকর হয়। কারণ হ'ল অ-বিতরণকৃত এনকোডিংয়ের আউটপুট অবশ্যই বেশিরভাগ সময় 0 হতে হবে। এটি সিগময়েড ইউনিটগুলির সাথে অর্জন করা কঠিন করে তোলে। আরেকটি কারণ হ'ল শ্রেণিবদ্ধকারীরা কেবল অক্ষরগুলি সনাক্ত করতেই নয়, অক্ষরগুলি অস্বীকার করার জন্যও ব্যবহৃত হয়। আরবিএফ বিতরণ কোডিং ব্যবহার করে এই লক্ষ্যের জন্য আরও উপযুক্ত। সিগময়েডের বিপরীতে, তারা ইনপুট স্পেসের আরও ভাল বিধিনিষেধিত অঞ্চলে উত্তেজিত এবং অ-আদর্শিক নিদর্শনগুলি বাইরে পড়ার সম্ভাবনা বেশি।

            আরবিএফ প্যারামিটার ভেক্টর F6 স্তর লক্ষ্য ভেক্টরের ভূমিকা পালন করে। এটি চিহ্নিত করা উচিত যে এই ভেক্টরগুলির উপাদানগুলি +1 বা -1 হয়, যা F6 সিগময়েডের মধ্যে থাকে, সুতরাং এটি সিগময়েড ফাংশনকে স্যাচুরেট হওয়া থেকে আটকাতে পারে। আসলে, +1 এবং -1 সিগময়েড ফাংশনের সর্বাধিক বক্রতার পয়েন্ট। এটি F6 ইউনিটকে সর্বাধিক অ-রৈখিক ব্যাপ্তির মধ্যে কাজ করতে দেয়। সিগময়েড ফাংশনটির স্যাচুরেশন অবশ্যই এড়ানো উচিত, কারণ এটি ক্ষতির ক্রিয়াকলাপটি ধীর গতিবেগ এবং অসুস্থ শর্তযুক্ত সমস্যার দিকে পরিচালিত করবে।

    5) প্রশিক্ষণ প্রক্রিয়া

            প্যাটার্ন স্বীকৃতির জন্য নিউরাল নেটওয়ার্কগুলির মূল ধারাটি তদারকি করা নেটওয়ার্কিং তত্ত্বাবধান করা হয় এবং ক্লাস্টার বিশ্লেষণের জন্য নিরীক্ষণযোগ্য শেখার নেটওয়ার্কগুলি বেশি ব্যবহৃত হয়। গাইডেড প্যাটার্ন স্বীকৃতির জন্য যেহেতু যে কোনও নমুনার প্রকারটি জানা যায়, তাই প্রাকৃতিক বিতরণ প্রবণতা অনুসারে মহাকাশে নমুনার বন্টন আর ভাগ করা হয় না, তবে মহাকাশে এবং বিভিন্ন ধরণের নমুনার মধ্যে অনুরূপ নমুনার বিতরণের উপর ভিত্তি করে। স্থানিক বিভাগের একটি উপযুক্ত পদ্ধতি সন্ধান করুন, বা শ্রেণিবিন্যাসের সীমানা সন্ধান করুন, যাতে বিভিন্ন অঞ্চলে বিভিন্ন ধরণের নমুনা থাকে। এর জন্য একটি দীর্ঘ এবং জটিল শিখন প্রক্রিয়া প্রয়োজন, নিয়মিতভাবে নমুনার স্থান ভাগ করতে শ্রেণিবদ্ধ সীমানার অবস্থানটি সামঞ্জস্য করে, যাতে যতটা সম্ভব কম কয়েকটি নমুনা অ-সমজাতীয় অঞ্চলে বিভক্ত হয়।

           একটি বিবর্তনমূলক নেটওয়ার্ক মূলত একটি ইনপুট-টু-আউটপুট ম্যাপিং is এটি ইনপুট এবং আউটপুটগুলির মধ্যে কোনও নির্দিষ্ট গাণিতিক প্রকাশের প্রয়োজন ছাড়াই ইনপুট এবং আউটপুটগুলির মধ্যে ম্যাপিংগুলি শিখতে পারে। মডেলটি কনভ্যুশনাল নেটওয়ার্ককে প্রশিক্ষণ দেয় এবং নেটওয়ার্কটি ইনপুট এবং আউটপুট জোড়াগুলির মধ্যে ম্যাপিংয়ের ক্ষমতা রাখে। কনভ্যুশনাল নেটওয়ার্ক মেন্টর প্রশিক্ষণ দেয়, সুতরাং এর নমুনা সেটটি ফর্মের ভেক্টর জোড়গুলির সমন্বয়ে গঠিত: (ইনপুট ভেক্টর, আদর্শ আউটপুট ভেক্টর)। এই সমস্ত ভেক্টর জুটিগুলি সিস্টেমটি অনুকরণ করতে চলেছে এমন সিস্টেমের আসল "চলমান" ফলাফল থেকে নেওয়া উচিত। এগুলি প্রকৃত অপারেটিং সিস্টেম থেকে সংগ্রহ করা যেতে পারে। প্রশিক্ষণ শুরুর আগে, সমস্ত ওজনকে কিছু পৃথক ছোট এলোমেলো সংখ্যার সাহায্যে আরম্ভ করা উচিত। "ছোট ছোট এলোমেলো নম্বর" অতিরিক্ত ওজনের কারণে নেটওয়ার্ক কোনও স্যাচুরেশন অবস্থায় প্রবেশ না করে তা নিশ্চিত করার জন্য ব্যবহৃত হয়, যা প্রশিক্ষণের ব্যর্থতার কারণ হয়; "নেটওয়ার্ক" স্বাভাবিকভাবে শিখতে পারে তা নিশ্চিত করতে "আলাদা" ব্যবহার করা হয়। আসলে, যদি ওজন ম্যাট্রিক্স একই নম্বর দিয়ে আরম্ভ করা হয় তবে নেটওয়ার্কটি শিখতে পারে না।

           প্রশিক্ষণ অ্যালগরিদম প্রচলিত বিপি অ্যালগরিদমের সাথে সমান to এটি 4 টি পদক্ষেপ নিয়ে গঠিত, যা দুটি পর্যায়ে বিভক্ত:

    প্রথম পর্যায়ে, এগিয়ে প্রচারের পর্যায়ে:

    ক) নমুনা সেট থেকে একটি নমুনা (এক্স, ওয়াই পি ) নিন এবং এক্সটিতে নেটওয়ার্কে প্রবেশ করুন;

    খ) সংশ্লিষ্ট প্রকৃত আউটপুট গণনা করুন ও পি ।

          এই পর্যায়ে তথ্য ইনপুট স্তর থেকে আউটপুট স্তরে ধাপে ধাপে রূপান্তরিত হয়। প্রশিক্ষণ শেষ করার পরে যখন নেটওয়ার্কটি স্বাভাবিকভাবে চলমান থাকে তখন এই প্রক্রিয়াটিও সম্পাদিত হয়। এই প্রক্রিয়াতে, নেটওয়ার্ক গণনা সম্পাদন করে (প্রকৃতপক্ষে, চূড়ান্ত আউটপুট ফলাফল পেতে প্রতিটি স্তরের ওজন ম্যাট্রিক্স দিয়ে ইনপুট গুণিত হয়):

              ও পি = এফ এন (... (এফ 2 (এফ 1 (এক্স পি ডাব্লু (1) ) ডব্লু (2) ) ... ডাব্লু (এন )

    দ্বিতীয় পর্যায়ে, পিছিয়ে প্রচারের পর্যায়ে

    ক) আসল আউটপুট ও পি এবং সংশ্লিষ্ট আদর্শ আউটপুট Y p এর মধ্যে পার্থক্য গণনা করুন ;

    খ) ত্রুটি হ্রাস করে সামঞ্জস্য ওজন ম্যাট্রিক্স ব্যাকপ্রোপেট করুন।

    )) কনভোলশনাল নিউরাল নেটওয়ার্কগুলির সুবিধা

            কনভোলিউশনাল নিউরাল নেটওয়ার্ক সিএনএন প্রধানত স্থানচ্যুতি, স্কেলিং এবং বিকৃতির অন্যান্য রূপগুলির চালিত দ্বি-মাত্রিক গ্রাফিক্স সনাক্ত করতে ব্যবহৃত হয়। যেহেতু সিএনএন বৈশিষ্ট্য সনাক্তকরণ স্তরটি প্রশিক্ষণ ডেটা থেকে শিখেছে, সিএনএন ব্যবহার করার সময় স্পষ্টত বৈশিষ্ট্য নিষ্কাশন এড়ানো যায় এবং প্রশিক্ষণ তথ্য থেকে স্পষ্টতই শেখা হয়; একইভাবে, একই বৈশিষ্ট্য ম্যাপিং পৃষ্ঠের নিউরনের ওজনের কারণে একই, সুতরাং নেটওয়ার্কটি সমান্তরালভাবে শিখতে পারে, যা একে অপরের সাথে সংযুক্ত নিউরনের নেটওয়ার্কের উপর নির্ভরযোগ্য নেটওয়ার্কের একটি দুর্দান্ত সুবিধা। স্থানীয় ওজন ভাগ করে নেওয়ার বিশেষ কাঠামোর কারণে বক্তৃতা স্বীকৃতি এবং চিত্র প্রক্রিয়াকরণে কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলির অনন্য সুবিধা রয়েছে Their তাদের লেআউটটি আসল জৈবিক নিউরাল নেটওয়ার্কের কাছাকাছি We ওজন ভাগ করে নেওয়ার কারণে নেটওয়ার্কের জটিলতা হ্রাস পায় বিশেষত বহুমাত্রিক ইনপুট ভেক্টর চিত্রটি সরাসরি নেটওয়ার্কে ইনপুট হতে পারে এমন বৈশিষ্ট্যটি বৈশিষ্ট্য নিষ্কাশন এবং শ্রেণিবিন্যাসের সময় ডেটা পুনর্নির্মাণের জটিলতা এড়িয়ে চলে।

            প্রবাহের শ্রেণিবিন্যাস প্রায় পরিসংখ্যানগত বৈশিষ্ট্যগুলির উপর ভিত্তি করে, যার অর্থ বৈষম্যের আগে নির্দিষ্ট বৈশিষ্ট্যগুলি বের করতে হবে। তবে সুস্পষ্ট বৈশিষ্ট্য নিষ্কাশন সহজ নয় এবং কিছু অ্যাপ্লিকেশন সমস্যার ক্ষেত্রে এটি সর্বদা নির্ভরযোগ্য নয়। কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলি, যা স্পষ্টত বৈশিষ্ট্য নমুনা এড়ায় এবং স্পষ্টভাবে প্রশিক্ষণ ডেটা থেকে শিখতে পারে। এটি কনভ্যুশনাল নিউরাল নেটওয়ার্ককে অন্যান্য নিউরাল নেটওয়ার্ক-ভিত্তিক শ্রেণিবদ্ধীদের থেকে পরিষ্কারভাবে আলাদা করে তোলে এবং কাঠামোগত পুনর্গঠন এবং ওজন হ্রাসের মাধ্যমে বৈশিষ্ট্য নিষ্কাশনকে মাল্টি-লেয়ার পারসেপ্ট্রনে সংহত করে। এটি সরাসরি গ্রেস্কেল ছবি প্রক্রিয়া করতে পারে এবং চিত্র-ভিত্তিক শ্রেণিবিন্যাস প্রক্রিয়া করতে সরাসরি ব্যবহার করা যেতে পারে।

           চিত্র প্রক্রিয়াকরণে সাধারণ নিউরাল নেটওয়ার্কগুলির তুলনায় কনভ্যোলিউশনাল নেটওয়ার্কগুলির নিম্নোক্ত সুবিধা রয়েছে: ক) ইনপুট চিত্রের টপোলজিকাল কাঠামো এবং নেটওয়ার্কটি ভাল মেলে; খ) বৈশিষ্ট্য নিষ্কাশন এবং প্যাটার্ন শ্রেণিবিন্যাস একই সাথে সঞ্চালিত হয় এবং প্রশিক্ষণে একই সময়ে উত্পন্ন হয়; গ) ওজনগুলি c ভাগ করে নেওয়া নেটওয়ার্কের প্রশিক্ষণের প্যারামিটারগুলি হ্রাস করতে পারে, নিউরাল নেটওয়ার্ক কাঠামোটিকে সহজ এবং আরও মানিয়ে যায়।

    7) সংক্ষিপ্তসার

           সিএনএন-তে স্তর থেকে স্তর সম্পর্কের এবং স্থানিক তথ্যের মধ্যে ঘনিষ্ঠ সম্পর্ক এটি চিত্র প্রক্রিয়াকরণ এবং বোঝার জন্য উপযুক্ত করে তোলে। তদুপরি, এটি স্বয়ংক্রিয়ভাবে চিত্রগুলির প্রধান বৈশিষ্ট্যগুলি নিষ্কাশন করতে তুলনামূলকভাবে ভাল কার্য সম্পাদন দেখায়। কিছু উদাহরণে, গ্যাবার ফিল্টারগুলি ভিজ্যুয়াল স্টিমুলিতে মানুষের ভিজ্যুয়াল সিস্টেমের প্রতিক্রিয়া অনুকরণ করার জন্য একটি প্রারম্ভিক প্রাক প্রক্রিয়াকরণ পদক্ষেপে ব্যবহৃত হয়েছে। বর্তমান বেশিরভাগ কাজের ক্ষেত্রে গবেষকরা মুখের স্বীকৃতি, ডকুমেন্ট বিশ্লেষণ এবং ভাষা সনাক্তকরণ সহ বিভিন্ন মেশিন লার্নিং সমস্যায় সিএনএন প্রয়োগ করেছেন। একটি ভিডিওতে ফ্রেমের মধ্যে সমন্বয় সন্ধানের লক্ষ্য অর্জনের জন্য, সিএনএনগুলি বর্তমানে একটি সময়ের সুসংগততার মাধ্যমে প্রশিক্ষিত হয়, তবে এটি সিএনএনগুলির পক্ষে অনন্য নয়।

            হেই, এই অংশটি খুব ভার্জোজ, কিন্তু এটি বিন্দুটি স্পর্শ করে না। উপায় নেই, প্রথমে এটি করা যাক আমি এখনও এই প্রক্রিয়াটি পেরেছি না, তাই আমার স্তরটি সীমাবদ্ধ। এটি পরে পরিবর্তন করা দরকার, হু, হু


  • 0 comments:

    Post a Comment

    New Research

    Attention Mechanism Based Multi Feature Fusion Forest for Hyperspectral Image Classification.

    CBS-GAN: A Band Selection Based Generative Adversarial Net for Hyperspectral Sample Generation.

    Multi-feature Fusion based Deep Forest for Hyperspectral Image Classification.

    ADDRESS

    388 Lumo Rd, Hongshan, Wuhan, Hubei, China

    EMAIL

    contact-m.zamanb@yahoo.com
    mostofa.zaman@cug.edu.cn

    TELEPHONE

    #
    #

    MOBILE

    +8615527370302,
    +8807171546477