논문번역- word2vec Parameter Learning Explained-Xin Rong 2
1 Continuous Bag-of-Word Model
1.1 One-word context
We start from the simplest version of the continuous bag-of-word model (CBOW) introduced in Mikolov et al. (2013a). We assume that there is only one word considered per context, which means the model will predict one target word given one context word, which is like a bigram model. For readers who are new to neural networks, it is recommended that one go through Appendix A for a quick review of the important concepts and terminologies before proceeding further
1 연속적 Bag-of-Word 모델
1.1 한 단어짜리 문장
우리는 연속적 Bag-of-Word 모델의 가장 간단한 버젼으로 부터 시작할 것이다. 한 문장 당 하나의 단어만이 고려된다고 가정해보자. 이는 bigram 모델처럼, 모델이 하나의 주어진 문장에서 하나의 단어만을 예측한다는 말과 같다. 신경망이 처음인 독자들에게 권하건데, 논의를 지속하기 전에 부록 A로 가서 신경망에 대한 중요한 개념과 전문용어를 숙지하고 오면 좋을 것이다.
Figure 1 shows the network model under the simplified context definition2 . In our setting, the vocabulary size is V , and the hidden layer size is N. The units on adjacent layers are fully connected. The input is a one-hot encoded vector, which means for a given input context word, only one out of V units, {x1, · · · , xV }, will be 1, and all other units are 0.