열정/개인 공부

인공 신경망의 역사

lime9 2024. 2. 19. 14:42

기술의 발전에는 '개념 (concept)'과 '구현 (implementation)'이 반드시 필요하다.

기술이 발전하려면 개념이 있어야 하고, 개념이 있더라도 시스템 구현 방법이 없다면 기술을 성숙시킬 수 없다.

 

신경망의 역사는 개념의 혁신과 구현의 발전을 통해 진행됐다. 하지만 이러한 진보는 꾸준히 진화한다기보다는 간헐적으로 일어난다.

 


 

 

19세기 후반에서 20세기 초반에 신경망 분야의 기반이 되는 연구가 일부 진행됐다. 주로 헤르만 폰 헬름홀츠 (Hermann von Helmholtz), 에른스트 마흐 (Ernst Mach), 이반 파블로프 (Ivan Pavlov) 같은 과학자에 의해 물리학, 심리학, 신경 생리학 분야의 학제 간 연구로 이루어졌다. 학습, 시각, 조건 반사 등의 일반적인 이론을 강조했고 뉴런 작동에 관한 구체적인 수학 모델은 포함하지 않았다.

 

 

1940년대에 워런 맥컬록 (Warren McCulloch)과 월터 피츠 (Walter Pitts)의 연구로 현대적 관점의 신경망이 시작됐다. 인공 뉴런 네트워크가 어떤 산술 함수나 논리 함수도 계산할 수 있음을 이론적으로 보여줬다. 이 연구를 신경망 분야의 기원이라고 할 수 있다.

Warren McCulloch

 

McCulloch, W.S., Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics 5, 115–133 (1943). https://doi.org/10.1007/BF02478259

워런 맥컬록과 월터 피츠의 논문

 

위 논문은 최초의 뉴런 수학 모델을 소개하고 있다. 이 모델에서는 뉴런 입력 신호의 가중 합산을 임계치와 비교해 발화 여부를 결정한다. 당시에 알려진 연산 요소들을 기반으로 뇌가 무엇을 하는지를 최초로 설명하고자 했다. 이 논문에서는 단순한 신경망이 임의의 산술이나 논리 함수를 계산할 수 있음을 보여줬다.

 

초록 부분을 보면, 신경활동의 "all-or-none" 특성으로 인해 이들 간의 관계는 명제 논리로 표현될 수 있다고 소개한다.

Because of the "all-or-none" character of nervous activity, neural events and the relations among them can be treated by means of propositional logic.

 

현대 신경망에서의 activation function의 개념과 동일한 것을 확인할 수 있다. 결국 activation function도 뉴런의 특성을 모방한 것이므로 위 논문에서 발전된 개념으로 생각할 수 있을 거 같다.

 

 

이어서 도널드 헵 (Donald Hebb)은 파블로프가 발견한 전형적인 조건 반사가 개별 뉴런의 특성으로 인해 생성된다는 사실을 제시했다. 그는 생체 뉴런의 학습 메커니즘을 제시했다.

 

헵의 책, 행동의 조직

 

D. O. Hebb, The Organization of Behavior. New York: Wiley, 1949. https://pure.mpg.de/rest/items/item_2346268_3/component/file_2346267/content

 

이 책의 주요 전제는 '행동은 뉴런의 작용으로 설명할 수 있다'는 것이다. 이 책에서 헵은 세포 수준의 학습 메커니즘을 가정하는 최초의 학습 규칙을 제시했다. 헵은 생물학에서 전형적인 조건 반사가 개별 뉴런의 특성 때문에 생성된다고 주장했다.

 

 

1950년대 후반에 프랭크 로젠블랫 (Frank Rosenblatt)이 퍼셉트론 네트워크 (perceptron network)와 관련 학습 규칙을 발명하면서 인공 신경망의 실용적인 응용이 처음 나오게 됐다.

Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519

 

로젠블랫은 최초의 실용적인 인공 신경망인 퍼셉트론을 제안한다. 로젠블랫과 동료들은 퍼셉트론 네트워크를 만들어서 패턴 인식이 수행되는 것을 보였는데, 이 연구가 초기에 성공하면서 신경망 연구에 많은 관심을 불러일으켰다. 하지만 기본 퍼셉트론 네트워크는 제한된 부류의 문제만을 풀 수 있다는 사실이 밝혀졌다. 즉, 선형분류 문제만을 풀 수 있어 XOR 문제는 풀지 못한다!

 

 

버나드 위드로 (Bernard Widrow)와 테드 호프 (Ted Hoff)는 거의 동시에 새로운 학습 알고리즘을 소개해 이를 로젠블랫의 퍼셉트론과 구조 및 기능이 비슷한 적응형 선형 신경망 (Adaptive linear neural network)를 훈련시키는 데 사용했다.

Bernard Widrow and Marcian E. Hoff, "Adaptive switching circuits," 1960 IRE WESCON Convention Record, New York: IRE Part 4, pp. 96-104, 1960.

 

이 논문에서는 빠르고 정확하게 학습할 수 있는 적응형 퍼셉트론과 유사한 네트워크를 설명한다. 시스템이 입력과 각 입력별로 희망 출력 분류를 가지며, 실제 출력과 희망 출력 간에 오류를 계산할 수 있다고 가정했다. 가중치는 평균 제곱 오차를 최소화하도록 내리막 경사법을 이용해 조정될 수 있다(최소평균 제곱 오차 Least mean square error 혹은 LMS 알고리즘). 위드로-호프 학습 규칙은 오늘날에도 여전히 사용되고 있다.

 

 

로젠블랫과 위드로의 네트워크는 모두 같은 근본적인 한계가 존재했다. 마빈 민스키 (Marvin Minsky)와 시모어 페퍼트 (Seymour Papert)는 자신들이 쓴 책에서 이와 같은 한계를 널리 알렸다.

 

마빈 민스키와 시모어 페퍼트의 책, Perceptrons

 

M. Minsky and S. Papert, Perceptrons, Cambridge, MA: MIT Press, 1969.

 

퍼셉트론 네트워크가 학습할 수 있는 것을 판단하는 데 주력했던 최초의 엄격한 연구가 포함된 역사적인 책이다. 퍼셉트론의 한계를 설명하고 그 한계를 극복하기 위한 방향을 제시하기 위해 퍼셉트론을 공식적으로 논의할 필요가 있었다. 안타깝게도 이 책에서는 퍼셉트론의 한계가 신경망 분야의 막다른 길을 가리키고 있음을 비관적으로 예측했다. 이런 예측은 사실이 아니었지만 이 책은 한동안 연구와 연구 투자를 동결시켰다.

 

로젠블랫과 위드로는 이 점을 인식하고 이를 극복하기 위해 새로운 네트워크를 제안했다. 하지만 더 복잡해진 네트워크를 훈련할 수 있는 학습 알고리즘을 만들지는 못했다. 민스키와 페퍼트에 영향을 받은 많은 연구자들은 신경망 연구 분야에서 떠나게 되었다. 수십 년 동안 신경망 연구는 대부분 중단됐다. 이 시기를 첫 번째 AI winter라고 한다.

인공지능의 역사

 

하지만 일부 중요한 연구는 1970년대에도 지속됐다. 1972년 튜보 코호넨 (Teuvo Kohonen)과 제임스 앤더슨 (James Anderson)은 메모리처럼 작동하는 새로운 신경망을 각자 독립적으로 개발했다. 스티븐 그로스버그 (Stephen Grossberg)는 이 기간동안 자기 조직 네트워크 (self-organizing network)에 대한 연구를 매우 활발히 했다.

T. Kohonen, "Correlation Matrix Memories,"  IEEE Transactions on Computers, vol. 21, no. 4, pp. 353-359, April 1972, doi: 10.1109/TC.1972.5008975.

 

코호넨은 연상 메모리를 위한 상관 관계 행렬 모델을 제안했다. 이 모델은 입력과 출력 벡터 사이에 연관성을 학습하기 위해 외적 규칙 (outer product rule, 헵의 규칙 Hebb rule으로도 알려져 있음)을 이용해 훈련된다. 네트워크의 수학적 구조가 강조됐다. 앤더슨은 코호넨과 독립적으로 연구했음에도 불구하고 긴밀히 연관된 논문을 동시에 발표했다.

J. A. Anderson, "A simple neural network generating an interactive memory," Mathematical Biosciences, Vol. 14, no. 3–4, pp. 197-220, 1972. https://doi.org/10.1016/0025-5564(72)90075-2.

 

앤더슨은 연상 메모리 (Associative memory)를 위한 '선형 연상 메모리 (linear associator)' 모델을 제안했다. 이 모델은 입력과 출력 벡터 사이에 연관성을 학습하기 위해 일반화된 헵 가설 (Hebb postulate)를 사용해 훈련됐다. 또한 네트워크의 생리학적 타당성이 강조됐다.

Grossberg, S. Adaptive pattern classification and universal recoding: I. Parallel development and coding of neural feature detectors. Biol. Cybernetics 23, 121–134 (1976). https://doi.org/10.1007/BF00344744

 

그로스버스는 시각 시스템을 기반으로 한 자가 조직 신경망을 설명한다. 단기 메모리와 장기 메모리 메커니즘을 구성하는 네트워크는 연속 시간 경쟁 네트워크 (contonuous-time competitive network)다. 이 네트워크는 적응 공명 이론 네트워크 ART (Adaptive resonance theory) network의 기반이 된다.

 

 

1960년대 후반에는 새로운 아이디어와, 실험을 할 수 있는 강력한 컴퓨터가 없었기 때문에 신경망에 대한 관심이 주춤했었다. 1980년대에 이 두 가지 장애물이 극복되자 신경망 연구가 극적으로 증가했다. 이때, 두 가지 새로운 개념이 신경망을 부활시키는 데 큰 기여를 했다. 첫 번째는 특정 부류의 순환망 (recurrent network) 작동 방식을 설명하기 위해 통계 역학을 사용했다. 순환망은 연상 메모리로 사용될 수 있다. 이 내용은 물리학자 존 홉필드 (John Hopfield)가 쓴 논문에 제시되어 있다.

J. J. Hopfield, "Neural networks and physical systems with emergent collective computational abilities," Proceedings of the National Academy of Sciences, Vol. 79, pp. 2554-2558, 1982.

 

홉필드는 내용 주소화 신경망 (content-addressable neural network)을 설명하고, 신경망의 작동 방식과 능력에 대한 명확한 그림을 제시한다.

 

 

1980년대의 두 번째 핵심적인 발전은 다층 퍼셉트론 네트워크를 훈련시키기 위한 역전파 알고리즘 (backpropagation algorithm)이다. 역전파 알고리즘은 몇몇 연구자들에 의해 독립적으로 발견됐다. 가장 영향력 있는 역전파 알고리즘은 데이비드 루멜하트 (David Rumelhart)와 제임스 맥클레랜드 (James McClelland)가 발표한 것과 제프리 힌턴 (Geoffrey Everest Hinton)이 발표한 것이다. 

D. E. Rumelhart and J. L. McClelland, eds., Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1, Cambridge, MA: MIT Press, 1986.
Rumelhart, D., Hinton, G. & Williams, R. Learning representations by back-propagating errors. Nature 323, 533–536 (1986). https://doi.org/10.1038/323533a0

 

위 두 논문은 1980년대 신경망 분야의 관심을 부활시키는 데 주요 영향을 미쳤다. 이 논문은 다층 네트워크를 훈련시키기 위한 역전파 알고리즘을 제시하고 있다. 이를 통해 1960년대 민스키와 페퍼트가 비판했던 내용에 대한 답변을 한 것으로 볼 수 있다.

오류 역전파 알고리즘 개념도

 

이 새로운 개념의 개발은 신경망 분야에 새롭게 활기를 불어넣었다. 1980년대 이후 수천 건의 논문이 작성됐고, 수많은 신경망의 응용이 발견됐으며, 신경망 분야는 새로운 이론과 실용적인 연구로 활기가 넘쳤다. 이처럼 발전은 늘 '느리지만 확실하지'는 않다. 극적으로 진보되는 시기와 상대적으로 정체되는 시기가 있다.

 

 

이후 1990년대 인공신경망 연구는 기울기 소실 문제 등 한계에 부딪히며 어려운 시기를 보내야 했다. 연구에 대한 지원과 투자가 끊기고, 수많은 연구자들이 떠나가는 두 번째 AI winter가 찾아왔다. 하지만 제프리 힌턴은 계속해서 신경망 연구를 진행하며 2006년 논문을 통해 기존 신경망의 한계를 극복하는 알고리즘을 제안한다.

Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh; A Fast Learning Algorithm for Deep Belief Nets. Neural Comput 2006; 18 (7): 1527–1554. doi: https://doi.org/10.1162/neco.2006.18.7.1527

 

이 논문은 심층 신뢰 신경망 (Deep Belief Network, DBN)이란 새로운 알고리즘으로 기존 신경망의 한계를 극복하고, 본격적인 딥러닝의 시대를 열었다. DBN은 제한 볼프만 머신을 여러 층으로 쌓아 올린 형태로 사전 학습을 통해 기울기 소실 문제를 해결하고, 학습 도중에 고의로 데이터를 누락시키는 방법을 사용하여 새로운 데이터를 잘 처리하지 못하는 문제까지 해결한다.

 

 

1989년 힌턴의 지도를 받은 얀 르쿤 (Yann LeCun)과 요슈아 벤지오 (Yoshua Bengio)가 합성곱 신경망 (Convolution Neural Network, CNN)을 완성한다. 기존 볼츠만 머신에 역전파 알고리즘을 결합하여 구현한 심층 신경망 (Deep Neural Network, DNN)으로 딥러닝의 전성기를 열었다. 이를 적용한 AlexNet이 2012년 ILSVRC (ImageNet large scale visual recognition challenge)에서 압도적 성적을 차지하며 이후 깊은 구조 (Deep architecture) 기반의 딥러닝 알고리즘이 주류를 이루게 된다.

Y. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, vol. 1, no. 4, pp. 541-551, Dec. 1989, doi: 10.1162/neco.1989.1.4.541.

 

 

이처럼 신경망의 진보는 대부분 새로운 개념과 관련되어 있으며, 혁신적인 신경망 구조와 훈련 규칙 같은 것들이 이에 해당된다. 중요한 것은 새로운 개념을 테스트할 수 있는 강력하고 새로운 컴퓨터가 존재하는지 여부다.