시계열 데이터와 분석의 중요성이 나날이 커지고 있습니다. 사물 인터넷, 헬스케어의 전산화, 스마트 시티가 엄청난 양의 시계열 데이터를 만들어내기 때문입니다. 향후 몇 년간 시계열 데이터의 질과 양이 빠르게 성장하면서 그 중요성도 높아질 것입니다.
지속적인 모니터링과 데이터 수집이 점점 더 보편화되면 시계열 분석 시 통계학과 머신러닝 방법을 모두 능숙하게 다루는 능력이 더 중요해집니다. 새롭게 등장하는 가장 유망한 모델들은 실제로 이 두 방법을 결합한 것입니다.
정의부터 시작해봅시다. 시계열 분석time series analysis은 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력입니다. 과거 행동을 진단할 뿐 아니라 미래 행동을 예측하기 위해 시계열 분석을 수행합니다. 이 글은 약 100년 된 통계 모델에서부터 최근에 개발된 신경망 아키텍처까지 아우르는 다양한 접근 방식을 살펴봅니다.
어떠한 기법도 외부와 단절된 환경이나 순전히 이론적인 관심만으로 개발되지 않습니다. 시계열 분석의 혁신은 새로운 형태의 데이터를 수집, 기록, 시각화하는 방법에서 비롯된 결과물입니다. 이어지는 절에서는 시계열 분석을 응용한 다양한 분야에 대해 살펴봅니다.
· · ·
1.1 다양한 응용 분야의 시계열 역사
시계열 분석은 ‘과거가 미래에 어떤 영향을 주는가?’와 같은 인과관계를 다루는 질문으로 요약됩니다. 때때로 이런 질문과 그에 대한 대답은 시계열 분석이라는 하나의 일반화된 학문으로 다뤄지기보다는 분야별로 특정한 상황 속에서 엄격하게 다뤄졌습니다. 그러다 보니 신기하게도 다양한 학문 분야가 시계열 데이터셋을 분석하는 방법에 영향을 끼쳤습니다.
이 절에서는 다음 각 분야에서 다루는 시계열 데이터와 분석에 대한 역사적인 예를 살펴보겠습니다.
곧 배우겠지만, 이들 학문의 발전 속도는 동시대에 활용 가능했던 시계열 데이터와 강한 연관성이 있습니다.
1.1.1 시계열 문제로서의 의학
데이터 주도data-driven 분야인 의학은 수 세기 동안 흥미로운 시계열 분석으로 인류 지식에 기여했습니다. 우선 의학에서 시계열 데이터를 얻을 수 있는 원천의 몇 가지 사례와 그 원천들이 시대에 따라 어떻게 등장해왔는지 살펴보겠습니다.
환자의 예후는 실전 의학에서 매우 중요하지만, 의학의 미래를 예측하는 수학적인 사고는 생각보다 늦게 사용되기 시작했습니다. 여기에는 여러 이유가 있습니다. 통계 및 확률로 세상을 바라보는 것은 최근에 나타난 현상이며, 이러한 학문들은 의료 기술이 발달했을 때도 수 세기 동안 사용할 수 없었습니다. 또한 의사 대부분은 고립된 환경에서 경험을 쌓아야 했습니다. 전문가와 간단한 소통도 할 수 없고, 환자나 인구집단건강을 위한 공식적인 기록을 유지하는 기반 시설도 없었습니다. 초창기 의사들은 통계적 사고에 대해 훈련을 받았더라도, 합리적인 결과를 도출하기 위한 데이터를 가지고 있지 않았을 겁니다.
초창기 의사를 비난하는 것이 아닙니다. 인구집단건강을 위한 시계열의 초기 혁명이 의사가 아닌 모자 장수 덕분에 발생했다는 사실이 그리 놀라운 일이 아니라는 걸 설명하기 위한 것입니다. 몇 세기 전만 해도 도시의 모자 장수들의 기록 보관과 추세를 파악하는 기술은 의사보다 더 뛰어났습니다.
혁신을 이끈 사람은 17세기 런던의 바느질 도구 판매상이었던 존 그란트John Graunt입니다. 그는 1500년대 초반부터 런던 교외에 보관되어 있던 사망 기록에 대한 연구를 시작했고, 이 과정에서 인구통계학을 만들었습니다. 그리고 1662년에 『Natural and Political Observations Made upon the Bills of Mortality』라는 책을 출간했습니다(그림 1-1).
그림 1-1 의학 질문에 시계열식 사고를 적용한 첫 번째 결과물 중 하나인 존 그란트의 사망표
이 책에서 제시하는 생명표life table는 특정 연령대에 있는 사람이 다음 생일 전에 사망할 확률을 의미합니다(생명표는 사망표actuarial table라고도 알려져 있습니다). 그란트는 최초로 생명표를 공식화하여 공표했을 뿐 아니라, 처음으로 사람의 건강을 문서에 기록한 통계학자입니다. [표 1-1]은 라이스 대학교의 통계학 강의 노트에서 인용한 것으로, 그란트의 생명표와 유사한 형태를 띱니다(https://perma.cc/HU6A-9W22).
표 1-1 존 그란트의 생명표에 대한 예
하지만 불행하게도 그란트의 사람 생존에 관한 수학적 사고는 받아들여지지 않았습니다. 의학은 여전히 통계학보다 생리학에 계속 집중했습니다.
그럴 만한 타당한 이유가 있습니다. 첫째, 수 세기 동안 생리학과 해부학에 관한 연구는 의학의 주된 진보를 이끌었습니다. 과학자뿐 아니라 대부분 사람은 가능한 한 오랫동안 안정적으로 적용할 수 있는 연구를 신봉했습니다. 생리학에 집중하여 이끈 성공은 그 이상을 내다볼 필요성을 느끼지 못하게 했습니다. 둘째, 의사를 위한 보고 기반 체계의 미비는 많은 정보를 공유하고 이를 표로 만드는 것을 어렵게 했습니다. 결과적으로, 통계적 방법이 임상적인 관찰보다 우월하다는 정보량이 부족했던 것입니다.
시계열 분석이 주류 의학에 도입된 시기는 통계 및 데이터 분석이 다른 분야에 도입된 시기보다도 훨씬 늦습니다. 시계열 분석이 복잡한 기록 관리 시스템을 요구하기 때문입니다. 기록은 시간의 흐름에 따라 서로 연결된 형태여야 하고, 되도록 규칙적인 간격으로 수집되어야만 합니다. 이러한 이유로 정부와 과학 기반 시설이 긴 시간 동안 기록된 질 좋은 데이터를 보장하는 최근에 와서야 역학epidemiology 시계열을 적용하는 움직임이 점진적으로 나타나고 있습니다.
시계열 분석을 개인화한 헬스케어에 사용하는 것도 이와 유사하게 여전히 덜 성숙한 도전 분야로 남아 있습니다. 시간이 지나도 일관된 데이터셋을 만드는 것은 어렵기 때문입니다. 소규모 사례를 기초로 한 연구에서도 집단 개개인과 연락하고 지속적인 참여를 끌어내기란 매우 어렵고 비용이 많이 듭니다. 이러한 연구는 오랫동안 반복적으로, 심지어 과도하게 이루어진 뒤에야 비로소 그 분야의 표준 위치에 오르게 되는데, 이것은 재정 및 관리의 어려움에도 불구하고 그 데이터가 인명 같은 매우 중요한 문제를 다루기 때문입니다.
의료 기구
환자에 대한 시계열 분석은 인구 차원의 건강 연구보다 훨씬 일찍 시작됐으며 성공적인 역 사를 지닙니다. 의학에서 시계열 분석은 실용적인 심전도electrocardiogram(ECG)가 처음으로 발명된 1901년부터 가능했습니다. 심전도는 심장에 흘려보낸 전기신호를 기록해 심장의 상태를 진단하는 기술입니다(그림 1-2). 또 다른 시계열 기기는 1924년 의학계에 소개된 뇌전도electroencephalography(EEG)로, 비침습적으로 두뇌의 전기 임펄스를 측정합니다(그림 1-3). 이런 기기들은 의료종사자에게 시계열 분석을 의료 진단에 적용할 수 있는 기회를 더 제공했습니다.
그림 1-2 1877년, 의학박사 오거스터스 D. 월러
Augustus D. Waller가 발표한 논문 「A Demonstration on Man of Electromotive Changes Accompanying the Heart’s Beat」에서 발췌한 초기의 ECG 기록
그림 1-3 1924년 처음으로 기록된 사람의 EEG
(출처: https://oreil.ly/P_M4U)
이 두 시계열 기기는 2차 산업혁명이 창출한 기술로 생겨난 향상된 의학이라는 큰 흐름의 일부에 불과했습니다.
ECG와 EEG라는 시계열을 분류하는 기법은 갑작스러운 심장 문제나 발작을 측정하는 등 매 우 실용적인 목적을 위해 활발히 연구되고 있습니다. 이런 측정은 풍부한 데이터의 원천이 되지만, 특정 질병을 가진 환자에게만 적용할 수 있다는 한 가지 ‘문제’가 있습니다. ECG나 EEG와 같은 장비들은 오랜 시간에 걸쳐 기록된 시계열 데이터를 생성하지 못합니다. 환자에게 질병이 나타나기 직전에 대한 측정이나 장기적인 측정이 이루어지는 경우는 드물기 때문에 이런 기기들로 사람의 건강과 행동을 넓은 시각으로 이해하는 것은 어렵습니다.
데이터 분석 관점에서 볼 때, 다행히 ECG와 같은 장비가 의학 시계열에 지배적이던 시대를 벗어나고 있습니다. 웨어러블 센서wearable sensor와 ‘스마트’한 전자 의학 기기의 출현은 건강한 많은 사람이 자동 또는 최소한의 입력만으로도 일상생활에서 자신의 건강 상태를 측정할 수 있게 해주었습니다. 환자뿐 아니라 건강한 사람의 장기적 변화가 담긴 고품질의 데이터를 계속 수집할 수 있게 된 것입니다. 이런 변화는 지난 세기 아픈 사람의 데이터만 측정할 수 있어서 접근성이 매우 제한됐던 의학 시계열 데이터와는 매우 대조됩니다.
최근 뉴스 보도에 따르면, 의학에 정통하지 않던 회사들도 의학 분야에 뛰어들고 있다고 합니다. 대형 소셜 미디어 회사, 금융기관, 대형 소매업체 등 매우 다양합니다. 이들 모두 대규모의 데이터를 사용해서 헬스케어를 간소화하려는 계획을 세우고 있는 것으로 보입니다.
헬스케어 분야에는 회사만 새롭게 유입된 것이 아니라, 새로운 기술도 등장했습니다. 개인의 DNA에 맞춰진 의약품의 등장은 점점 더 많은 시계열 데이터가 측정되고, 그 가치가 상승한다는 것을 의미합니다. 헬스케어 및 시계열 분석 모두, 급증하는 현대의 헬스케어 데이터셋과 헬스케어 부문의 수익성 좋은 데이터셋 덕분에 향후 진전을 이룰 가능성이 높습니다. 시계열은 어떤 형태로든 인류에게 이득을 주고 발전하고 있습니다.
1.1.2 일기예보
많은 사람이 오랫동안 일기예보에 집착한 이유가 있습니다. 고대 그리스 철학자 아리스토텔레스의 관련 논문(「Meteorology」)의 내용은 온통 기상에 대한 탐구입니다. 기상에 대한 원인과 연속적인 사건에 대한 그의 생각은 르네상스 시대까지 지배합니다. 당시 과학자들은 기상 데이터 수집에 새롭게 발명된 도구를 사용하기 시작했습니다. 예를 들어 대기 상태를 측정하는 기압계 같은 것으로 매일 또는 매시간 시계열을 기록했습니다. 이렇게 기록된 내용은 일기장, 지방 관측소의 노트 등을 포함해 다양한 수단으로 보관되었고, 수 세기 동안 서구 문명권에서 날씨를 추적하기 위한 유일한 방법이었습니다.
1850년대가 되어서 기상 기록을 위한 기반 시설이 갖춰졌습니다. 정확히는 로버트 피츠로이Robert FitzRoy가 선원들을 위해 기상 관련 자료를 기록하고 공표할 새로운 영국 정부의 기상 국장으로 임명되어 재직하던 시기입니다. 피츠로이는 일기예보weather forecast라는 단어를 최초로 만든 사람입니다. 그 당시에는 피츠로이가 내놓은 예보가 비판을 받았지만, 지금은 당시의 과학 수준을 훨씬 뛰어넘고 시대를 앞섰다는 평가를 받고 있습니다. 그는 일기예보를 신문에 인쇄하는 방식을 정립하기도 했고, 첫 번째로 인쇄된 일기예보는 런던의 『타임스』에 실렸습니다. 피츠로이는 현재 ‘예보의 아버지’로 유명합니다.
여러 대기 측정법이 활용된 지 수백 년이 지난 19세기 후반, 전신telegraph은 여러 지역 대기 상태를 시계열로 빠르게 모으는 수단으로 사용됐습니다. 이런 방법은 1870년대에 전 세 계의 많은 곳에 표준으로 자리 잡았고, 지리적으로 다른 위치의 날씨를 기반으로 현지 날 씨를 예측하는 데 처음으로 의미 있는 데이터셋을 생성했습니다.
이렇게 구축된 데이터셋의 도움으로 20세기에 들어서는 일기예보를 위한 컴퓨터 시스템이 활발히 구축됐습니다. 기상을 계산하려는 초기 시도는 엄청난 노력을 기울였지만 결과가 처참했습니다. 물리학자와 화학자는 명확히 증명된 자연현상의 개념을 가지고 있었지만, 모든 자연현상을 한 번에 고려하기엔 경우의 수가 너무 많았습니다. 이를 해결하기 위해 만든 방정식은 누군가가 그 계산을 처음으로 시도해봤다는 사실만으로도 과학적인 진보라고 평가될 정도로 매우 복잡했습니다.
계산의 정확성과 효율성을 높이기 위해 간단한 물리 방정식을 만들기 위한 연구는 수십 년간 계속되었습니다. 물리적 원리와 경험적으로 입증된 방법을 혼합하여 계산 방법을 알아낼 수 있었고, 이러한 방법이 현대 기상 예측 모델에도 적용되고 있습니다.
오늘날의 여러 정부는 전 세계의 수백, 심지어 수천 개에 이르는 기상관측소에서 기상을 매우 정밀하게 측정합니다. 또한 기상관측소의 위치 및 측정에 사용된 장비와 같은 정밀한 정보를 바탕으로 예측합니다. 이와 같은 노력의 근원은 1870년대에 조직화된 데이터셋뿐 아니라 심지어 현지 기상을 매일 기록한 르네상스 시대의 관행까지를 포함합니다.
안타깝게도 일기예보는 과학을 위기에 빠트린 한 사례이기도 합니다. 그러한 위기는 시계열 예측까지도 포함합니다. 세계 온도에 대한 논쟁이나 허리케인의 이동 경로 예측과 같은 일상적인 시계열 예측조차 정치적으로 악용되었기 때문입니다.
1.1.3 경제성장 예측
시장 생산과 효율성에 대한 지표는 시계열 분석에서 연구할 흥미로운 데이터를 오랫동안 제공했습니다. 과거를 기반으로 미래 경제를 예측하는 것은 흥미로우면서도 시급한 문제였습니다. 이러한 예측은 많은 이익을 얻는 데 유용할 뿐만 아니라 번영을 촉진하고 사회적 재앙을 방지하는 데 도움이 됩니다. 이번에는 경제 예측의 역사에서 발생한 중요한 발전을 살펴보겠습니다.
19세기 말과 20세기 초의 미국과 유럽에서 발생한 일시적 금융 위기는 불안감을 초래했습니다. 이런 불안감으로부터 경제 예측이 생겼습니다. 그 당시 기업가와 연구자들은 경제를 기상 변화와 같은 순환 시스템에 비유할 수 있다는 생각에서 영감을 얻었습니다. 올바르게 측정한다면 경제 예측은 가능하고 경제 추락의 상황을 피할 수 있다고 생각한 것입니다.
심지어 초기 경제 예측은 일기예보와 사용하는 용어도 유사했습니다. 20세기 초, 실제로 경제 예측과 일기예보는 꽤 형편없다는 점에서 비슷했습니다. 하지만 경제학자들의 열망은 최소한의 진전이 가능한 환경을 만들어냈습니다. 그 결과 경제 데이터를 추적하기 위한 다양한 공공 및 민간 기관이 설립됐습니다. 이러한 경제 예측에 대한 초기 노력은 오늘날에도 여전히 사용하는 경제 지표를 만들었습니다. 해당 경제 지표에 대한 기록은 표로 작성되어 공개되므로 모두 이용 가능합니다.
오늘날 미국을 포함한 대부분 국가에는 수천 명의 정부 연구원과 기록 관리자가 있습니다. 이들의 주된 역할은 데이터를 가능한 한 정확히 기록하고 대중에게 공개하는 것입니다(그림 1-4). 이와 같은 관행은 경제성장, 경제 재앙, 호황과 불황 주기 등 괴로운 상황을 방지하는 데 매우 유용합니다. 또한 운송업체, 제조업체, 소규모 사업자, 심지어 농부들에게 미래의 시장 상황을 예측하는 기회를 제공하여 비즈니스가 풍부한 데이터로부터 이점을 누릴 수 있도록 해줍니다. 이 모든 것은 경제 시계열 분석의 초기 형태인 순환 금융 실패의 원인으로 여겨지는 ‘경기순환business cycles’을 식별하려는 시도에서 비롯됐습니다.
그림 1-4 미국 연방 정부는 필수적인 통계와 공식화된 경제 지표를 기록하는 여러 정부 관계 기관과 비영리 단체를 후원합니다
(https://www.nber.org/cycles/cyclesmain.html).
정부가 수집한 경제 데이터 중에서 가장 뉴스거리가 되는 데이터는 인구 전체의 전반적인 경제 복지를 나타내는 데이터입니다. 이런 중요한 정보의 한 예로는 실업 급여를 요구하는 사람의 수에 대한 것입니다. 또 다른 예로는 특정 연도에 대한 정부의 국내 총생산gross domestic product(GDP)과 소득신고에 대한 추산이 있습니다.
이러한 경제 예측에 대한 열망에 힘입어 정부는 데이터 큐레이터인 세금 징수원tax collector이 되었습니다. 이렇게 수집된 데이터는 현대의 경제, 금융 산업, 데이터 과학이 꽃피울 수 있게 해 줬습니다. 경제 문제로 생긴 시계열 분석 덕분에 과거에 정부가 시도했던 어떤 경우보다 현재의 은행권 및 금융 위기를 지혜롭게 극복할 수 있게 되었습니다. 더불어 수백 권에 이르는 시계열 관련 서적이 주로 재무 지표를 이해하기 위한 경제학 교과서 형태로 쓰였습니다.
주식시장
잠시 과거로 돌아가 봅시다. 데이터 수집에 대한 정부의 노력이 큰 성공을 거두자, 민간 기관은 정부가 기록한 데이터의 사본을 만들기 시작했습니다. 상품과 증권 거래소는 시간이 지남에 따라 점점 더 전문적으로 변했고, 금융 연감financial yearbook도 대중화되었습니다. 이러한 변화는 증권 시장 참가자의 수준이 높아지고, 신기술로 가격에 대한 새로운 경쟁과 사고방식 및 자동화가 가능해진 덕분에 일어날 수 있었습니다.
이러한 모든 기록 관리는 직관보다 수학을 통해 시장에서 이윤 창출을 추구하는 방식을 일으켰습니다. 최근에 와서는 머신러닝이 주도하고 있습니다. 이 방식의 초기 개척자는 수학적인 작업을 손으로 수행했지만, 현재의 ‘금융시장 분석가’는 매우 복잡하고 자체적인 시계열 분석 방법을 사용합니다.
리처드 데니스Richard Dennis는 기계적 트레이딩mechanical trading, 또는 알고리즘을 통한 시계열 예측의 선구자 중 한 명입니다. 자수성가형 백만장자 데니스는 터틀turtle이라고 불리는 평범한 사람들에게 거래 시기와 방법 등 자신의 경험을 통해 얻은 귀중한 정보를 가르쳐 성공적인 투자자로 만든 인물로 유명합니다. 이러한 법칙은 1970년대와 1980년대를 걸쳐 발전되었고, 1980년에 일어난 ‘인공지능’에 대한 생각에도 영향을 주었습니다. 당시 현실 세계에서 작동하는 지능적인 기계를 만드는 방법에는 경험적인 방법을 사용하는 패러다임 이 여전히 지배적이었습니다.
그 이후, 많은 ‘기계적인’ 증권 거래자가 이러한 규칙을 수용했고, 결과적으로 혼잡해진 자동화 된 시장의 수익성은 낮아졌습니다. 기계적인 증권 거래자들의 수는 계속 늘어나고, 이들이 축적한 부 또한 계속 증가하므로 이들 사이에서 발생한 치열한 경쟁은 차선책을 찾는 노력으로 이어졌습니다.
1.1.4 천문학
천문학은 항상 물체, 궤도, 측량 그래프를 그리는 데 크게 의존했습니다. 이러한 이유로 천문학자들은 관심 대상을 연구하고 측정 기구를 보정하는 시계열의 달인이라고 볼 수 있습니다. 시계열 데이터의 오래된 역사의 하나는 기원전 800년경 고대 중국에 기록된 흑점에 대한 기록입니다. 이를 시계열 데이터를 고려해보면 이 데이터가 자연현상에 대한 기록 중 가장 잘 기록된 사례라는 것을 알 수 있습니다.
지난 100년간 천문학에서 가장 흥미로웠던 주제들은 시계열과 관련이 깊습니다. 예를 들어 은하 거리를 추정하는 데 사용할 수 있는 다양한 별의 발견이나 시간에 따른 우주의 변화 방식을 이해할 수 있도록 도와주는 초신성과 같이 일시적으로 발생하는 사건의 관측이 있습니다. 파장과 강도로 구성된 시계열 데이터를 실시간 스트리밍 형태로 관찰한 결과입니다. 시계열은 우주에 대해 무엇을 측정하고 알 수 있는지에 대해 근본적인 영향을 미쳤습니다.
더불어 천문학적인 이미지에 대한 관찰은 천문학자가 특정 사건이 발생하는 순간을 포착하게 해줍니다(https://perma.cc/2TNK-2TFW). 이러한 수단이 없었다면 수백 만 년이 걸렸을지도 모릅니다.
지난 수십 년 동안, 공식적인 시계열 형태로 명확한 타임스탬프가 기록된 데이터는 천문학에서 폭발적으로 증가했습니다. 시계열 데이터의 폭증은 천체의 모든 데이터를 수집 가능한 새로운 종류의 다양한 망원경이 있어서 가능했습니다. 일부 천문학자는 시계열을 ‘데이터 홍수’라고 부르기도 했습니다.
1.2 시계열 분석의 도약
대중적인 시계열 모델의 개발을 도운 조지 박스George Edward Pelham Box는 선구적인 통계학자이자 실용주의자였습니다. “현실을 정확히 반영하는 모델은 존재하지 않지만, 일부 모델은 유용하다”라는 유명한 말을 남긴 사람입니다.
박스는 적절한 시계열의 모델을 만드는 것이 데이터에 적합한 모델을 찾는 일반적인 사고방식이라고 언급했습니다. 실제 세상을 묘사하는 모델을 만든다는 것은 그의 설명대로 가능성이 매우 희박한 일입니다. 박스가 1978년에 발표한 이 선언은 시계열 분석의 역사적 시각에 서 보면 이상하리만치 늦게 일어난 일이었지만, 이러한 직관적인 이해에 대한 훈련은 사실 놀랍게도 미성숙했습니다.
예를 들어 1970년에 등장한 박스-젠킨스 방법Box-Jenkins method은 시계열 분석에 근본적인 기여를 했으며 박스를 유명하게 만든 업적 중 하나로 꼽힙니다. 흥미롭게도 이 방법이 처음으로 소개된 것은 학술지가 아닌, 『Time Series Analysis: Forecasting and Control』(Wiley, 2008)라는 통계학 교과서입니다. 이 교과서는 여전히 인기 있으며, 현재 5판(집필 시점 기준)까지 나왔습니다.
본래 박스-젠킨스 모델은 가스로에서 방출된 이산화탄소 농도의 데이터셋에 적용된 것입니다. 가스로에는 특이한 점이 없었지만, 이 방법을 입증하는 데 사용되었던 300개 정도의 데이터셋은 의미 있는 결과를 내는 데 불충분했습니다. 더 큰 가용 데이터셋이 1970년에도 분명히 존재했지만, 많은 양의 데이터로 작업하는 것은 그 당시엔 매우 어려운 일이었습니다. R, 파이썬, C++와 같은 편리한 도구가 세상에 나오기 전이기 때문입니다. 연구자들에게는 적은 양의 데이터와 계산 자원의 최소화에 집중해야 하는 타당한 이유가 있었던 것입니다.
컴퓨터와 함께 개발된 시계열 분석과 예측은 더 큰 데이터셋과 더 쉬운 코딩 도구로 더 많은 실험과 흥미로운 질문에 대답할 수 있는 길을 열었습니다. 롭 하인드먼Rob Hyndman 교수가 작성한 「Abrief historyofforecastingcompetitions」(https://perma.cc/32LJ-RFJW)은 시계열을 사용한 예측 대회가 어떻게 컴퓨터와 비슷한 속도로 발전해왔는지에 대한 적절한 예를 보여줍니다.
하인드먼 교수는 박스-젠킨스 방법이 발표되기 1년 전인 1969년에 노팅엄 대학교 박사 학위 논문으로 ‘시계열 예측 정확도에 대한 최초의 주요한 연구’를 발표했습니다. 이러한 노력은 여러 시계열 예측 대회 개최로 이어졌고, 1970년대 초기에는 대략 데이터 100개로 구성된 대회가 열리기도 했습니다. 꼭 필요하다면 수작업으로도 해볼 만한 정도로 괜찮은 시도였습니다.
1970년대 말 즈음엔, 연구자들은 약 1,000개의 데이터로 구성된 대회를 개최했습니다. 놀라 울 정도로 규모를 키웠습니다. 동시대 최초의 상용 마이크로프로세서, 플로피 디스크의 개발, 애플 등이 개발한 초기의 개인용 컴퓨터, 컴퓨터 언어인 파스칼의 등장과 같은 중요한 사건들이 우연히 함께 일어났습니다. 이러한 혁신 중 일부가 도움을 주었을 가능성이 꽤 높습니다. 이어서, 1990년 말의 시계열 예측 대회는 약 3,000개의 데이터를 제공했습니다. 이러한 데이터는 수집과 관리를 위한 엄청난 양의 작업이 반영된 결과지만, 현재의 가용 데이터양과 비교하면 한참 부족합니다. 현재 시계열 데이터는 곳곳에 있고, 빠른 시일 안에 모든 것이 시계열화 될 것입니다.
가파르게 성장한 데이터셋의 양과 질은 지난 수십 년간 엄청나게 발전한 컴퓨터의 계산능력에 기인합니다. 지난 세월 동안, 하드웨어 기술자는 계산 능력의 기하급수적인 증가를 예측한 무어의 법칙Moore’s law의 추세가 계속 이어질 수 있도록 노력했습니다. 하드웨어는 더 작아지고, 강력해지고, 효율적으로 발전했을 뿐만 아니라 여러 하드웨어를 더 손쉽게 조립하는 것도 가능해졌습니다. 센서가 부착된 휴대용 컴퓨터부터 현대의 인터넷을 가동하는 거대한 데이터 센터 등으로 모든 것을 만들어내는 것이 가능해졌습니다. 가장 최근에는 착용 가능한 컴퓨터, 머신러닝 기법, GPU 등이 연구 데이터의 양과 품질을 혁신시켰습니다.
시계열 데이터는 여러 측면에서 높은 계산 능력을 요구합니다. 따라서 컴퓨터의 계산 능력 증가는 분명히 시계열에 이로움을 가져다줄 것입니다. 늘어난 계산 자원 및 데이터와 함께 시계열 분석은 계속 빠르게 발전할 것입니다.
1.3 통계적 시계열 분석의 기원
통계학은 매우 미성숙한 과학입니다. 통계학, 데이터 분석, 시계열의 진전은 항상 데이터를 언제, 어디서, 어떻게 사용하는지와 데이터의 질적인 측면에 의존적이었습니다. 하나의 학문으로 등장한 시계열 분석은 확률 이론의 진전뿐만 아니라 국가 차원의 기록이라는 흥미로운 목표를 실현 가능하게끔 해줬습니다.
앞서 다양한 학문 관점에서 살펴봤듯이, 지금부터는 시계열 자체를 하나의 학문으로 고려할 것입니다.
시계열 분석이 학문으로 시작할 수 있었던 기준은 자기회귀 모델을 실제 데이터에 적용했기 때문입니다. 이는 1920년까지는 불가능했던 일입니다. 케임브리지 대학교의 통계학 강사로 전향한 실험물리학자인 우드니 율Udny Yule은 흑점 데이터에 자기회귀 모델을 적용했고, 진동 주파수에 맞게 설계된 방법과는 대조적으로 데이터를 바라보는 참신한 방법을 제시했습니다. 그는 자기회귀 모델이 주기성을 가정하지 않은 모델이라는 점을 강조했습니다.
주기가 두 번 이상 발생한 모든 물리적 현상의 데이터에 주기 그래프 분석periodogram analysis을 적용할 때 그 주기가 임의의 파동fluctuation과 겹치고 가려져 있을 것이라는 초기 가설을 세우는 것부터 시작하는 경향이 있습니다. 하지만 이렇게 겹친 파동은 밑바탕이 되는 주기함수의 성향을 바꾸지는 않습니다. 그 가설을 선험적으로 가장 그럴듯한 것으로 볼 이유는 없습니다.
전통적인 모델이 이미 결과를 가정한다는 율의 생각은 사실상 일부 역사적인 영향에서 발전했을 것입니다. 독일은 양자역학의 급성장 이론의 진원지였고, 율은 독일에서 해외 근무를 한 경험 있는 물리학자였습니다. 최근의 발전이 양자역학의 확률적인 본질을 강조한다는 사실을 분명히 알고 있었을 것입니다. 양자역학이 발견되기 전 고전 물리학자들은 많은 것을 가정한 상태에서 누군가의 생각을 모델로 압축했습니다. 그는 이러한 방식의 위험성도 인지하고 있었을 것입니다.
세상은 특히 제2차 세계대전 이후, 체계를 갖추고 기록되었으며 예측이 가능해졌습니다. 이때 비즈니스 분야에서 실전 시계열 분석의 초기 문제들을 제기했습니다. 비즈니스 지향적인 시계열 문제는 중요했고, 시계열의 기원과는 다르게 너무 이론적이지도 않았습니다. 이는 수요 예측, 원자재의 미래 가격 추정, 제조 비용 손실에 대한 대비책과 같은 것을 포함합니다. 이러한 산업의 이용 사례에 있어서 잘 동작하는 기술은 받아들여졌고, 그렇지 않은 기술은 도태되었습니다. 지금도 그렇지만, 그 당시 산업 종사자들은 학계보다 더 큰 데이터셋에 접근이 가능했습니다. 이러한 사실이 산업계에서의 시계열 발전에 이바지했고, 이론적으로 충분히 검증되지 않은 실용적인 기술이 충분한 이해 없이도 널리 사용된 것입니다.
1.4 머신러닝 시계열 분석의 기원
시계열 분석에 적용된 초창기 머신러닝을 살펴보려면 수십 년 전으로 거슬러 올라가야 합니다. 빈번히 인용되는 1969년의 논문 「The Combination of Forecasts」은 예측 성능을 향상하기 위한 방법으로 ‘최고의 하나’를 고르는 것보다 여러 예측의 결합에 대한 생각을 분석했습니다. 전통적인 통계학자 관점에서 보면 처음에는 거부감이 들 수 있지만 앙상블이란 방법은 여러 예측 문제에서 사실상 기준점이 되었습니다. 앙상블 방법은 가능한 모든 모델보다 월등히 뛰어난 모델이나 완벽한 방안을 거부한다는 특징을 가집니다.
좀 더 최근인 1980대 초에는 시계열 분석 및 머신러닝을 다음과 같은 다양한 시나리오에서 사용하기 시작했습니다.
-
컴퓨터 보안 전문가는 해커 및 침입을 식별하기 위한 방법으로 이상 탐지anomaly detection 방법을 제안했습니다.
-
동적시간왜곡dynamic time warping은 시계열의 유사성 ‘측정’에 사용되는 지배적인 방식 중 하나로, 서로 다른 소리 간의 ‘거리’를 합리적으로 빨리 계산할 수 있는 연산력 덕분에 쓰이게 되었습니다.
- 재귀적 신경망이 발명되었고 손상된 데이터로부터 패턴을 추출하는 데 유용했습니다.
아직까지 시계열 분석과 예측은 황금기를 맞이하지 못했습니다. 아직 전통적인 통계 방법, 트리 앙상블이나 선형 모델과 같은 비교적 간단한 머신러닝 기법이 시계열 분석을 지배합니다. 미래를 예측할 위대한 도약을 여전히 기다리고 있습니다.
· · ·