딥러닝을 이용한 액티그래피 데이터에서의 수면장애 예측
Prediction of Sleep Disorder From Actigraphy Data Using Deep Learning
Article information
Trans Abstract
Objectives
The aim of this study was to classify polysomnography (PSG)-based sleep disorders using actigraphy data using a convolutional neural network (CNN).
Methods
Actigraphy data, PSG data, and diagnoses were obtained from 214 patients from a single-center sleep clinic. Patients diagnosed with circadian sleep disorders, narcolepsy, or periodic limb movement disorders were excluded. From the actigraphy data, three types of data were selected from the first 5 days, namely, sleep-wake status, activity count, and light exposure per epoch. The data were processed into a two-dimensional array with four instances, namely, 24-hour full-day data and data for 6, 8, and 10 hours timepoints after sleep onset, and then analyzed. Using a CNN, we attempted to classify the processed data into PSG-based diagnoses.
Results
Overfitting of the training data was observed. The CNN showed near-perfect accuracy on the test data, but failed to classify the validation data (area under the curve: 24-hour full-day data: 0.6031, 6 hours after sleep onset: 0.5148, 8 hours: 0.6122, and 10 hours: 0.5769).
Conclusions
The lack and inaccuracy of data were responsible for the results. A higher sampling rate and additional ancillary data, such as PSG or heart rate variability data, are necessary for accurate classification. Additionally, alternative approaches to machine learning, such as transformers, should be considered in future studies.
서 론
수면의 질은 삶의 질과 매우 밀접한 관계가 있으며[1], 이를 저해하는 수면 장애의 정확한 진단은 매우 중요하다. 진단을 위한 검사로는 수면다원검사(polysomnography, PSG) [2] 및 액티그래피(actigraphy) [3], 수면일기 등이 있으나, 정확한 진단을 위해서는 의료기관 방문 및 다수의 장치 부착을 필수로 하여 첫날밤 효과(first night effect) [4] 등의 바이어스가 발생할 수 있다는 것과 검사 자체가 불편하다는 단점이 있다. 이에 재택 환경에서의 수면 진단을 위한 장치 및 검사의 개발이 활발히 진행되고 있으며, 휴대형수면다원검사(portable monitoring, PM) [5], 스마트 웨어러블 장치(smart wearable devices) [6], 침대 센서(bed sensor) [7] 등 다양한 시도가 이루어지고 있다. 수면 검사의 경우, 수시간 혹은 수일에 걸친 다방면에서의 생체 데이터가 도출되기 때문에, 데이터의 판독만 하더라도 상당한 인력과 시간을 요구하며, 이에 인공지능이나 기계학습을 활용하고자 하는 연구 또한 진행되고 있다[8].
액티그래피는 손목시계 형태의 장치로, 수일간의 일과 및 수면 시간 중 광노출량 및 활동량 변화를 측정하여 일중 수면-각성 리듬을 파악하여 주로 일주기성 수면 장애를 진단하는 검사에 활용된다. 수면다원검사에 비하여 비교적 착용에 불편이 없고 활용이 쉬운 장치이며, 이 장치를 사용한 일주기성 수면 장애 혹은 수면 규칙성에 따른 질병 위험도의 예측 등도 연구된 바 있다[9].
한편, 일주기성 수면 장애 이외 수면 장애 중에서 가장 흔한 질환으로 폐쇄수면무호흡(obstructive sleep apnea, OSA), 정신생리불면증(psychophysiological insomnia, PPI) [10] 및 이 두가지가 모두 동반된 co-morbid insomnia and sleep apnea (COMISA) [11]가 있으며, 많은 경우 입면 장애, 수면 분절, 혹은 주간 졸림증이 동반되어 있다. 통상 이들의 진단은 PSG 혹은 휴대형수면다원검사(PM) [5] 등 호흡 모니터링을 포함한 검사를 요한다.
액티그래피는 위와 같은 질병의 진단에 사용되지는 않으나 이들 질병이 동반하는 입면 장애, 수면 분절은 수면다원검사 결과지의 수면 도표(sleep hypnogram) 등에서도 확인되기 때문에 이의 패턴을 검출해내어 수면다원검사와 대응시키거나[12] 휴대형 호흡 모니터링과 연계하여 진단에 활용하는 등의[1]3 연구가 이루어졌다.
이들 질병을 진단하는데 필요한 검사들은 모두 장치 부착 및 의료기관의 방문을 요한다는 불편함이 있어 수면다원검사나 호흡 모니터링 없이도 이들을 진단하거나 진단의 보조가 될 지표를 찾는다면 진단의 간소화 혹은 의료기관의 방문 유도에 큰 도움이 될 것으로 판단된다.
이에 본 연구에서는 PSG와 액티그래피 검사를 모두 받은 환자들의 데이터를 토대로 인공 신경망을 통해 패턴을 검출해내어 액티그래피 데이터로부터 OSA, PPI 혹은 COMISA 등의 PSG 진단이 예측 가능할지 확인하였다.
방 법
환자 데이터 수집
2014-2022년 사이 서울소재 일개 상급종합병원 수면 클리닉에서 불면증을 주소로 내원한 환자 중 액티그래피(Actiwatch 2; Phillips Respironics, Murrysville, PA, USA)와 PSG를 같이 진행한 환자 중 수면주기장애(circadian sleep disorder) 및 기면병(narcolepsy), 주기적사지운동장애(periodic limb movement disorder)로 진단받은 환자들을 제외한 데이터를 후향적으로 수집하였다. 액티그래피 데이터 기준 1일 중 최소 22시간, 최소 5일간 액티그래피를 착용한 환자 데이터만 유효 분석 데이터로 설정하였으며, 유효 착용 기간이 부족한 환자 및 중복된 검사를 제외하여 총 214명분의 유효 데이터가 수집되었다.
수집된 액티그래피 데이터는 5-21일분까지 확인되었으며, 기본단위시간(epoch)의 길이는 15초-2분으로 다양하였다. 수면-각성 여부의 판정에 대하여 본 연구에서는 default setting을 사용하였다(medium activity threshold, 10 minutes) [14]. 또한 액티그래피 상에서 산출된 지표-수면 잠복 시간(sleep onset latency, SOL), 총 수면시간(total sleep time, TST), 수면 효율(sleep efficiency) 및 입면 후 각성시간(wakefulness after sleep onset, WASO)을 수집하였다.
PSG의 경우, 총 침상시간(time in bed, TIB), 총 수면시간(TST), 수면잠복기(SOL), 입면 후 각성시간(WASO), 전체 수면 시간 중 N1, N2, N3, REM 수면의 비율, 총 각성 지수(total arousal index), 자발적 각성 지수(spontaneous arousal index) 및 무호흡-저호흡지수(apnea-hypopnea index, AHI) 데이터를 수집하였다. 상기의 데이터를 기반으로 Table 1의 기준 하 환자들을 진단하여 분류하였다.
설문지의 경우, 외래 추시 및 PSG 검사 시 한글판 수면의 질 척도(Pittsburgh Sleep Quality Index, PSQI) [15,16], 불면증 심각도 척도(Insomnia Severity Index, ISI) [17,18], 한글판 Beck 우울척도(Korean Beck Depression Inventory-II) [19,20]를 측정하였다.
본 연구에 사용된 연구 기준, 방법 및 평가는 삼성서울병원 기관윤리심의위원회의 심의(승인번호 2021-04-021)와 동의 면제 승인을 획득하였으며 기관윤리심의위원회의 관리 감독 하에 시행되었다.
데이터 선택 및 전처리
수집된 액티그래피 데이터는 Actiware version 5.70 sleep software (Philips Respironics)를 이용하여 쉼표로 구분된 숫자 파일(.csv) 형태로 출력하였으며, Python 프로그래밍 언어를 이용하여 데이터의 전처리를 진행하였다. 액티그래피 데이터 중 epoch 내의 수면-각성 상태 여부(이진법), 활동량 계수(physical activity count, 정수형), 백색광 노출량(light exposure, lux, 소수점 아래 2자리까지의 수) 및 액티그래피에 의하여 판정된 수면-각성 주기(수면 개시 시각 및 각성 시각)를 사용하였다. 첫 5일간의 데이터를 사용하였으며, epoch의 길이는 분석의 일관성을 위해 2분으로 정규화(normalization) 하였다.
액티그래피는 24시간 전체의 일과 및 수면 시간을 기록하기 때문에 수면 분절 뿐만 아니라 주간 졸림증에 대하여 미치는 영향도 파악이 가능할 것으로 판단하였으며, 이에 24시간 전체에 대한 분석 및 수면 후 일정 시간(6, 8, 10시간) 범위를 대상으로 설정하여 분석하였다. 이 총 4가지 경우에 대하여 데이터를 선택하여 1일 각각 720/180/240/300개 epoch별 데이터를 산출하였으며, 5일간의 데이터를 병렬로 연결하여 2차원 배열로 도출(15×720, 15×180, 15×240, 15×300) 및 이미지 파일로 변환하였다(Figs. 1 and 2).
기계 학습 및 분석
Matlab R2023b Neural Network Designer를 사용하여 합성곱신경망(convolutional neural network, CNN) [21]을 작성하였으며, CNN의 구조는 Fig. 3과 같다. 입력으로는 상기의 전처리를 통하여 도출된 이미지를 사용하였으며, 출력으로는 Table 1에서의 진단명 4가지 중 하나로 하여 입력된 이미지를 분류하도록 하였다(Solver: sgdm, Initial learn rate=0.01, Minimum batch size=128, Max epochs=30). 수집된 데이터 중 80%는 학습 데이터로, 20%는 테스트 데이터로 무작위로 나누어 학습하였다. 모델 평가 방법으로는 모델 분류의 정밀도(precision), 특이도(recall), 정확도(accuracy), F1 score 및 area under the curve (AUC) 값을 사용하였고, 5회 반복하여 평균값을 기록하였다.
통계 검정
통계 검정 소프트웨어로는 IBM SPSS Version 27 (IBM Corp., Armonk, NY, USA)을 사용하였다. 환자들에게서 수집된 PSG 데이터 및 설문지 데이터의 경우, Kruskal-Wallis 검정 및 Dunn’s post-hoc analysis를 통하여 질환군 별로 비교하였으며, 범주형 데이터의 경우 카이자승 검정법으로 통계적 유의성을 검정하였다. 통계적 유의성 기준은 p<0.05로 하였다.
결 과
환자 진단명 및 각종 지수
214명의 환자 중 OSA는 55명, PPI는 45명, COMISA는 87명, 그리고 정상군은 27명으로 각각 진단되었다. COMISA 환자군이 정상군, PPI 환자군에 비하여 연령대가 높았으며(median [IQR], COMISA: 60.0 [56.6, 64.9], PPI: 51.9 [42.7, 58.7], 정상군: 41.8 [25.4, 58.8], p<0.001), OSA 환자군이 다른 질환 환자군에 비하여 여성 비율이 낮았다(OSA: 47.3%, PPI: 86.7%, COMISA: 66.7%, 정상군: 74.1%, p<0.001). 액티그래피 상 산출된 지수 상에서는 질환군 별로 유의한 통계학적 차이가 없었다(SOL: p=0.875, TST: p=0.143, sleep efficiency: p=0.155, WASO: p=0.844).
PSG 수치(parameter) 및 수면 관련 설문 지수 상에서는 Table 1의 진단 기준 상 ISI와 더불어 PPI, COMISA 환자군에서 PSQI 수치가 OSA, 정상군에 비하여 유의하게 높았으며(median [IQR], PPI: 14 [11, 17], COMISA: 14 [12, 16], OSA: 0 [6, 9.5], 정상군: 1.25 [8, 10.75], p<0.001), Spontaneous arousal index 또한 높았다(median [IQR], PPI: 10.6 [7.5, 15.4], 정상군: 9.7 [6.5, 13.4], OSA: 4.2 [2.9, 8.4], COMISA: 5.2 [1.8, 8.9], p<0.001).
반면, N1/TST 비율, total arousal index는 진단 기준 상의 AHI와 더불어 OSA 및 COMISA 환자군에서 높게 확인되었다(median [IQR], N1/TST-OSA: 16.3 [12.3, 28.4], COMISA: 16.8 [10.8, 22.7], PPI: 11.9 [7.7, 15.9], 정상군: 11.1 [7.5, 17.4], p=0.013; Total arousal index-OSA: 23.0 [17.3, 31.6], COMISA: 20.8 [15.9, 28.0], PPI: 14.6 [11.9, 18.9], 정상군: 14.5 [10.2, 17.4], p<0.001).
TIB TST는 큰 차이를 보이지 않았다(TIB: p=0.635, TST: p=0.064). WASO의 경우, 수면질환군에서 정상군에 비하여 다소 높은 경향을 보였으나 통계적으로는 유의한 차이가 확인되지 않았다(p=0.199) (Table 2).
모델 분류 성능 평가
24시간 전체 분석, 액티그래피 검출된 수면 시작 시간 이후 6시간, 8시간, 10시간 4가지의 경우에 대하여 모두 학습 데이터에 대하여는 100%에 가까운 높은 분류 정확도를 보였으나 검증 데이터 분류 시 모두 무작위 분류에 가까운 분류 정확도가 확인되었다(5회 AUC 평균-24시간 전체: 0.6031, 수면 이후 6시간: 0.5148, 8시간: 0.6122, 10시간: 0.5769). 이에 학습 데이터는 정확히 분류하나 검증 데이터를 유의하게 분류해내지 못하는 과적합(overfitting)이 일어난 것으로 판단하였다(Table 3).
고 찰
본 논문에서는 인공신경망(CNN)을 이용하여 액티그래피 데이터로부터 수면장애를 진단하고자 하였다. 수면장애에 의한 수면 분절 및 주간 졸림증의 영향을 고려하여 각 경우의 수 별로 분석하였고, 분석 결과 과적합(overfitting)이 확인되어 학습 데이터셋에서만 높은 정확도를 보이며, 학습 데이터셋 이외의 데이터들이 정확하게 분류되지 않는 것이 확인되었다.
가장 큰 원인으로는 데이터의 부족 및 부정확성이 꼽힌다. 광노출도 및 움직임 계수, 수면-각성 여부만으로는 패턴 도출이 불충분하였던 것으로 보인다. 또한, 각 epoch 별 수면-각성 여부는 액티그래피의 알고리즘을 통하여 산출된 것이기 때문에 실제 수면-각성 여부와 반드시 일치하지는 않는다.
Epoch의 길이, 샘플 수 또한 데이터 양에서의 제한 요인이 되었을 것으로 보인다. 액티그래피 및 심박수 변동성으로부터 수면 단계를 도출한 한 연구22에서는 초당 24회의 샘플링 하 8시간의 수면 시간을 기록하여 수면다원검사와 비교하여 높은 정확도를 도출하였다. 본 연구에서는 후향적인 데이터 수집을 통하여 연구를 진행하였기에, 차후 높은 샘플링 레이트(sampling rate)를 가지는 장비를 통해 진행시 더 높은 정확도를 이끌어 낼 수 있을 것으로 사료된다.
질병군 별로 보이는 다양한 패턴들 또한 분류에서의 장애 요인이 되었을 것으로 보인다. 가령 PPI의 경우, 입면에서의 문제 혹은 수면 유지의 문제가 혼재되어 있을 것으로 판단되며, 다른 질환군에 있어서도 완전하게 균일하지 않은 패턴이 분류의 정확도를 낮추었을 것으로 판단된다. 이에 대하여는 더 많은 데이터셋 확보를 통해 문제를 해결할 수 있을 것으로 보인다.
또한 본 연구에서는 2차원 배열로의 변환을 통하여 패턴을 산출하고자 하였지만, 액티그래피 데이터의 경우, 시간에 따른 1차원 연속형의 데이터로 되어 있어 트랜스포머[23]나 고전적 기계학습을 통하여도 접근이 가능할 것으로 판단된다.
본 논문에서는 액티그래피 데이터로부터 환자 진단을 시도하였으나, 본 연구 내용은 액티그래피 뿐만 아니라 다른 웨어러블 디바이스로도 확장이 가능하다. 특히, 현재 시판되는 웨어러블 기기의 경우, 심전도나 정맥혈 산소포화도 측정계도 장비하는 경우가 빈번하기 때문에 OSA에서 보이는 산소포화도 저하와 액티그래피를 연계하여 진단적 정확도를 비약적으로 향상시킬 수 있을 것으로 보인다. 휴대형 호흡 모니터링 장비와 액티그래피를 연계하거나[13], 심전도를 통하여 도출된 심박수변동성(heart rate variability, HRV)을 이용하거나[24], HRV와 액티그래피를 연계[22]하는 등의 방법을 생각할 수 있겠다.
상기와 같은 접근으로 환자의 진단적 분류가 가능할 경우, 액티그래피 혹은 웨어러블 디바이스는 수면 진단에의 큰 보조 수단이 될 것으로 판단된다. 또한, 수 일간 지속적으로 착용이 가능하기 때문에 수면다원검사 상의 한계인 first-night effect 등[4]을 보정할 수 있고, 실시간 수면 점수 혹은 수치 산출 등을 통하여 수면 상태나 치료 효과의 좋은 모니터링 및 치료 효과 극대화가 가능할 것이므로, 지속적인 후속 연구가 유망할 것으로 보인다.
Notes
Eun Yeon Joo, the Editor-in-Chief of the Journal of Sleep Medicine, was not involved in the editorial evaluation or decision to publish this article. All remaining authors have declared no conflicts of interest.
Author Contributions
Conceptualization: Soonhyun Yook. Data curation: Soonhyun Yook. Formal analysis: Soonhyun Yook. Funding acquisition: Eun Yeon Joo. Investigation: Jeongho Park. Methodology: Soonhyun Yook. Project administration: Eun Yeon Joo, Ho Sung Kim. Resources: Eun Yeon Joo, Ho Sung Kim. Supervision: Eun Yeon Joo, Ho Sung Kim. Validation: Eun Yeon Joo, Ho Sung Kim. Visualization: Jeongho Park. Writing—original draft: Jeongho Park. Writing—review & editing: Kyoungmin Kim.
Funding Statement
This study is granted by Samsung Medical Center Grant (OTC1190671).
Acknowledgements
None