Predictive Model of Optimal Continuous Positive Airway Pressure for Obstructive Sleep Apnea Patients with Obesity by Using Machine Learning

Seung Soo Kim; Kwang Ik Yang

doi:10.13078/jsm.18012

J Sleep Med > Volume 15(2); 2018 > Article

비만 폐쇄수면무호흡 환자에서 기계학습을 통한 적정양압 예측모형

Original Article

J Sleep Med 2018;15(2):48-54.

Published online: December 31, 2018

DOI: https://doi.org/10.13078/jsm.18012

비만 폐쇄수면무호흡 환자에서 기계학습을 통한 적정양압 예측모형

김승수^1,², 양광익^1,³

¹순천향대학교 의과대학 천안병원 수면장애센터

²순천향대학교 의과대학 천안병원 소아과학교실

³순천향대학교 의과대학 천안병원 신경과학교실

Predictive Model of Optimal Continuous Positive Airway Pressure for Obstructive Sleep Apnea Patients with Obesity by Using Machine Learning

Seung Soo Kim^1,², Kwang Ik Yang^1,³

¹Sleep Disorders Center, Soonchunhyang University Cheonan Hospital, Soonchunhyang University College of Medicine, Cheonan, Korea

²Department of Pediatrics, Soonchunhyang University Cheonan Hospital, Soonchunhyang University College of Medicine, Cheonan, Korea

³Department of Neurology, Soonchunhyang University Cheonan Hospital, Soonchunhyang University College of Medicine, Cheonan, Korea

Address for correspondence Kwang Ik Yang, MD, PhD Sleep Disorders Center, Department of Neurology, Soonchunhyang University Cheonan Hospital, 31 Suncheonhyang 6-gil, Dongnam-gu, Cheonan 31151, Korea Tel: +82-41-570-2290 Fax: +82-41-592-3810 E-mail: neurofan@schmc.ac.kr

Received November 6, 2018 Revised November 29, 2018 Accepted November 29, 2018

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Objectives

The aim of this study was to develop a predicting model for the optimal continuous positive airway pressure (CPAP) for obstructive sleep apnea (OSA) patient with obesity by using a machine learning.

Methods

We retrospectively investigated the medical records of 162 OSA patients who had obesity [body mass index (BMI) ≥ 25] and undertaken successful CPAP titration study. We divided the data to a training set (90%) and a test set (10%), randomly. We made a random forest model and a least absolute shrinkage and selection operator (lasso) regression model to predict the optimal pressure by using the training set, and then applied our models and previous reported equations to the test set. To compare the fitness of each models, we used a correlation coefficient (CC) and a mean absolute error (MAE).

Results

The random forest model showed the best performance {CC 0.78 [95% confidence interval (CI) 0.43–0.93], MAE 1.20}. The lasso regression model also showed the improved result [CC 0.78 (95% CI 0.42–0.93), MAE 1.26] compared to the Hoffstein equation [CC 0.68 (95% CI 0.23–0.89), MAE 1.34] and the Choi’s equation [CC 0.72 (95% CI 0.30–0.90), MAE 1.40].

Conclusions

Our random forest model and lasso model (26.213+0.084×BMI+0.004×apnea-hypopnea index+0.004×oxygen desaturation index–0.215×mean oxygen saturation) showed the improved performance compared to the previous reported equations. The further study for other subgroup or phenotype of OSA is required.

Keywords: Sleep apnea, Obstructive, Continuous positive airway pressure, Machine learning, Obesity.

서 론

지속기도양압(continuous positive airway pressure, CPAP) 치료는 폐쇄수면무호흡(obstructive sleep apnea, OSA)의 주요한 치료이다[1-3]. 적정압력(optimal pressure)을 찾는 것은 CPAP 치료에 있어서 가장 중요한 부분이며, 검사실에서 수동적정검사(manual titration study)를 통해 압력을 결정하는 것이 금과옥조(gold standard)로 여겨지고 있다[2,4]. 최근에는 자동양압기(auto-adjusting CPAP, APAP)가 수동적정검사를 통한 고정양압기(fixed CPAP, fCPAP)에 비해 순응도나 주간 졸림 혹은 수면다원검사(polysomnography, PSG) 지표의 개선 등에서 열등하지 않다는 연구 결과들이 발표되면서, 점차 APAP의 사용이 증가하고 있다[3,5,6]. 하지만 이런 연구들은 대체로 단기적인 지표의 개선에 초점이 맞춰진 경우가 많아서, 고혈압, 심혈관계 질환, 뇌졸중, 대사증후군, 우울 및 사망과 같이 OSA의 예후와 밀접한 관련이 있는 동반 질환에 주는 효과에 대한 연구는 드문 실정이다[7,8]. 또한 OSA 환자가 가진 기저 질환의 종류에 따라 APAP의 적용이 불가능한 경우도 있고, APAP 적용 도중 여러 이유로 중도 탈락하여 fCPAP 적용이 필요한 환자들도 있다[5,6]. 더욱이 APAP과 비교하여 fCPAP이 사구체여과율(glomerular filtration rater) 감소의 지연 및 24시간 확장기 혈압(diastolic blood pressuer) 감소에 우수한 결과를 보여준 연구와 fCPAP이 혈압과 인슐린 저항성 등의 감소에 효과가 있었던 반면 APAP은 이러한 효과를 보여주지 못했던 연구들을 고려할 때[9-11], APAP이 fCPAP을 완전히 대체하기는 어려울 것이다. 인체 측정치(anthropometric values) 및 PSG의 변수들을 이용한 적정압력 예측 수식에 대해서는 과거부터 다양한 연구들이 있어 왔다[2,12]. 예상 압력(predicted pressure)이 측정된 압력(estimated pressure)을 완전히 대체할 수는 없더라도, 적정검사 전까지 적용할 압력을 결정하거나, 적정검사 시 시작압력 결정을 통한 성공률 향상에 유용성이 있음이 보고되어 있다[2,13]. 하지만 기존 연구들은 주로 최소제곱법(ordinary least square)을 이용하여 선형 회귀식을 도출하는 연구들이 주를 이루고 있으며, 기계학습(machine learning)을 이용한 연구는 드물다[2,14]. 이에 본 저자들은 단일 기관의 PSG 및 CPAP 적정검사 기록을 바탕으로 다중공선성 및 비선형관계에 의한 교란 변수와 과적합(overfitting)으로 인한 오류를 최소화하기 위해, least absolute shirinkage and selection operator(lasso) 회귀 및 랜덤 포레스트(random forest)와 같은 기계학습을 이용한 적정압력 예측모형을 만들고자 본 연구를 수행하였다[15,16]. 또한 OSA의 아형(subtype) 혹은 표현형(phenotype) 분류 연구에서 중요한 변수 중 하나로 보고되고 있는 비만으로 인한 혼란 효과를 최소화하기 위해 대상군을 비만 OSA 환자로 하였다[17].

방 법

대 상

2013년 9월부터 2017년 8월까지 본원 수면장애센터에서 PSG와 수동 CPAP 적정검사를 받은 19세 이상의 성인 OSA 환자 중 체질량지수(body mass index, BMI)가 25 이상으로 비만이 있는 환자를 대상으로 했다. 뇌경색 및 심한 내과 질환이 있는 경우나 수면제를 복용 중인 환자는 연구 대상에서 제외하였다. 본 연구는 순천향대학교천안병원 임상시험심사위원회의 승인을 받았다(SCHCA 2018-05-050-002).

인구통계학적 특성

환자들의 의무기록을 바탕으로 성별과 수면다원검사 당시의 연령, 키, 체중과 목둘레를 조사하였다. 키와 체중을 이용하여 BMI를 구하였다. 목둘레는 갑상선 연골의 가장 돌출된 부위 바로 아래에서 측정하였다.

엡워스 졸음 척도(Epworth sleepiness scale)

주간졸음 정도를 알아보기 위해 수면다원검사 시 시행한 엡워스 졸음 척도(Epworth sleepiness scale, ESS)를 조사하였다[18]. 본 수면센터에서 번역한 8개의 ESS 문항에 대한 환자의 답변에 대해 0점에서 3점까지 배점을 주어 합산하고 최대 24점을 기준으로 점수를 산정하였다.

수면다원검사 및 무호흡-저호흡지수(apnea-hypopnea index)

PSG는 표준뇌파(C3-A2, C4-A1, F3-A2, F4-A1, O1-A2, O₂-A1), 안전도(ROC-A1, LOC-A2), 근전도(electromyography), 심전도, 산소포화도(pulse oximetry), 그리고 코골이 측정을 위한 목 마이크 등을 사용하여 시행하였다. 근전도는 턱밑근(submental muscle)과 양측 앞정강근(tibialis anterior muscle)에서 기록하였다. 호흡량 측정을 위해서는 입코열전대(oronasal thermistor)와 코압력변환기(nasal pressure transducer)를, 호흡노력을 측정하기 위해서는 흉곽과 복부에 교류저항 체적 변동기록법(plethysmography)을 사용하였다. 수면단계 및 그와 연관된 사건은 미국수면학회 규정집(American Academy of Sleep Medicine manual for the scoring of sleep and associated events v2.0)에 근거해서 판독하였다[19]. 무호흡은 호흡량 진폭이 기준에 비해 90% 이상 감소를 보이면서 10초 이상 지속되는 것으로 정의하였고, 저호흡은 호흡량 진폭이 30% 이상 감소가 10초 이상 지속되면서 이와 관련된 3% 이상의 산소포화도 감소 또는 뇌파에서 각성이 동반하는 경우로 정의하였다. 이런 호흡 패턴이 호흡 노력을 동반하는 경우는 폐쇄성, 동반하지 않는 경우는 중추성으로 정의하였다. 무호흡-저호흡지수(apnea-hypopnea index, AHI)는 수면시간당 무호흡과 저호흡이 나타나는 빈도 수로 정의하였다. 수면잠복기(sleep latency), 수면효율(sleep efficiency), 산소탈포화지수(oxygen desaturation index, ODI), 88% 이하 산소포화도분율(time oxygen saturation be-low 88%, T88), 평균산소포화도(mean oxygen saturation, mean O₂), 최저산소포화도(minimum oxygen saturation, min O₂)와 각성지수(arousal index)도 조사하였다.

CPAP 적정 검사(CPAP titration study)

양압적정은 AHI가 15 이상인 환자를 대상으로 하였다. 적정압력을 구하기 위해서 수면다원검사와 같은 몽타주(montage)를 사용하여 야간 수동 CPAP 적정검사(full-night manual CPAP titration study)를 시행하였다. 처방 적정압력은 미국수면학회의 지침(guideline)에 근거하여 모든 자세와 모든 수면단계에서 코골이와 공기 흐름의 제한(low limitation)이 관찰되지 않고 AHI가 5 이하이며 SpO₂가 90% 이상을 유지하는 압력 중 가장 낮은 압력으로 결정하였다[4].

통계 분석 및 예측모형 구성

모형의 개발과 검증을 위해 대상군을 각각 훈련자료(training data set)와 검증자료(test data set)로 9:1로 무작위로 나누고, 두 군의 변수 값들을 비교했다. 연속형 변수들은 Shapiro-Wilks 검정을 사용하여 정규분포 여부를 분석하고, 정규분포를 따르는 경우는 평균±표준편차로 표시하고 독립표본 t-검정을 시행하였으며, 정규분포를 따르지 않는 경우는 중위 수(사분위수 범위)로 표시하고 Mann-Whitney 검정을 시행하였다. 범주형 변수는 %(명)으로 표시하였으며, Fisher의 정확 검정을 시행하였다.

적정검사를 통해 결정된 압력을 종속 변수로 하고, 수면다원검사 시 나이, 신체 계측치(키, 체중, BMI, 목둘레), 수면다원검사 수치(수면잠복기, 수면효율, AHI, ODI, T88, Mean O₂, Min O₂, 각성지수)와 기존 국내 연구를 참고하여 ESS를 독립 변수로 하여 예측모형을 만들었다[20]. 예측모형은 훈련자료를 이용하여, lasso 회귀 분석과 랜덤 포레스트를 통해 각각 만들었다[15,16]. Lasso 회귀 분석에서는 페널티 강도 매개 변수(penalty strength parameter, λ) 결정을 위해서, 10-겹 교차 검증(10-fold cross validation)을 이용하였다[15]. 랜덤 포레스트모형은 나무 수(ntree)를 5,500개로 설정하였으며, 마디 수(mtry)는 2로 설정하였다. 각 변수의 중요도를 평가하기 위한 방법으로는 평균 제곱 오차 백분율 증가(increase in percent mean squared error)와 마디 순도 증가(increase in node purity)를 사용하였다. 본 논문의 예측모형과 Hoffstein 공식, Choi 등의 공식과 같이 기존에 보고되었던 공식과 효용성을 비교하기 위하여[12,21], 검증자료를 이용한 예측치와 실측치 간의 Pearson 상관계수와 평균 절대 오차(mean absolute error, MAE)를 구했다. 통계 분석에는 SPSS 25.0(IBM Corp., Armonk, NY, USA)과 R 3.4.0(http://www.r-project.org)을 이용하였으며 p-value가 0.05 미만인 경우 통계적으로 유의하다고 판정하였다. 랜덤 포레스트 분석에는 R 패키지 random forest를 이용하였고, lasso 회귀에는 R 패키지 glmnet을 이용하였다[15,16].

결 과

인구통계학적 특성 및 수면다원검사 수치

적정검사를 시행하였으나 정상 체중이었던 74명과 외부 병원에서 수면다원검사를 시행하여 적정검사 전 수면다원검사 지표들을 확인할 수 없었던 2명, 적정검사에서 CPAP 적용에 실패하여 이단양압기(bilevel positive airway pressure)를 적용한 2명을 제외한 최종 162명의 환자가 본 연구에 포함되었다. 이들의 평균 연령은 47.8±11.2세였으며, 성비는 남 6:여 1이었다. BMI의 평균은 30.1±4.3이었으며, AHI의 평균은 56.0±25.0이었다. 수동적정검사에 의한 CPAP 압력은 평균 9.1±2.5 cmH2O였다. 이들을 무작위로 9:1로 나누어 구성한 훈련자료와 검증자료 사이에서는 ESS(p-value 0.02)를 제외한 인구통계학적 특성, 수면다원검사 수치들 및 적정압력은 통계적으로 유의한 차이를 보이지 않았다(Table 1). 훈련자료를 이용한 독립 변수들 간의 상관관계 분석에서 BMI는 목둘레, ODI, min O₂, mean O₂와 0.4 이상의 상관관계를 보였으며, AHI는 ODI, T88, mean O₂, min O₂, 각성지수, 목둘레와 높은 상관관계를 보였다(Table 2).

예측모형 구성

훈련자료를 이용하여 예측모형을 만들었다. Lasso 회귀모형에서는 최종모형에 BMI와 mean O₂, AHI, ODI가 독립변수로 포함되었다(Table 3). 랜덤 포레스트모형에서는 ODI, mean O₂, 목둘레, 몸무게, AHI, BMI, 각성지수 등의 순으로 모형 구성에 중요성을 보였다(Table 4).

예측모형 평가

Pearson 상관계수, MAE의 모든 항목에서 랜덤 포레스트 모형이 가장 우수한 추정 능력을 보여주었다(Table 5). Lasso 회귀식도 기존 Choi 등의 공식과 비교하여 Pearson 상관계수와 MAE에서 개선을 보여주었다[21]. Hoffstein 공식은 Choi 등의 공식보다 Pearson 상관계수는 낮았지만[12,21], MAE는 우수한 것으로 나타났다. Hoffstein 공식과 Choi 등의 공식은 랜덤 포레스트모형 및 lasso 회귀식과 비교하여 과소 추정의 비율이 높은 것으로 나타났다(Fig. 1) [12,21].

고 찰

본 저자들은 최초로 랜덤 포레스트모형과 lasso 회귀를 사용하여 비만 환자에서 CPAP 적정압력을 예측하는 모형을 만들었으며, 기존 최소제곱법을 이용한 선형 회귀모형들과 비교하여서 더 우수한 성능을 보여주었다. Lasso 회귀와 랜덤 포레스트 기법은 요즘 각광받고 있는 기계학습법에 속한다. 고전 통계에서는 최소의 편향과 최소의 분산을 가진 모형, 즉 최소분산불편추정량(minimum variance unbiased estimator) 모형을 구하는 것을 목표로 한다. 하지만 이러한 모형은 현실에서는 분석에 사용한 데이터에서만 좋은 성능을 보이는 모형이 만들어지는 과적합(overfitting)에 빠지기 쉽고, 그 결과 새로운 자료가 주어졌을 때는 예측력이 떨어질 수 있다. 기계학습법은 훈련자료를 이용하여 적절한 수준의 분산과 편향을 가진 모형을 찾는 방법이다[22,23]. 즉 기계학습법은 모형의 분산과 편향 사이의 상쇄(trade-off)를 고려하여, 검증자료에서 예측 오차를 최소화하는 모형을 추구한다고 볼 수 있다. 본 논문에서 랜덤 포레스트모형을 검증자료에 적용했을 때 상관계수는 0.78로 El Solh 등이 k-겹 교차검정(k-fold cross validation)을 적용한 인공신경망(artificial neural network)을 사용해 보여준 상관계수 0.85에 근접한 수준을 보여주었다[14]. Lasso 회귀모형 역시 상관계수 0.78의 우수한 성능을 보여주었다. 하지만 El Solh 등의 인공신경망(artificial neural network)모형은 본 연구에서 사용한 랜덤 포레스트와 더불어 대표적인 자율 학습 알고리즘(unsupervised learning algorithm)에 속한다[14,23]. 즉 분석의 과정이 일종의 블랙박스(black box)로 되어 있어, 공식이나 구체적인 과정을 알 수가 없다. 이러한 이유 때문에 현재까지 나온 예측모형 중 가장 우수한 성능을 보여주었지만[2], 이후 연구에서 재현되거나 비교 대상으로 이용되지 못했을 것으로 추측할 수 있다. 본 논문에서는 이러한 한계를 극복하고자 lasso 회귀모형(26.213+0.084×BMI+0.004×AHI+0.004×ODI-0.215×mean O₂)을 같이 만들었으며, 랜덤 포레스트모형에 근접한 성능을 보여주었다. Table 2에서 보여준 것과 같이 각 독립 변수들은 서로 상관관계를 가지며, 특히 기존 논문들의 선형 회귀식에서 자주 독립 변수로 채택되는 BMI와 AHI는 다양한 변수들과 상관관계를 가지는 것으로 나타났다[2]. 즉 모형의 구성에 사용되는 변수들 사이에 다중공선성(multicollinearity)이 존재한다. 이러한 다중공선성은 회귀계수의 분산을 증가시켜, 그 결과 회귀계수의 추정치가 불안하고 해석하기 어렵게 만든다. 본 연구에서 이러한 다중공선성을 극복하기 위해 사용한 lasso 회귀모형이 기존의 Hoffstein 공식이나 Choi 등의 공식보다 우수한 결과를 보여준 것과 선형관계 추정이 아닌 분류에 의한 결정나무의 원리를 이용한 랜덤 포레스트모형이 앞의 선형모형들보다 더 우수한 성능을 보여준 것은 이러한 추정에 대한 방증이 될 수 있을 것이다[12,21].

선형 회귀모형에서는 모형계수 벡터 β에 대한 최소제곱(least square) 해보다는 이것을 약간 축소한 능형(ridge) 해를 쓰는 것이 예측 성과가 좋은 것으로 알려져 있다[23,24]. 또한 β의 일부 요소를 0으로 퇴화를 시킨 lasso 해를 쓰게 되면 모형이 간결해지고 변수의 선택이 가능해지는 이점이 있다[23]. 이를 일반선형화모형(generalized linear model, GLM)에 통합적으로 적용한 것이 GLM의 정형화(regularization)이다[15,23]. 이런 정형화는 설명 변수의 수가 많은 경우에 특히 유효하다[23]. Lasso는 능형 회귀, 엘라스틱 네트(elastic net)와 더불어 벌점화 회귀(penalized regression)에 속한다. 이러한 벌점화 회귀에서 λ는 조율 모수로 벌점(penalty)의 효과를 조절하며, λ가 커질수록 모형의 분산은 작아지고 편향은 커지는 편향-분산 상쇄(bias-variance trade-off)를 보인다. 이러한 상쇄를 고려한 최적의 λ는 본 논문에서와 같이 자동화된 교차검정을 통해 얻을 수 있다[23]. 본 저자들은 검증자료에 lasso 회귀모형을 적용하여 예측치를 구하였으며, 이는 기존에 보고된 최소제곱 추정법에 의한 선형 회귀모형들보다 우수한 성능을 보여주었다[12,21].

랜덤 포레스트는 의사결정나무에 기반한 기계학습법으로 최근 생물정보학(bioinformatics) 분야 연구에서 각광받고 있는 기법이다[16,22,25,26]. 랜덤 포레스트의 특징이자 강점은 배깅[bagging (bootstrap aggregating)]으로, 이는 부트 스트랩(bootstrap) 샘플을 사용하여 만든 다양한 의사결정나무들을 앙상블 기법을 사용하여 하나의 의사결정숲으로 구성하는 방법이다[22,26]. 부트 스트랩 샘플은 훈련자료에서 중복을 허용하여 무작위로 추출된 학습용 데이터 세트이다[16,22]. 그리고 앙상블 기법은 랜덤 포레스트의 최종 단계에서 각 나무들의 예측 결과를 취합하고 평균이나 다수결에 의한 선택을 통해 결론을 내리는 방법이다[26]. 랜덤 포레스트는 자율 학습 알고리즘(unsupervised learning algorithm)에 속하며, 생성된 의사결정나무의 내부를 관찰할 수 없어 예측 결과 이외의 정보는 얻을 수 없다는 단점이 있다[25,26]. 하지만 모형 생성 시 나무의 수와 분기점 안에 들어가는 조건의 수만 결정하면 되므로 비교적 사용하기 간편하다는 장점도 있다[22,25]. 본 논문에서도 랜덤 포레스트가 가장 우수한 성능을 보여주었지만, 공유 가능한 수식이 도출되지는 않기 때문에 다른 기관 및 이후 연구에서 사용하는 것에는 어려움이 있을 것으로 예상한다.

요즘 정밀의료(precision medicine)의 중요성이 대두되면서, OSA의 표현형(phenotype) 분류가 주목받기 시작했다[17]. 최근 k-mode 기법을 이용하여 OSA 환자를 세 군의 아형(subtype)으로 분류한 연구에서 비만 여부는 중요한 설명 변수로 나타났다[17]. 기존의 연구들에서는 이를 고려하지 않아서[2], 대상군에 비만군과 정상 체중군이 혼재되어 있었으며, BMI 등 주요한 변수들이 모형 구성에 주는 효과에 일정 부분 혼란 변수로 작용했을 것으로 생각된다. 본 연구는 이를 참조하여 비만을 가진 OSA 환자만을 대상으로 한 CPAP 적정압력 예측모형을 만들어서, 이러한 혼란 변수의 효과를 최소화하려고 시도하였다는 것에 차별점이 있다. Hoffstein 공식을 본 연구의 검증자료에 적용했을 때[12], 비교적 우수한 성능(상관계수 0.68, MAE 1.34)을 보여주었다. 이는 Choi 등의 공식(상관계수 0.72, MAE 1.40)과 비교해서도 열등하지 않은 수준이었다[21]. 기존 국내 연구들에서 Hoffstein 공식을 한국 환자의 데이터에 적용했을 때 과소 추정의 비율이 높아서 예측력이 낮았던 것을 고려하면[12,20,21], 비만 유병률의 차이 같은 인구통계학적인 차이에서 기인했던 혼란 요인이 비만 환자를 대상군으로 한 본 연구에서는 보정된 것으로 이해할 수 있을 것이다[2]. 나아가 BMI, AHI 등의 독립 변수들이 비만군과 정상 체중군에서 각기 다른 효과(즉 다른 β 값)를 가질 수 있다는 사실을 추측할 수 있다.

본 연구에서는 단일 기관의 비만 OSA 환자의 수동 CPAP 적정검사 자료에 lasso 회귀 및 랜덤 포레스트 기법을 적용하여 예측모형을 만들었으며, 기존 선형 회귀식에 의해 만들어진 예측 공식들보다 우수한 성능을 보여주었다. 이는 기존 연구 및 본 연구에 사용된 여러 독립 변수들 간에 다중공선성이 존재하며, 또한 종속 변수와 비선형 관계가 존재함을 방증한다고 볼 수 있다. 또한 비만 OSA 환자를 대상으로 한 예측모형을 만들어, OSA 환자의 아형 혹은 표현형에 따른 치료의 장점을 미약하나마 보여주었다는 데 의의가 있다. 하지만 본 연구는 단일 기관의 자료를 이용한 후향적 연구로 연구 대상의 선택 편향 문제에서 완전히 자유로울 수는 없으며, 본 연구에서 제시한 모형은 앞으로 전향적인 연구와 타기관의 자료를 통한 검증이 필요할 것으로 사료된다. 이후 정상 체중 OSA 환자와 여성 OSA 환자, 소아청소년 OSA 환자 등의 OSA 아형 혹은 OSA 표현형별 적정압력 예측모형에 대한 연구에 본 연구가 밑거름이 되기를 기대한다.

Fig. 1.

Frequency histograms of the difference between titrated pressure and predicted pressure of each models. lasso: least absolute shrinkage and selection operator.

Table 1.

Anthropometric and polysomnographic characteristics of each data sets

	Training set (n=148)	Test set (n=14)	p-value
Age, years	47.9±11.1	46.8±12.8	0.72^*
Sex, male, % (n)	87.2 (129)	71.4 (10)	0.12^†
Height, cm	170.0 (165.0, 175.0)	168.0 (158.5, 171.2)	0.26^‡
Weight, kg	82.0 (76.8, 93.0)	83.0 (75.3, 105.0)	0.46^‡
BMI, kg/m²	28.7 (26.8, 31.3)	29.7 (28.5, 35.2)	0.09^‡
Neck circumference, cm	40.0 (39.0, 42.0)	41.0 (38.0, 43.0)	0.65^‡
ESS	10.0 (6.0, 13.0)	14.5 (10.0, 18.0)	0.02^‡
Sleep latency, minutes	5.50 (2.9, 11.6)	4.8 (3.6, 9.1)	0.97^‡
Sleep efficiency, %	82.3 (72.9, 89.6)	77.5 (73.2, 90.0)	0.85^‡
REM, %TST	14.7±7.0	14.2±6.5	0.81^*
AHI, events/hour	52.15 (35.9, 70.8)	53.9 (43.0, 69.5)	0.96^‡
ODI, events/hour	32.4 (18.6, 47.0)	36.3 (22.9, 46.3)	0.65^‡
T88, %TST	5.0 (0.9, 16.2)	9.5 (2.0, 33.1)	0.59^‡
Min O₂, %	79.0 (72.8, 84.0)	77.5 (72.5, 81.5)	0.57^‡
Mean O₂, %	93.9 (92.3, 94.9)	94.4 (91.7, 95.6)	0.57^‡
Arousal index, events/hour	42.1 (30.8, 56.0)	40.6 (28.3, 55.3)	0.73^‡
Titrated CPAP, cmH₂O	9.0 (7.0, 10.0)	8.0 (7.3, 10.0)	0.59^‡

Data are presented as median (interquartile range) or mean±standard deviation unless otherwise specified.

^* independent t test,

^† Fisher’s exact test,

^‡ Mann–Whitney test.

BMI: body mass index, ESS: Epworth sleepiness scale, REM: rapid eye movement sleep, TST: total sleep time, AHI: apnea-hypopnea index, ODI: oxygen desaturation index, T88: time oxygen saturation below 88%, min O₂: minimum oxygen saturation, mean O₂: mean oxygen saturation, CPAP: continuous positive airway pressure

Table 2.

Correlation coefficients of each independent variables

		1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
1	Sex
2	Age	-0.28
3	Height	0.58	-0.42
4	Weight	0.23	-0.42	0.48
5	BMI	-0.16	-0.20	-0.02	0.73
6	Neck circumference	0.41	-0.24	0.39	0.63	0.49
7	Sleep latency	-0.20	-0.01	-0.13	-0.06	0.03	-0.17
8	Sleep efficiency	0.11	-0.19	0.26	0.17	0.04	0.11	-0.56
9	REM	0.00	0.01	0.16	0.01	-0.05	-0.10	0.05	0.29
10	AHI	0.12	-0.11	0.01	0.28	0.35	0.44	-0.13	-0.14	-0.28
11	ODI	0.11	-0.16	0.05	0.34	0.42	0.47	-0.28	0.20	-0.16	0.89
12	Min O₂	0.05	0.19	-0.04	-0.39	-0.51	-0.42	0.10	-0.10	0.08	-0.60	-0.69
13	Mean O₂	0.13	0.06	0.07	-0.28	-0.41	-0.28	0.11	-0.06	0.14	-0.61	-0.70	0.75
14	T88	-0.06	-0.06	-0.04	0.23	0.40	0.34	-0.06	0.04	-0.18	0.66	0.75	-0.78	-0.84
15	Arousal index	0.13	-0.11	0.04	0.16	0.18	0.40	-0.18	0.09	-0.09	0.45	0.43	-0.36	-0.28	0.29
16	ESS	0.04	-0.12	0.00	0.07	0.12	0.14	-0.06	-0.02	-0.05	0.18	0.15	-0.19	-0.23	0.19	0.03

BMI: body mass index, REM: rapid eye movement sleep, AHI: apnea-hypopnea index, ODI: oxygen desaturation index, min O₂: minimum oxygen saturation, mean O₂: mean oxygen saturation, T88: time oxygen saturation below 88%, ESS: Epworth sleepiness scale

Table 3.

Independent variables of lasso regression model

	Beta
Intercept	26.213
Sex	-
Age	-
Height	-
Weight	-
BMI	0.084
Neck circumference	-
Sleep latency	-
Sleep efficiency	-
REM	-
AHI	0.004
ODI	0.004
Min O₂	-
Mean O₂	-0.215
T88	-
Arousal index	-

Penalty strength parameter=0.26. lasso: least absolute shrinkage and selection operator, BMI: body mass index, REM: rapid eye movement sleep, AHI: apnea-hypopnea index, ODI: oxygen desaturation index, min O₂: minimum oxygen saturation, mean O₂: mean oxygen saturation, T88: time oxygen saturation below 88%

Table 4.

Random forest variables importance to predict continuous positive airway pressure

	%Inc MSE	Inc node purity
ODI	34.28	115.70
Mean O₂	21.37	87.80
Neck circumference	17.98	43.48
Weight	17.56	58.71
AHI	16.24	67.91
BMI	15.99	63.84
Arousal index	15.97	90.50
Sleep efficiency	15.87	39.90
T88	14.15	60.03
Height	7.25	34.33
ESS	4.76	59.49
Sex, male	2.97	2.84
Age	1.14	60.19
Min O₂	0.52	40.50
REM	-1.94	34.73
Sleep latency	-4.66	24.55

%Inc MSE: increase in percent mean squared error, Inc node purity: increase in node purity, ODI: oxygen desaturation index, mean O₂: mean oxygen saturation, AHI: apnea-hypopnea index, BMI: body mass index, T88: time oxygen saturation below 88%, ESS: Epworth sleepiness scale, min O₂: minimum oxygen saturation, REM: rapid eye movement sleep

Table 5.

Testing predicted continuous positive airway pressure by the models in this study and previous studies using test data set

	CC (95% CI)	MAE	Equation
Random Forest	0.78 (0.43–0.93)	1.20	Unsupervised algorithm
Lasso regression	0.78 (0.42–0.93)	1.26	26.213+0.084×BMI+0.004×AHI+0.004×ODI–0.215×mean O₂
Choi et al.’s equation [21]	0.72 (0.30–0.90)	1.40	0.681+0.205×BMI+0.040×AHI
Hoffstein equation [12]	0.68 (0.23–0.89)	1.34	-5.12+0.13×BMI+0.16×NC+0.04×AHI

CC: correlation coefficient, 95% CI: 95% confidence interval, MAE: mean absolute error, lasso: least absolute shrinkage and selection operator, BMI: body mass index, AHI: apnea-hypopnea index, ODI: oxygen desaturation index, mean O₂: mean oxygen saturation, NC: neck circumference

REFERENCES

1. Sullivan CE, Issa FG, Berthon-Jones M, Eves L. Reversal of obstructive sleep apnoea by continuous positive airway pressure applied through the nares. Lancet 1981;1:862-865.

2. Camacho M, Riaz M, Tahoori A, Certal V, Kushida CA. Mathematical equations to predict positive airway pressures for obstructive sleep apnea: a systematic review. Sleep Disord 2015;2015:293868.

3. Sunwoo JS, Yang KI. Overview of treatment for obstructive sleep apnea in adults. J Sleep Med 2017;14:1-9.

4. Kushida CA, Chediak A, Berry RB, et al.; American Academy of Sleep Medicine. Clinical guidelines for the manual titration of positive airway pressure in patients with obstructive sleep apnea. J Clin Sleep Med 2008;4:157-171.

5. Morgenthaler TI, Aurora RN, Brown T, et al.; Standards of Practice Committee of the AASM; American Academy of Sleep Medicine. Practice parameters for the use of autotitrating continuous positive airway pressure devices for titrating pressures and treating adult patients with obstructive sleep apnea syndrome: an update for 2007. An American Academy of Sleep Medicine report. Sleep 2008;31:141-147.

6. Rosen CL, Auckley D, Benca R, et al. A multisite randomized trial of portable sleep studies and positive airway pressure autotitration versus laboratory-based polysomnography for the diagnosis and treatment of obstructive sleep apnea: the HomePAP study. Sleep 2012;35:757-767.

7. Ayas NT, Patel SR, Malhotra A, et al. Auto-titrating versus standard continuous positive airway pressure for the treatment of obstructive sleep apnea: results of a meta-analysis. Sleep 2004;27:249-253.

8. Ip S, D’Ambrosio C, Patel K, et al. Auto-titrating versus fixed continuous positive airway pressure for the treatment of obstructive sleep apnea: a systematic review with meta-analyses. Syst Rev 2012;1:20.

9. Marrone O, Cibella F, Pépin JL, et al.; ESADA Network. Fixed but not autoadjusting positive airway pressure attenuates the time-dependent decline in glomerular filtration rate in patients with OSA. Chest 2018;154:326-334.

10. Patruno V, Aiolfi S, Costantino G, et al. Fixed and autoadjusting continuous positive airway pressure treatments are not similar in reducing cardiovascular risk factors in patients with obstructive sleep apnea. Chest 2007;131:1393-1399.

11. Pépin JL, Tamisier R, Baguet JP, et al. Fixed-pressure CPAP versus autoadjusting CPAP: comparison of efficacy on blood pressure in obstructive sleep apnoea, a randomised clinical trial. Thorax 2016;71:726-733.

12. Miljeteig H, Hoffstein V. Determinants of continuous positive airway pressure level for treatment of obstructive sleep apnea. Am Rev Respir Dis 1993;6 Pt 1:1526-1530.

13. Rowley JA, Tarbichi AG, Badr MS. The use of a predicted CPAP equation improves CPAP titration success. Sleep Breath 2005;9:26-32.

14. El Solh AA, Aldik Z, Alnabhan M, Grant B. Predicting effective continuous positive airway pressure in sleep apnea using an artificial neural network. Sleep Med 2007;8:471-477.

15. Friedman J, Hastie T, Tibshirani R. Regularization paths for generalized linear models via coordinate descent. J Stat Softw 2010;33:1-22.

16. Breiman L. Random forests. Machine Learning 2001;45:5-32.

17. Ferreira-Santos D, Pereira Rodrigues P. Phenotyping obstructive sleep apnea patients: a first approach to cluster visualization. Stud Health Technol Inform 2018;255:75-79.

18. Johns MW. A new method for measuring daytime sleepiness: the Epworth sleepiness scale. Sleep 1991;14:540-545.

19. Berry RB, Brooks R, Gamaldo CE, et al. The AASM manual for the scoring of sleep and associated events: rules, terminology and technical specifications, Version 2.0. Darien: American Academy of Sleep Medicine, 2012.

20. Lee GH, Kim MJ, Lee EM, Kim CS, Lee SA. Prediction of optimal CPAP pressure and validation of an equation for Asian patients with obstructive sleep apnea. Respir Care 2013;58:810-815.

21. Choi JH, Kim EJ, Kim KW, et al. Optimal continuous positive airway pressure level in korean patients with obstructive sleep apnea syndrome. Clin Exp Otorhinolaryngol 2010;3:207-211.

22. Lantz B, Yun SJ. Machine learning with R: expert techniques for predictive modeling to solve all your data analysis problems. 2nd ed. Seoul: Acorn publishing Co, 2014.

23. Huh MH. Data science: introduction and topics. 2nd ed. Paju: Freedom Academy INC, 2018;123-34.

24. de Vlaming R, Groenen PJ. The current and future use of ridge regression for prediction in quantitative genetics. Biomed Res Int 2015;2015:87-93.

25. Hsieh CH, Lu RH, Lee NH, Chiu WT, Hsu MH, Li YC. Novel solutions for an old disease: diagnosis of acute appendicitis with random forest, support vector machines, and artificial neural networks. Surgery 2011;149:87-93.

26. Díaz-Uriarte R; Alvarez de Andrés S. Gene selection and classification of microarray data using random forest. BMC Bioinformatics 2006;7:3.