Journal of Korean Society for Atmospheric Environment
[ Award-Winning Paper ]
Journal of Korean Society for Atmospheric Environment - Vol. 39, No. 4, pp.411-426
ISSN: 1598-7132 (Print) 2383-5346 (Online)
Print publication date 31 Aug 2023
Received 14 May 2023 Revised 09 Jun 2023 Accepted 19 Jun 2023
DOI: https://doi.org/10.5572/KOSAE.2023.39.4.411

PM2.5 구성 성분 입력자료를 이용한 DNN의 XAI 분석과 PM2.5 예측 정확도 개선

이주용 ; 이채연 ; 정민우 ; 안준영1) ; 왕경희 ; 최대련2) ; 윤희영2), *
안양대학교 일반대학원 환경공학과
1)국립환경과학원 기후대기연구부
2)안양대학교 환경에너지공학과
XAI Analysis of DNN Using PM2.5 Component Input Data and Improvement of PM2.5 Prediction Performance
Ju-Yong Lee ; Chae-Yeon Lee ; Min-Woo Jung ; Joon-Young Ahn1) ; Kyung-Hui Wang ; Dae-Ryun Choi2) ; Hui-Young Yun2), *
Department of Environmetal and Engineering, Graduate School of Anyang University, Anyang, Republic of Korea
1)Climate and Aor Quality Research Division, National Institut of Environmetal Research, Incheon, Republic of Korea
2)Department of Environmetal and Energy Engineering, Anyang University, Anyang, Republic of Korea

Correspondence to: * Tel : +82-(0)31-5183-2135 E-mail : huiyoung@anyang.ac.kr

Abstract

The aim of this study was to assess whether a simple Deep Neural Network (DNN) model could address the limitations of the current overestimated CMAQ model used for fine dust forecasting by NIER in Seoul, South Korea. Two DNN models, DNN-1 and DNN-2, were developed using data from 2016 to 2020. DNN-1 used urban air monitoring network data and CMAQ predictions, while DNN-2 incorporated additional PM2.5 component measurement data. The models forecasted PM2.5 concentrations for three days, and evaluation focused on the accuracy of daily average concentrations. DNN-1 and DNN-2 outperformed the CMAQ model in terms of accuracy, probability of detection (POD), and false alarm rate (FAR). DNN-2 showed lower POD but significantly improved ACC and FAR, indicating a compensatory relationship between the two metrics. Using the XAI technique called Layer-wise Relevance Propagation (LRP), the study analyzed the importance of input parameters in the models. Meteorological factors, including temperature, humidity, radiation, wind speed, and wind direction, were found to be highly important. PM2.5 component measurement data, such as NO3- and OM (Organic Matter), showed relatively lower importance compared to meteorological factors. It was determined that the limited impact of fine dust composition was due to the XAI analysis conducted on yearly results rather than high-concentration cases in this study.

Keywords:

PM2.5 forecast, DNN, CMAQ, XAI, PM2.5 component

1. 서 론

1. 1 연구 배경 및 목적

초미세먼지 (PM2.5: Ultrafine Dust)는 대기에 존재하는 먼지 중 입자의 직경이 2.5 µm 이하의 입자상 물질을 의미한다. PM2.5는 대기 중에 직접 배출되거나 국외 유입 및 국내에서 발생하는 황산화물 (SOx), 질소산화물 (NOx), 암모니아 (NH3), 휘발성유기화합물 (VOCs) 등의 전구물질들에 의해 2차로 생성된다. 또한 습도가 높은 경우에 생성속도가 가속화되어 짙은 스모그 형태로 나타나며 고농도 기간이 3~4일간 혹은 그 이상 유지되는 경향을 가지고 있다 (Koo et al., 2018).

PM2.5는 코의 점막을 통해 걸러지지 않고 흡입 시 폐포까지 직접 침투하여 천식이나 폐 질환의 발생을 증가시켜 조기 사망률을 증가시킨다. 현재 빈번한 고농도 PM2.5 발생으로 인해 국민건강이 크게 위협받고 있다 (Han et al., 2020; Jung et al., 2020; Kim et al., 2020). 이러한 PM2.5의 심각성은 전문가뿐만 아니라 일반 국민 또한 인지하고 있다 (Hong et al., 2019).

우리나라에서는 2011년 ‘환경정책기본법 시행령’ 개정을 통하여 PM2.5 대기환경기준을 24시간 농도 50 μg/m3, 연평균농도 25 μg/m3으로 공표하였다. 또한 2015년부터 PM2.5 대기환경기준을 시행하였다. 2020년 3월 31일부터 미세먼지 및 미세먼지 생성물질의 배출을 저감하였으며 PM2.5 발생을 지속적으로 관리함으로써 미세먼지가 국민건강에 미치는 위해를 예방하고 대기환경을 적정하게 관리, 보전하여 쾌적한 생활환경을 조성하기 위해 ‘미세먼지 저감 및 관리에 대한 특별법’이 제정되었다.

PM2.5에 의한 피해 저감 및 예방을 위한 연구에서 전통적인 수치 모델인 The Community Multiscale Air Quality Modeling System (CMAQ), Goddard Earth Observing System-Chemistry (GEOS-Chem), Weather Research and Forecasting with Chemistry (WRF-Chem) 등을 많이 사용한다 (Lv et al., 2020; Lee et al., 2017; Chemel et al., 2014; Saide et al., 2011).

위 모델 중 국내 대기정책 수립 및 대기환경 연구에 가장 많이 적용되는 모델은 CMAQ이다 (Kang et al., 2014). CMAQ 모델은 대기질 모델 시뮬레이션을 수행하기 위한 일련의 프로그램으로 구성된 모델로 Eulerian 모델에 기초한 3차원 광화학 모델로써 대류권 오존, 산성 강하, 먼지, 시정, 독성물질 같은 대기오염물질을 고려할 수 있는 특징을 가지고 있다 (Lin et al., 2005). 다만, CMAQ 모델은 화학메커니즘의 복잡한 유기화학반응을 모두 고려하지 못하고 있다 (Chen et al., 2010).

본 연구는 비교적 간단한 Deep Neural Network (DNN) 모델을 사용하여 CMAQ 모델의 단점을 인공지능으로 보완할 수 있는지를 평가하는 것이 주 목적이다. DNN 모델은 서울지역을 대상으로 모델의 학습기간은 2016~2020년, 평가기간을 2021년으로 하였 다. DNN 모델은 대기질 측정데이터의 차이에 따라 도시대기측정망의 측정데이터와 CMAQ 예측데이터를 사용한 DNN-1과 DNN-1에 집중측정소의 PM2.5 성분측정데이터 (NO3-, SO42-, NH4+, Organic Matter)를 추가한 DNN-2 모델 2개를 개발하였다. 모델은 3일간 PM2.5를 예측하며, 평가는 6시간 간격으로 예측결과값이 나오나 각 모델의 국내 예보등급에 맞추어 예보 정확도 향상 여부를 확인하기 위하여 당일 (D00), 내일 (D01), 모레 (D02) 일평균 농도에 대해 분석하였다. 또한, 각 개발된 DNN 모델에 eXplainable Artificial Intelligence (XAI) 기법 중 Layer-wise Relevance Propagation (LRP) 방법을 이용하여, 모델에서의 인자들의 중요도 변화를 분석하였다.


2. 연구 방법

본 연구의 대상지역은 대한민국의 서울시로 CMAQ 과 DNN의 예측값을 실제 측정값과 비교하였다. 또한, 기존의 모델 입력인자에 PM2.5를 구성하는 성분 중 질산이온 (NO3-), 황산이온 (SO42-), 암모늄이온 (NH4+), Organic Matter (OM)을 추가입력인자로 선정하였고 CMAQ, 추가인자를 입력하지 않은 DNN, 추가인자를 입력한 DNN까지 총 3개의 모델에 대해서 비교평가하였다. 추가인자에 대한 결측치를 k-Nearest Neighbors (KNN)를 이용하여 결측치를 채워준다.

2. 1 입력데이터

2. 1. 1 시간데이터

현재 대기질 예측 시 6시간 간격으로 예보하고 있으며 이를 위해 기존의 시간당 데이터 (24시간 데이터)를 6시간 평균데이터로 만들어 표 1과 같이 정의하였다. T1, T2, T3, T4의 시간대를 합쳐 D00로 당일 하루를 정의하였다. 같은 방식으로 D01 (T5, T6, T17, T8)과 D02 (T9, T10, T11, T12)로 정의하였다.

Convert existing hourly data (24 hours data) to 6-hour average data time.

2. 1. 2 입력인자

입력인자 중 측정데이터는 대기질 인자와 기상인자를 사용하였다. DNN-1 모델에서는 대기질 인자 6개와 기상인자 8개까지 총 14개의 입력인자와 더불어 T시간에 해당하는 CMAQ 예측데이터 12개를 사용하였다. 대기질 측정데이터와 기상관측데이터 CMAQ 예측데이터에 대한 설명은 표 2에 나타내었다. DNN-2 모델에서는 DNN-1에 새로운 추가인자로 PM2.5의 구성 성분인 NO3-, SO42-, NH4+, OM을 추가하여 총 30개의 입력인자를 사용하였다.

사용된 CMAQ 예측데이터는 국립환경과학원 (National Institutof Environmetal Research, Seoul, Republic of Korea, NIER)의 데이터를 사용하였다. 그림 1에 CMAQ 모델값과 측정값의 시계열 비교하였을 때 CMAQ가 과대모의하고 있는 것을 확인할 수 있다.

Fig. 1.

Comparison of obs and CMAQ for PM2.5.

PM2.5의 구성 성분은 그림 2에 큰 빨간색 원으로 표시된 불광동 측정데이터를 사용하였다. NO3-, SO42-, NH4+, OM에 결측치가 확인되어, 결측치를 대체하기 위해 KNN 기법을 활용하여 결측값을 보완하였다. KNN 알고리즘은 머신러닝 알고리즘 중 하나로 공간에 분포하는 데이터에 대하여 k개의 가까운 이웃을 정하고 다수결 방식으로 데이터의 레이블을 할당하는 분류 방식이다 (Im and Lee, 2022). KNN의 알고리즘 특성은 방법이 간단하고 학습 단계에서 처리작업의 최소화가 가능하다는 점이다 (Lee, 2004).

Fig. 2.

Geographic map of Seoul, South Korea, northeast Asia showing locations of air quality and weather monitoring stations in Seoul.

본 연구에서는 KNN을 사용하여 추가로 넣어주는 4개의 입력인자의 결측값을 채워 사용하였다. KNN 모델에 대한 검증은 K-fold 교차검증을 통해 이루어진다.

표 3에 KNN 모델 구동 전 데이터의 총 개수와, 결측치 개수, 평균, 최소, 최대, 25%, 50%, 75% 등을 분석하였다. 결측치의 경우 각각 7717, 7712, 8158, 8817개로 약 15%가량의 결측치를 포함하였다. 표 4는 KNN을 사용하여 결측치를 대체한 결과로 평균값, 중간값, 25% 값, 75% 값, 최솟값과 최댓값의 큰 차이가 없음을 확인하였다.

Data prior to filling missing values through KNN.

Describe filled missing values through KNN.

또한, KNN의 검증을 위해 K-fold 교차검증 방식을 사용하였다. K-fold 교차검증은 K-fold Cross Validation이라고 하며, 가지고 있는 데이터를 k개의 그룹으로 나누어 그 그룹 중 하나를 추출하고 Test Set으로 사용한다. K-fold는 모든 데이터를 Test와 Training으로 사용할 수 있고 과적합의 염려가 크지 않다는 장점이 있다 (Lee et al., 2021). 5번의 검증을 진행했으며 평균 MAE는 6.97E-04로 낮게 나타나 KNN 모델이 잘 수행되었음을 확인하였다.

2. 2 DNN

DNN은 방대한 양의 데이터를 다양한 비선형 변환기법을 통해 높은 수준의 학습을 하는 심층 머신러닝 알고리즘을 의미한다. DNN은 단순한 인공신경망에 비해 더욱 정교한 기계학습이 가능하며 (Cho et al., 2022), Hidden Layer의 양이 많아질수록 학습의 성능은 증가한다. 그림 3을 통해 DNN의 구조를 알 수 있다. 본 연구에서는 4개 이상의 Hidden Layer와 Hyper Parameter Tuning을 통하여 성능을 향상시키고 비교평가를 통해 최적의 Hidden Layer의 개수와 Hyper Parameter를 도출하였다. 또한, 기존에 26개의 입력인자를 사용한 DNN 모델에 대해서는 DNN-1이라고 명명하였으며 30개의 입력인자를 넣어 적용한 DNN 모델에 대해서는 DNN-2라고 명명하였다.

Fig. 3.

Structure of DNN.

본 연구에서 사용된 DNN-1과 DNN-2에 대한 DNN Layer의 구성과 Hidden Layer 개수는 표 5의 Input Vector를 제외하고 동일하게 구성하였다. Input Vector에서 DNN-1에는 12개의 시간대와 26개 인자를, DNN-2에는 30개의 인자를 사용하였다. Hidden Layer의 노드 수는 DNN-1과 DNN-2를 동일하게 설정하였다. 마지막 Output Layer를 통해 12개의 시간대의 PM2.5를 도출하였다. 이때 Hidden Layer들을 거치며 각 인자 간의 계산을 통해 최종 Output을 도출하였다.

Configuration and number of hidden layers for DNN-1 and DNN-2.

DNN 모델을 구동하기에 앞서 Hyper Parameter를 설정하였다. 신경망 모델은 layer별 node의 수, hidden layer의 수, 학습 횟수, 규제에 따라 각기 모델의 출력이 달라져 예측 모델에 맞는 적합한 hyperparameter 선정 작업이 중요하다 (Cho et al., 2019). Hyper Parameter는 딥러닝 모델 구현을 위해 모델 내에서 사용자가 직접 설정값을 세팅하는 딥러닝 모델 매개변수이다. Hyper Parameter의 종류에는 Learning Rate, Batch-Size, Epoch 등이 있다. Epoch는 그림 4와 같이 모든 데이터 셋을 한 번 학습하는 것을 1-Epoch라고 칭하며, 하나의 Epoch를 수행할 때, 메모리의 한계와 속도 저하를 막기 위해 전체 데이터를 나누어서 학습을 하였다. 이때 나누어진 데이터를 Batch라고 하며, 나누는 크기를 Batch-Size라고 한다. DNN은 미분을 통한 경사하강법을 통해 최적의 Global Minimum을 찾아가 가중치 (Weight)인 W 값을 구한다. 이때 미분 기울기의 이동 Step을 Learning Rate라고 한다.

Fig. 4.

Batch-size and epoch structure.

본 연구에서 적용된 DNN-1과 DNN-2의 Hyper Parameter는 표 6과 같으며, 두 모델의 차이점으로 Epoch가 있다. Epoch가 차이가 나는 이유는 Epoch 설정 시에 Early Stopping을 적용하여 Epoch가 증가함에 따라 가장 최적의 값에서 멈출 수 있도록 했기 때문이다. Learning Rate의 경우 검증과정에서 학습의 MAE와 Validation_MAE가 동일하게 내려가는 그래프를 기준으로 좋은 것을 판단하였다. DNN-1과 DNN-2의 경우 모두 10-7일 때 그림 5, 6과 같은 형태로 그래프가 나타나기 때문에 최적의 Learning Rate라고 설정하였다.

Hyper parameters applied to DNN-1 and DNN-2 used in this study.

Fig. 5.

Verification graph with loss and MAE in DNN-1.

Fig. 6.

Verification graph with loss and MAE in DNN-2.

2. 3 모델 평가지표

본 연구에서는 Accuracy (ACC), Probability Of Detection (POD), False Alarm Rate (FAR), Root Mean Square Error (RMSE), Mean Bias (MBIAS)를 통해 모델의 성능을 평가하였다. 그림 7은 모델 평가지표의 계산을 설명하는 그림이며 ACC, POD, FAR는 해당 지표를 통해 계산이 이루어진다. 식 1~6은 각각 ACC, POD, FAR, RMSE, MBIAS, r에 대한 식이다. 이때 ACC에서 사용된 N은 데이터 전체의 개수를 의미하며 RMSE와 MBIA의 n은 데이터 포인트의 개수, yi는 실제값, yi^는 예측값을 나타내며, i는 1부터 n까지 변화하는 값이다. r에서는 주어진 데이터 쌍 (x, y), (x, y), ... , (xn, yn)에서 x와 y의 샘플 평균을 각각 x-y-라고 칭하였다.

Fig. 7.

Evaluation criteria for forecast performance.

본 연구에서는 고농도의 기준을 35 µg/m3으로 설정하였다. 그림 7의 a, b, c, d는 각각 고농도의 탐지에 관련된 것이며 예측이 고농도가 아니며 측정값도 고농도가 아닌 경우 a로 집계된다. 예측에서는 고농도라고 예측하였으나, 실제 측정값은 고농도가 아닌 경우 b로 집계된다. 고농도라고 예측하지 못했으나 실제 측정값은 고농도를 나타내고 있는 경우 c로 집계되며, 고농도로 예측하였고 실제 측정값도 고농도인 경우 d로 집계된다. 또한 15 µg/m3 미만은 good, 15 µg/m3 이상 35 µg/m3 미만은 moderate, 35 µg/m3 이상 75 µg/m3 미만은 bad, 75 µg/m3 이상은 very bad로 나누어 평가하였다.

ACC%=k+p+u+zN×100(1) 
POD%=dc+d×100(2) 
FAR%=bb+d×100(3) 
RMSE=1n×yi^-yi2(4) 
MBIAS =1n×yi^-yi(5) 
r=x-x-×y-y^x-x-2×y-y^2(6) 

2. 4 XAI

딥러닝 모델은 내부의 해석이 불가능하다. 이에 따라 모델 성능을 증명하기 위해 제시된 모델을 통해 데이터 강점의 경향성을 증명할 수 있으나 객관적인 강점에 대해서 증명하기는 어렵다 (Han et al., 2022).

이를 위해 개발된 XAI는 인공지능 (AI)의 판단 이유를 설명하기 위해 개발되고 있는 기술로 인공지능 (AI)이 가지고 있는 해석적 부분의 한계를 해결하기 위해 고안되었다 (Oh, 2022). 이미지 데이터를 다루는 딥러닝 모델을 대상으로 적용 가능한 대표적인 방법론은 Activation Based Methods (ABM), Backpropagation Based Methods (BBM), Perturbation Based Methods (PBM) 등이 있다 (Wagner et al., 2019).

먼저 ABM의 경우 각 신경망 층의 활성화 값들이 선형 결합한 형태의 가중치를 사용하여 이미지 픽셀별 중요도를 계산한다. BBM은 각 입력값에 대해 역전파를 통한 오차를 계산하여 이미지 픽셀별 중요도를 나타내는 방법이며, 대표적인 기법으로는 LRP가 있다. PBM은 입력값의 변화에 따른 예측값의 변화량을 통해 픽셀별 중요도를 파악하는 방법이며, 대표적인 기법으로 Local Interpretable Model-agnostic Explanation (LIME)이 있다 (Lee et al., 2022).

본 연구에서는 XAI를 이용하여 LRP 분석과 함께 각 인자의 기여도를 평가하였다.


3. 연구 결과

3. 1 모델 평가지표를 통한 일평균 비교

모델 평가지표를 이용하여 DNN-1과 DNN-2를 비교하였다. 미세먼지 예측은 T시간 중 T5, T6, T7, T8에 해당하는 D01에 대해서 중점적으로 분석하였으며, D00과 D02에 대해서도 분석을 진행하였다. 모델 평가지표를 통한 결과는 그림 8~10표 7에 나타내었다. 해당 지표를 분석하기 위해서 비교군으로 CMAQ 모델을 사용하였다. 먼저 그림 8그림 9를 통해 시계 열 그래프와 상관도 그래프를 분석하였다. D01을 중점으로 분석한 결과, 시계열 그래프에서 표시된 빨간 박스 부분은 측정값인 초록색 선을 DNN의 예측값을 나타내는 빨간색 선이 따라가지 못하는 것으로 보아 DNN-1과 DNN-2 모두 고농도를 예측하지 못하고 있음을 보여준다. 하지만 빨간 박스 부분인 특정 고 농도를 제외한 부분에서 실제 측정값을 잘 모사하였다. 산점도를 통해 알 수 있는 R 값은 DNN-1이 0.74, DNN-2가 0.73으로 높은 상관도를 나타내었다.

Fig. 8.

Time series graph and scatter plot of DNN-1 (measurement: green, CMAQ prediction: dotted, model DNN: red).

Value of comparative analysis by D00, D01, D02.

Fig. 9.

Time series graph and scatter plot of DNN-2 (measurement: green, CMAQ prediction: dotted, model DNN: red).

모델 평가지표에 대한 분석은 D01을 기준으로 진행하였으며 그림 10표 7에 나타냈다. MBIAS는 그 값이 0 µg/m3에 가까울수록 일치도가 높은 것을 나타내며, DNN-2는 거의 0에 유사한 수치를 나타냈다. RMSE는 값이 0 µg/m3에 가까울수록 일치도가 높 으며, 3개의 모델 중 DNN-2에서 가장 낮은 값을 나타냈다.

Fig. 10.

Comparative analysis by D00, D01, D02.

POD는 고농도를 감지할 확률을 의미하고 FAR은 고농도 감지 중 고농도가 아니었으나, 고농도로 감지한 수치를 나타내며 오경보에 대한 수치이다. 따라서 POD는 높으면서 동시에 FAR이 낮은 수치를 가지는 모델이 좋은 예측성을 나타낸다. CMAQ의 경우 3개의 모델 중 가장 높은 값의 POD를 가지고 있지만, 앞서 언급한 것처럼 과대모의하는 경향이 있기에 POD 가 높으며, FAR 또한 60%를 초과하기 때문에 좋은 예측 결과라고 말할 수 없다. 즉, 고농도 탐지 확률은 가장 높으나 탐지한 고농도가 실제 측정에서 고농도가 아닐 확률이 60% 이상임을 나타낸다.

DNN-2에서 POD는 60.52%이며, FAR은 34.75% 이다. DNN-1의 경우 POD는 71.05%이며, FAR은 42.55%이다. POD 측면에서 DNN-1과 DNN-2를 비교했을 때 DNN-1이 높게 나타났으나, FAR의 경우에는 DNN-2가 더 낮은 수치를 나타났다. 이는 DNN-2에 사용된 새로운 인자들은 고농도 감지에서는 도움을 주지 못하고 있으나, 고농도에 대한 오경보율을 낮추는 데 도움이 된다 판단된다. 마지막으로 ACC는 유일하게 DNN-2 모델만이 70% 이상의 정확도를 나타냈다. 종합적으로 DNN-2 모델이 CMAQ과 DNN-1보다 더 개선된 예측 정확도를 보여준다.

3. 2 XAI 분석

본 연구에서는 각 입력인자가 PM2.5농도 예측에 있어 어느 정도의 영향이 있는지 확인하기 위해 XAI 기법 중 LRP를 사용하였다. 각 인자가 PM2.5 농도를 예측함에 있어 영향을 미치는 Relevance Score를 도출한 뒤 이를 중요도 (Importance, %)로 계산하였다. 계산방법은 각 시간대의 예측값에 대한 각 인자의 Relevance Score를 모두 더한 뒤 각 인자의 Relevance Score를 나누어 중요도 (%)로 표시하였다.

또한 각 인자의 중요도는 각 중요도의 값을 절댓값으로 변경한 뒤 순위를 정한다. 이는 각 중요도의 부호는 각 인자와 예측값의 음과 양의 관계를 나타내기 때문이다.

먼저, 기존 26개의 인자를 사용하여 PM2.5를 예측한 DNN-1 모델의 2021년의 PM2.5 예측 결과에 따른 각 인자의 Relevance Score를 중요도로 변환하여 연평균으로 D00, D01, D02를 분석했을 때 표 8과 같으며 이때 노란색으로 표시한 부분은 각 D00, D01, D02에서 중요도가 높은 상위 6개이다. 이때 f_PM2_5_FT 01~12는 CMAQ의 각 시간대의 예측값을 의미한다. D00의 경우 O_O3, O_RH, O_U, O_V, O_ta, f_PM2_5_FT11이다. D01의 경우 O_O3, O_RH, O_U, O_ta, O_td, f_PM2_5_FT13이다. D02의 경우 O_CO, O_PM2_5, O_ta, f_PM2_5_FT07, f_PM2_5_FT12이다.

Importance ranking via LRP of DNN-1.

이를 통해 D00, D01의 경우 과거의 기상인자인 O_U, O_V에 대한 영향 및 O_radiation과 O_ta를 중점적으로 본다. 또한 일부 CMAQ의 예측 농도 및 대기 중 오염물 중 O3를 중요한 인자로 취급하며 PM2.5 농도를 예측하였다. D02의 경우 과거의 기상인자보다는 과거 오염물질의 농도와 CMAQ 예측값을 통해 PM2.5를 예측하였다.

DNN-2 모델 또한 위와 같은 방법으로 1년 전체를 평가했으며, 이를 표 9에 정리하였다. 표 9에도 동일하게 상위 6개에 인자를 노란색으로 표시하였으며 새롭게 추가된 인자인 NO3-, SO42-, NH4+, OM을 주황색으로 표시하였다.

Importance ranking via LRP of DNN-2.

D00의 경우 O_NO2, O_PM2_5, O_V, O_ta, O_radiation, f_PM2_5_FT02이다. D01의 경우 O_RH, O_U, O_V, O_ta, O_td, O_radiation이다. D02의 경우 O_PM2_5, O_Pa, O_V, O_ta, O_radiation, f_PM2_5_FT12이다.

즉, 새로 추가한 인자들 (NO3-, SO42-, NH4+, OM)은 높은 중요도를 가지지 않았으며, DNN-1과 동일하게 주로 기상인자 (O_ta, O_td, O_radiation, O_RH, O_U, O_V)의 중요도가 큰 값을 가진다. 또한 일부 대기오염물질 및 CMAQ 모델의 예측값 일부가 높은 중요도를 가지고 PM2.5를 예측하는 것으로 나타난다. 다만 위 결과는 1년을 예측한 전체 결과를 평균하여 분석하였기 때문에 계절과 시간에 따른 인자별 특징은 반영되지 않았다.


4. 연구 결론

National Institutof Environmetal Research, Seoul, Republic of Korea (NIER)의 미세먼지 예보에 사용되는 CMAQ 모델은 현재 과대모의하고 있으며, CMAQ 모델의 특징상 미세먼지의 복잡한 유기화학반응을 모두 고려하지 못하고 있다. 이러한 단점을 비교적 간단한 Deep Neural Network (DNN) 모델을 사용하여 보완할 수 있는지를 평가하는 것이 주 목적이다. DNN 모델은 대한민국의 수도인 서울지역을 대상으로 모델의 학습기간은 2016~2020년, 평가기간을 2021년으로 하였다. DNN 모델은 대기질 측정데이터의 차이에 따라 도시대기측정망의 측정데이터와 CMAQ 예측데이터를 사용한 DNN-1과 DNN-1에 집중측정소의 PM2.5 성분측정데이터 (NO3-, SO42-, NH4+, Organic Matter)를 추가한 DNN-2 모델 2개를 개발하였다. 모델은 3일간 PM2.5를 예측하며, 평가는 6시간 간격으로 예측결과값이 나오나 각 모델의 국내 예보등급에 맞추어 예보 정확도 향상 여부를 확인하기 위하여 당일 (D00), 내일 (D01), 모레 (D02) 일평균 농도에 대해 분석하였다. 또한, 각 개발된 DNN 모델에 eXplainable Artificial Intelligence (XAI) 기법 중 Layer-wise Relevance Propagation (LRP) 방법을 이용하여, 모델에서의 인자들의 중요도 변화를 분석하였다.

모델 평가지표와 XAI 분석을 통해 도출한 결론은 다음과 같다.

모델 평가지표를 통한 일평균 분석에서 DNN-2 모델의 ACC, FAR, MBIAS, RMSE가 CMAQ와 DNN-1 모델보다 개선되었다. 다만 POD의 경우 개선되지 않는 모습을 보였는데, 이는 FAR과 서로 보완적인 관계로 FAR의 개선이 POD의 개선에는 감소요인으로 작용하기 때문이다.

XAI를 통한 분석 결과 기상인자 (O_ta, O_td, O_radiation, O_RH, O_U, O_V)가 높은 중요도를 가지는 것으로 나타났다. PM2.5 성분측정데이터에서는 D00에서 NO3-, D01과 D02에서 OM이 높은 중요도로 나타났으나 기상인자들에 비해서는 높은 중요도로 나타나지 않았다. 본 연구에서 진행된 XAI의 결과는 고농도 사례가 아닌 연중 결과를 분석하였기 때문에 미세먼지 구성 성분에 대한 영향이 적었기 때문으로 판단된다.

향후 ACC, FAR, MBIAS, RMSE 등 POD를 제외한 모델 평가지표에 대해서는 현재의 수치를 유지시키면서 POD의 수치를 개선시키는 연구가 필요할 것으로 사료되기 때문에 독립적인 모델 사용이 아닌 여러 모델을 융합한 모델 개발을 진행할 예정이다. 또한 고농도 사례에 대한 XAI 분석을 통해 각 인자들의 관계를 분석하여 인공지능 모델의 물리 화학적 해석이 가능할 것으로 사료된다.

Acknowledgments

본 논문은 환경부의 재원으로 국립환경과학원의 지원을 받아 수행하였습니다 (NIER-2022-03-00-008).

이 성과는 정부 (환경부)의 재원으로 한국환경산업기술원의 미세먼지관리 특성화대학원 사업의 지원을 받아 수행된 연구입니다.

References

  • Chemel, C., Fisher, B.-E.-A., Kong, X., Francis, X.-V., Sokhi, R.-S., Good, N., Folberth, G.-A. (2014) Application of chemical transport model CMAQ to policy decisions regarding PM2.5 in the UK, Atmospheric Environment, 82, 410-417. [https://doi.org/10.1016/j.atmosenv.2013.10.001]
  • Chen, S., Ren, X., Mao, J., Chen, Z., Brune, W.-H., Lefer, B., Crawford, J.-H. (2010) A comparison of chemical mechanisms based on TRAMP-2006 field data, Atmospheric Environment, 44(33), 4116-4125. [https://doi.org/10.1016/j.atmosenv.2009.05.027]
  • Cho, K.-W., Jung, Y.-J., Lee, J-S., Oh, C.-H. (2019) Separation Prediction Model by Concentration based on Deep Neural Network for Improving PM10 Forecast Accuracy, Journal of the Korea Institute of Information and Communication Engineering, 24(1), 8-14, (in Korean with English abstract). [https://doi.org/10.6109/jkiice.2020.24.1.8]
  • Cho, S.-W., Han, D.-H., Kim, J.-W., Lee, S.-J., Kim, J.-H. (2022) SOH estimation of Li-ion battery reflecting the latest health indicator data set based on DNN, The Korean Institute of Power Electronics Conference, 125-127.
  • Han, C., Oh, J., Lim, Y.-H., Kim, S., Hong, Y.-C. (2020) Long-term exposure to fine particulate matter and development of chronic obstructive pulmonary disease in the elderly, Environment International, 143, 105895. [https://doi.org/10.1016/j.envint.2020.105895]
  • Han, J.-H., Park, S.-U., Hong, S.-K. (2022) Performance Evaluation of the Continuos Wavelt Transformation Data in Motor Fault Diagnosis through XAI Algorithm, The Transactions of the Korean Institute of Electrical Engineers, 71(1), 225-232. [https://doi.org/10.5370/KIEE.2022.71.1.225]
  • Hong, J.-W., Hong, J.-K., Kim, J.-H. (2019) Contingent Valuation Survey on Changes in Citizens’ Perception on Atmospheric Pollution in Seoul, Korea, Atmosphere, 29(2), 213-218.
  • Im, H.-C., Lee, S.-S. (2022) Interference Elimination Method of Ultrasonic Sensors Using K-Nearest Neighbor Algorithm, Journal of IKEEE, 26(2), 169-175,
  • Jung, E.-M., Kim, K.-N., Park, H., Shin, H.-H., Kim, H.-S., Cho, S.-J., Kim, S.-T., Ha, E.-H. (2020) Association between prenatal exposure to PM2.5 and the increased risk of specified infant mortality in South Korea, Environment International, 144, 105997. [https://doi.org/10.1016/j.envint.2020.105997]
  • Kang, Y.-H., Oh, I.-B., Jung, J.-H., Bang, J.-H., Kim, Y.-K., Kim, S.-T. Kim, E.-H., Hong, J.-H, Lee, D.-G. (2014) The Impact of Chemical Mechanisms (SAPRC99 and CB05) on Ozone Prediction using the CMAQ Model over the Seoul Metropolitan Region, Korean Society for Atmospheric Environment Published Journal, 205.
  • Kim, K.-N., Kim, S., Lim, Y.-H., Song, I.-G., Hong, Y.-C. (2020) Effects of short-term fine particulate matter exposure on acute respiratory infection in children, International Journal of Hygiene and Environmental Health, 229, 113571. [https://doi.org/10.1016/j.ijheh.2020.113571]
  • Koo, Y.-S., Yun, H.-Y., Choi, D.-R., Han, J.-S., Lee, J.-B., Lim, Y.-J. (2018) An analysis of chemical and meteorological characteristics of haze events in the Seoul metropolitan area during January 12-18, 2013, Atmospheric Environment, 178, 87-100. [https://doi.org/10.1016/j.atmosenv.2018.01.037]
  • Lee, D.-C., Byun, S.-Y., Kim, K.-H. (2022) An Inspection of CNN Model for Citrus Canker Image Classification Based on XAI: Grad-CAM, Journal of The Korean Data Analysis Society, 24(6), 2133-2142. [https://doi.org/10.37727/jkdas.2022.24.6.2133]
  • Lee, H.-M., Park, R.-J., Henze, D.-K., Lee, S., Shim, C., Shin, H.-J., Woo, J.-H. (2017) PM2.5 source attribution for Seoul in May from 2009 to 2013 using GEOS-Chem and its adjoint model, Environmental Pollution, 221, 377-384. [https://doi.org/10.1016/j.envpol.2016.11.088]
  • Lee, J.-M. (2004) An Efficient kNN Algorithm, Korea Information Processing Society, Software and Data Engineering, 117, 849-854. [https://doi.org/10.3745/KIPSTB.2004.11B.7.849]
  • Lee, Y.-E., Choi, N.-J., Byun, Y.-H., Kim, D.-W., Kim, K.-C. (2021) Rubber O-ring defect detection system using K-fold cross validation and support vector machine, Journal of the Korean Society of Visualization, 19(1), 68-73.
  • Lin, C.-J., Ho, T.C., Chu, H.-W., Yang, H., Chandru, S., Krishnarajanagar, N., Chiou, P., Hopper, J.-R. (2005) Sensitivity analysis of ground-level ozone concentration to emission changes in two urban regions of southeast Texas, Journal of Environmental Management, 75, 315-323. [https://doi.org/10.1016/j.jenvman.2004.09.012]
  • Lv, Z., Wei, W., Cheng, S., Han, X., Wang, X. (2020) Meteorological characteristics within boundary layer and its influence on PM2.5 pollution in six cities of North China based on WRF-Chem, Atmospheric Environment, 228, 117417. [https://doi.org/10.1016/j.atmosenv.2020.117417]
  • Oh, D.-H. (2022) Utilization of Artificial Intelligence Technology in the Military and Suggestion of XAI Technology Application Direction, Journal of Digital Contents Society, 23(5), 943-951. [https://doi.org/10.9728/dcs.2022.23.5.943]
  • Saide, P.-E., Carmichael, G.-R., Spak, S.-N., Gallardo, L., Osses, A.-E., Mena-Carrasco, M.-A., Pagowski, M. (2011) Forecasting urban PM10 and PM2.5 pollution episodes in very stable nocturnal conditions and complex terrain using WRF-Chem CO tracer model, Atmospheric Environment, 45(16), 2769-2780. [https://doi.org/10.1016/j.atmosenv.2011.02.001]
  • Wagner, J., Kohler, J., Gindele, T., Hetzel, L., Wiedemer, J., Behnke, S. (2019) Interpretable and Fine-GrainedVisual Explanations for Convolutional Neural Networks, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 9097-9107. [https://doi.org/10.1109/cvpr.2019.0093]
Authors Information

이주용 (안양대학교 일반대학원 환경공학과 석사과정) (juyong214@naver.com)

이채연 (안양대학교 일반대학원 환경공학과 석사과정) (dlcoduscjswo@naver.com)

정민우 (안양대학교 일반대학원 환경공학과 석사과정) (jk50022@naver.com)

안준영 (국립환경과학원 기후대기연구부 연구관) (nierair@korea.kr)

왕경희 (안양대학교 일반대학원 환경공학과 박사과정) (skyhui96@nate.com)

최대련 (안양대학교 환경에너지공학과 교수) (drchoi@anyang.ac.kr)

윤희영 (안양대학교 환경에너지공학과 교수) (huiyoung@anyang.ac.kr)

Fig. 1.

Fig. 1.
Comparison of obs and CMAQ for PM2.5.

Fig. 2.

Fig. 2.
Geographic map of Seoul, South Korea, northeast Asia showing locations of air quality and weather monitoring stations in Seoul.

Fig. 3.

Fig. 3.
Structure of DNN.

Fig. 4.

Fig. 4.
Batch-size and epoch structure.

Fig. 5.

Fig. 5.
Verification graph with loss and MAE in DNN-1.

Fig. 6.

Fig. 6.
Verification graph with loss and MAE in DNN-2.

Fig. 7.

Fig. 7.
Evaluation criteria for forecast performance.

Fig. 8.

Fig. 8.
Time series graph and scatter plot of DNN-1 (measurement: green, CMAQ prediction: dotted, model DNN: red).

Fig. 9.

Fig. 9.
Time series graph and scatter plot of DNN-2 (measurement: green, CMAQ prediction: dotted, model DNN: red).

Fig. 10.

Fig. 10.
Comparative analysis by D00, D01, D02.

Table 1.

Convert existing hourly data (24 hours data) to 6-hour average data time.

T - Time
D00 D01 D02
T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12
00:00∼06:00 06:00∼12:00 12:00∼18:00 18:00∼24:00 00:00∼06:00 06:00∼12:00 12:00∼18:00 18:00∼24:00 00:00∼06:00 06:00∼12:00 12:00∼18:00 18:00∼24:00

Table 2.

Air quality factors, meteorological measurement data and CMAQ forecast data used as input factors.

Air Korea
[General Urban Air
Measurement Network]
Air quality
observation
O_SO2 (ppm), O_O3 (ppm), O_NO2 (ppm), O_CO (ppm), O_PM10 (μg/m3), O_PM2_5 (μg/m3)
Meteorological
observation
O_ta (K), O_td (K), O_Pa (hPa), O_RH (%), O_U (m/s), O_V (m/s), O_RN_ACC (mm),
O_radiation (0.01 MJ/h-m2)
CMAQ model CMAQ forecast T01~T12 f_PM2.5 (f_PM2_5_FT01~f_PM2_5_FT12)
NIER
(National Institute of
Environmetal Research,
Seoul, Republic of Korea)
Added
new input
argument
NO3-, SO42-, NH4+, OM
[Variable description]
• O_SO2 (Sulfur dioxide) • O_O3 (Ozone) • O_CO (Carbon monoxide) • O_NO2 (Nitrogen dioxide)
• O_V (Vertical velocity)
O_U (Horizontal velocity)
• O_td (Dew point temperature) • O_ta (Temperature) • O_Pa (Pressure)
•O_radiation (Solar radiation) • O_RN_ACC (Accumulative precipitation) • NO3- (Nitrate ion) • SO42- (Sulfate ion)
• NH4+ (Ammonium ion) • OM (Organic matter)
•O_PM10 and O_PM2_5 (Particulate matter with aerodynamic diameters less than 10 μm and 2.5 μm, respectively)

Table 3.

Data prior to filling missing values through KNN.

2016∼2021
SO42- (μg/m3) NO3- (μg/m3) NH4+ (μg/m3) OM (μg/m3)
count 44883 44888 44442 43783
null_count 7717 (14.67%) 7712 (14.66%) 8158 (15.51%) 8817 (16.76%)
mean 3.65 5.04 2.94 3.39
std 3.44 6.63 3.09 2.21
min 0 0 0 0
25% 1.37 0.78 0.79 1.84
50% 2.47 2.38 1.92 2.96
75% 4.89 6.7 4 4.49
max 37.3 70.43 30.68 21.12

Table 4.

Describe filled missing values through KNN.

2016∼2021
SO42- (μg/m3) NO3- (μg/m3) NH4+ (μg/m3) OM (μg/m3)
count 52583 52583 52583 52583
null_count 0 0 0 0
mean 3.75 4.98 2.97 3.31
std 3.37 6.4 3 2.11
min 0 0 0 0
25% 1.46 0.84 0.87 1.84
50% 2.66 2.51 2.04 2.92
75% 5.07 6.61 4.06 4.35
max 37.3 70.43 30.68 21.12

Table 5.

Configuration and number of hidden layers for DNN-1 and DNN-2.

DNN-1 DNN-2
Input vector (None, 12, 26) Input vector (None, 12, 30)
Flatten (None, 312) Flatten (None, 360)
Hidden layer 1 (None, 512) Hidden layer 1 (None, 512)
Hidden layer 2 (None, 256) Hidden layer 2 (None, 256)
Hidden layer 3 (None, 128) Hidden layer 3 (None, 128)
Hidden layer 4 (None, 64) Hidden layer 4 (None, 64)
Output layer (None, 12) Output layer (None, 12)

Table 6.

Hyper parameters applied to DNN-1 and DNN-2 used in this study.

DNN-1 DNN-2
Input vector (None, 12, 26) Input vector (None, 12, 30)
Optimizer function Adam Optimizer function Adam
Loss function MAE Loss function MAE
Epochs 2925 Epochs 2614
Batch_Size 5 Batch_Size 5
Learning_Rate 10-7 Learning_Rate 10-7

Table 7.

Value of comparative analysis by D00, D01, D02.

T_h MODEL ACC (%) POD (%) FAR (%) RMSE (μg/m3) MBIAS (μg/m3) r
D00 DNN-1 73.41 76.35 36.87 8.74 2.26 0.82
DNN-2 77.60 68.24 27.34 8.38 0.46 0.83
CMAQ 60.50 76.35 67.15 14.62 5.02 0.67
D01 DNN-1 67.48 71.05 42.55 10.39 2.76 0.74
DNN-2 71.74 60.53 34.75 10.24 0.41 0.73
CMAQ 62.60 76.32 63.06 14.69 4.60 0.66
D02 DNN-1 63.22 70.59 44.33 10.93 3.10 0.70
DNN-2 68.46 60.13 36.55 10.74 0.51 0.69
CMAQ 62.46 71.90 63.21 14.18 4.09 0.66

Table 8.

Importance ranking via LRP of DNN-1.

Year
ALL_time
NAME D00 rank D00 NAME D01 rank D01 NAME D02 rank D02
O_CO 10 -7.11 O_CO 7 14.80 O_CO 2 -26.55
O_NO2 19 2.63 O_NO2 14 -4.53 O_NO2 10 12.53
O_O3 4 19.08 O_O3 5 19.33 O_O3 15 6.44
O_PM10 26 -0.39 O_PM10 23 0.88 O_PM10 24 1.94
O_PM2_5 7 11.40 O_PM2_5 12 -6.01 O_PM2_5 3 25.50
O_Pa 12 5.95 O_Pa 10 9.06 O_Pa 4 19.52
O_RH 6 16.03 O_RH 4 -28.43 O_RH 11 -9.86
O_RN_ACC 18 2.75 O_RN_ACC 25 -0.63 O_RN_ACC 25 0.93
O_SO2 13 -5.46 O_SO2 18 -2.88 O_SO2 14 6.69
O_U 2 20.90 O_U 1 71.33 O_U 23 1.95
O_V 3 20.36 O_V 26 0.12 O_V 20 3.85
O_radiation 8 9.80 O_radiation 9 10.35 O_radiation 16 5.94
O_ta 1 23.57 O_ta 2 -39.86 O_ta 1 -39.79
O_td 11 -6.78 O_td 3 36.84 O_td 26 -0.36
f_PM2_5_FT01 14 -5.01 f_PM2_5_FT01 19 2.59 f_PM2_5_FT01 22 -2.96
f_PM2_5_FT02 23 1.69 f_PM2_5_FT02 13 5.34 f_PM2_5_FT02 21 -3.26
f_PM2_5_FT03 15 -4.26 f_PM2_5_FT03 6 17.24 f_PM2_5_FT03 18 -4.67
f_PM2_5_FT04 20 -2.05 f_PM2_5_FT04 8 -11.80 f_PM2_5_FT04 13 7.56
f_PM2_5_FT05 17 2.95 f_PM2_5_FT05 24 -0.87 f_PM2_5_FT05 8 13.20
f_PM2_5_FT06 9 8.17 f_PM2_5_FT06 15 -4.36 f_PM2_5_FT06 7 14.01
f_PM2_5_FT07 25 0.68 f_PM2_5_FT07 11 7.30 f_PM2_5_FT07 5 19.15
f_PM2_5_FT08 21 1.92 f_PM2_5_FT08 17 3.57 f_PM2_5_FT08 17 5.86
f_PM2_5_FT09 24 1.31 f_PM2_5_FT09 16 4.30 f_PM2_5_FT09 19 4.46
f_PM2_5_FT10 22 1.91 f_PM2_5_FT10 22 1.10 f_PM2_5_FT10 12 9.19
f_PM2_5_FT11 5 -17.02 f_PM2_5_FT11 21 -2.21 f_PM2_5_FT11 9 12.63
f_PM2_5_FT12 16 -3.02 f_PM2_5_FT12 20 -2.58 f_PM2_5_FT12 6 16.12

Table 9.

Importance ranking via LRP of DNN-2.

Year
ALL_time
NAME D00 rank D00 NAME D01 rank D01 NAME D02 rank D02
NH4+ 21 9.18 NH4+ 18 -1.28 NH4+ 29 0.15
NO3- 14 -17.80 NO3- 29 0.36 NO3- 20 -2.32
OM 15 16.68 OM 10 -3.34 OM 17 3.81
O_CO 7 32.96 O_CO 27 0.78 O_CO 16 -4.39
O_NO2 5 -34.19 O_NO2 25 -0.91 O_NO2 11 7.14
O_O3 30 0.64 O_O3 11 -2.82 O_O3 22 -1.96
O_PM10 20 10.81 O_PM10 21 -1.23 O_PM10 27 -1.10
O_PM2_5 4 -38.72 O_PM2_5 23 1.13 O_PM2_5 3 13.95
O_Pa 13 20.43 O_Pa 8 3.92 O_Pa 1 18.89
O_RH 8 32.51 O_RH 5 14.18 O_RH 30 0.10
O_RN_ACC 28 -1.10 O_RN_ACC 17 -1.47 O_RN_ACC 24 1.40
O_SO2 24 4.89 O_SO2 30 -0.09 O_SO2 26 1.14
O_U 26 2.18 O_U 4 19.53 O_U 13 -5.71
O_V 2 -64.28 O_V 2 -31.04 O_V 6 9.69
O_radiation 6 -34.07 O_radiation 6 -13.75 O_radiation 5 11.49
O_ta 1 76.57 O_ta 3 25.80 O_ta 4 -12.56
O_td 9 25.53 O_td 1 81.02 O_td 18 3.61
SO42- 29 -0.66 SO42- 16 -1.75 SO42- 19 2.50
f_PM2_5_FT01 18 12.41 f_PM2_5_FT01 24 -0.98 f_PM2_5_FT01 21 -2.32
f_PM2_5_FT02 3 44.95 f_PM2_5_FT02 15 -1.78 f_PM2_5_FT02 12 -7.06
f_PM2_5_FT03 25 4.58 f_PM2_5_FT03 19 -1.25 f_PM2_5_FT03 28 -0.81
f_PM2_5_FT04 22 -7.80 f_PM2_5_FT04 9 3.63 f_PM2_5_FT04 23 1.82
f_PM2_5_FT05 11 -23.93 f_PM2_5_FT05 26 -0.88 f_PM2_5_FT05 8 8.89
f_PM2_5_FT06 23 -7.35 f_PM2_5_FT06 28 -0.78 f_PM2_5_FT06 10 7.80
f_PM2_5_FT07 19 -11.53 f_PM2_5_FT07 7 4.13 f_PM2_5_FT07 15 4.96
f_PM2_5_FT08 16 14.22 f_PM2_5_FT08 13 2.12 f_PM2_5_FT08 9 8.44
f_PM2_5_FT09 27 -1.24 f_PM2_5_FT09 12 2.37 f_PM2_5_FT09 25 1.24
f_PM2_5_FT10 12 22.54 f_PM2_5_FT10 22 1.15 f_PM2_5_FT10 14 5.61
f_PM2_5_FT11 10 25.39 f_PM2_5_FT11 14 2.01 f_PM2_5_FT11 7 8.99
f_PM2_5_FT12 17 -13.75 f_PM2_5_FT12 20 1.25 f_PM2_5_FT12 2 16.64