Journal of Korean Society for Atmospheric Environment
[ Original Paper ]
Journal of Korean Society for Atmospheric Environment - Vol. 41, No. 1, pp.67-82
ISSN: 1598-7132 (Print) 2383-5346 (Online)
Print publication date 28 Feb 2025
Received 29 Nov 2024 Revised 10 Jan 2025 Accepted 04 Feb 2025
DOI: https://doi.org/10.5572/KOSAE.2025.41.1.067

PM2.5 공간 농도 분포 예측을 위한 Conv-LSTM 기반 AI 모델 개발

정민우 ; 이주용 ; 왕경희 ; 이채연 ; 한승희 ; 김희진 ; 손승민 ; 정필수 ; 최대련1) ; 윤희영1), *
안양대학교 일반대학원 환경공학과
1)안양대학교 환경에너지공학과
Development of a Conv-LSTM-Based AI Model for Forecasting PM2.5 Spatial Concentration Distribution
Min-Woo Jung ; Ju-Yong Lee ; Kyung-Hui Wang ; Chae-Yeon Lee ; Seung-Hee Han ; Hee-Jin Kim ; Seung-Min Sohn ; Peel-Soo Jeong ; Dae-Ryun Choi1) ; Hui-Young Yun1), *
Department of Environmental Engineering, Graduate School of Anyang University, Anyang, Republic of Korea
1)Department of Environmental & Energy Engineering, Anyang University, Anyang, Republic of Korea

Correspondence to: *Tel : +82-(0)31-5183-2135 E-mail : huiyoung@anyang.ac.kr

Abstract

The purpose of this study is to develop an AI model for forecasting the spatial distribution of PM2.5 concentrations over the Korean Peninsula for the next 24 hours. To achieve this, four Conv-LSTM (Convolutional Long Short-Term Memory) based AI models were proposed, and their forecasting performance was compared with that of the CMAQ (Community Multiscale Air Quality) model to identify the most suitable AI model for this task. The proposed AI models share an identical network structure but differ based on the application of the ReLU activation function: Case 1 (no ReLU function applied), Case 2 (ReLU applied to encoder and decoder layers), Case 3 (ReLU applied to the output layer), and Case 4 (ReLU applied to the encoder, decoder, and output layers). The results showed that although the proposed AI models did not outperform the CMAQ model in terms of data characteristic simulation, they exhibited improved prediction accuracy and spatial pattern simulation performance. Specifically, the Case 3 model exhibited the smallest range of RMSE values, with hourly RMSE ranging from 8.16 to 8.76 μg/m3 and spatial RMSE from 6.60 to 7.26 μg/m3. On average, the Case 3 model showed an improvement of 1.81 μg/m3 in RMSE and 1.31 μg/m3 in spatial RMSE over the CMAQ model, demonstrating the best prediction accuracy and spatial pattern simulation performance among the proposed AI models. Therefore, Case 3 was selected as the most suitable AI model for forecasting the 24-hour PM2.5 spatial concentration distribution over the Korean Peninsula. To evaluate the spatial distribution simulation performance of the selected Case 3, the PM2.5 concentrations during the selected high-concentration period were forecasted. The results showed that the model effectively simulated the movement trajectory and distribution, closely resembling the actual data, and accurately forecasted the high-concentration areas. The results of this study suggest that the predictive performance of AI models can vary depending on the use and placement of the ReLU activation function, and demonstrate the potential of the proposed Conv-LSTM-based AI models to overcome the limitations of chemical transport models like the CMAQ model. However, the AI model exhibited limitations in predicting peak concentration values at high-concentration points. Therefore, future research will focus on adjusting the proportion of high-concentration cases to enhance the AI model’s prediction performance.

Keywords:

PM2.5 forecast, CMAQ, Deep Learning Model, Conv-LSTM

1. 서 론

초미세먼지 (PM2.5)란 대기 중 입자의 직경이 2.5 μm 이하인 입자상 물질을 말하며, 입자의 크기가 작아 코나 기관지에 걸러지지 않고 체내에 직접 흡입되어 호흡기질환을 유발하고, 생성기작에 따라 발암물질을 포함할 수 있어 대기오염물질 중에서도 건강에 미치는 영향이 높으며 (WHO, 2013), 특히 심장질환, 만성폐쇄성 폐질환, 뇌출혈 등을 유발하는 것으로 보고되었다 (Cohen et al. 2017). 국내에서는 PM2.5로 인한 국민 건강 피해를 줄이고 대기질 개선을 위해 2014년부터 수도권 중심으로 PM2.5 예보제가 도입되었고 2015년에는 전국으로 범위가 확대되었으며 환경부에서는 Airkorea (www.airkorea.or.kr)를 운영하여 실시간 PM2.5 측정 농도와 오늘 (D + 0), 내일 (D+ 1), 모레 (D+ 2)의 PM2.5 농도 예측정보를 제공하고 있다.

현재 대기오염물질 농도 예측 시 활용되는 화학수송모델의 경우 입력자료의 불확실성과 화학반응 메커니즘의 한계, 기상변수의 영향 등과 같은 제약으로 인해 모델 예측 성능에 한계를 가지며 (Chen et al. 2010), 특히 CMAQ (Community Multiscale Air Quality Model) 모델의 경우 PM2.5 및 O3 농도 예측시 오차가 크게 발생한다 (Appel et al., 2021). 이러한 수치모델의 한계를 극복하기 위해 국내외에서는 비선형적 관계를 효과적으로 모델링하고 예측할 수 있 는 머신 러닝 기반의 딥러닝 알고리즘을 활용한 연구가 진행되고 있다. 문헌조사 결과, 많은 연구에서는 DNN (Deep Neural Networks), RNN (Recurrent Neural Networks), GCN (Graph Convolutional Networks) 기반의 알고리즘을 활용하여 특정 측정소 또는 특정 지역의 대기오염물질 농도를 예측하는 지점예측 AI 모델을 개발하였다 (Kim et al., 2023; Lee et al., 2023; Lee., 2023; Kim et al., 2022; Masood and Ahmad, 2021; Gil and Lee, 2021; Cho et al., 2019; Qi et al., 2019; Fan et al., 2017). 이러한 연구들은 특정 지점에서의 대기오염물질 측정자료, 기상 측정자료, 교통량 측정자료 등 예측하고자 하는 지점에서 측정된 지역적 자료를 활용하여 지점예측을 수행하고 있다.

다만, 대기오염물질 예측은 예측 지점의 환경 조건과 주변 지역의 환경 조건에 큰 영향을 받기 때문에, 예측 지점의 환경 조건만을 고려한 지점 예측은 정확성에 한계가 있을 수 있다. 따라서 최근 연구에서는 딥러닝 알고리즘 중 공간적인 특성을 반영할 수 있는 CNN (Convolutional Neural Networks) 기반 알고리즘과 시계열적 특성을 반영할 수 있는 RNN 기반 알고리즘을 복합적으로 사용하거나 결합하는 방식의 알고리즘을 활용하고 있다. 이를 통해 시공간적 특징을 고려하여 특정 지점이 아닌 넓은 지역의 대기질을 평가하고, 정책 수립에 중요한 정보를 제공할 수 있는 공간분포 농도를 예측하는 연구가 진행되고 있다.

Zhang et al. (2022)의 연구에서는 일별 에어로졸 광학 두께 (AOD) 데이터셋을 기반으로 중국 주장시의 일일 PM2.5 공간 농도 분포 자료를 생성하기 위해 CNN과 LSTM을 결합하여 시공간적 특성을 모두 고려할 수 있는 Conv-LSTM (Convolutional Long Short-Term Memory) 모델을 제안하였다. 연구에서는 원본 자료 (1월, 4월, 5월 데이터)에서 추출된 142 일의 자료로 구성된 10개의 서로 다른 학습자료를 생성하고 전통적인 시계열 예측 모델인 계절적 자기회귀 이동평균모델 (SARIMA Model)과 비교평가를 수행하였다. 연구결과, SARIMA 모델의 평균 RMSE (Root Mean Square Error)는 17.41 μg/m3, 제안된 Conv-LSTM 모델의 평균 RMSE는 14.94 μg/m3으로 Conv-LSTM 모델의 예측 성능이 높은 것으로 나타났다.

Alléon et al. (2020)의 연구에서는 약 50 km 해상도의 0.5° 그리드 영역의 유럽과 미국 전역의 미래 4일 (1시간 단위)의 대기오염물질을 예측하기 위해 대기질 측정소 측정값, AQPCM (Atmospheric Quality Physics and Chemistry Model)의 예측 값을 활용한 Conv-LSTM 알고리즘 기반의 AI 모델을 제안하였다. 연구에서는 2019년의 3월, 6월, 9월, 12월을 제외한 월의 자료를 학습자료로 사용하여 모델을 학습한 뒤 2019년의 3월, 6월, 9월, 12월을 예측하였다. 또한, 모델의 예측 성능 평가를 위해 벤치마크 방법인 “Constant benchmark”와 “Constant benchmark adjusted”을 활용한 예측결과와 예측 성능 비교평가를 수행하였다. 연구결과, Conv-LSTM 알고리즘 기반의 AI 모델의 PM2.5 24시간 평균 예측결과 및 96시간 평균 예측 성능이 MSLE (Mean Squared Logarithmic Error) 기준 유럽의 경우 0.116 μg/m3, 0.194 μg/m3이며, 미국의 경우 0.194 μg/m3, 0.155 μg/m3로 제안된 Conv-LSTM 알고리즘 기반 모델의 예측 성능이 가장 높은 것으로 나타났다.

Le et al. (2020)의 연구에서는 서울시의 PM2.5 공간 농도 분포 보간 및 미래의 12시간의 공간 농도 분포를 예측하는 Conv-LSTM 기반의 모델을 제안하였다. 연구에서는 2015년부터 2017년의 국내 서울시의 대기오염 자료, 기상 자료, 교통량, 평균 운전속도 자료와 베이징, 상하이, 산동 지역의 대기 오염 데이터를 모델의 입력자료로 사용하였다. 또한, 모델의 예측 성능 평가를 위해 Stacked FC-LSTM, CNN Encoder-Decoder 그리고 Qi et al. (2018)의 연구에서 제안한 Deep Air Learning (DAL)모델을 구현하여 비교평가를 수행하였다. 연구결과, 제안된 Conv-LSTM 기반 모델의 RMSE가 약 8.60 μg/m3으로 다른 모델들에 비해 평균적으로 약 4.67 μg/m3 낮아 제안된 모델이 예측성이 높은 것으로 나타났다.

본 연구는 Conv-LSTM 알고리즘을 기반으로 한반도의 내일 24시간 PM2.5 공간 농도 분포를 예측하는 AI 모델을 개발하는 것을 목적으로 한다. ReLU 함수는 AI 모델에 비선형성을 도입하여 성능 개선에 중요한 역할을 하지만, 사용 여부와 위치에 따라 모델의 예측 성능에 차이가 발생할 수 있다. 이에 따라, 동일한 Encoder-Decoder 네트워크 구조를 기반으로 ReLU 함수의 사용 여부 및 사용 위치에 따라 4가지 Conv-LSTM 알고리즘 기반 AI 모델을 제안하고, 이들 모델들과 CMAQ 모델 간의 예측 성능을 비교평가를 수행한다. 이를 통해 제안된 AI 모델 중 한반도 영역의 내일 24시간 PM2.5 공간 농도 분포 예측에 가장 적합한 AI 모델을 선정하고, 제안된 AI 모델이 CMAQ 모델과 같은 화학수송모델의 예측 성능 한계를 개선할 수 있는지 검토한다. 이때, CMAQ 모델과 WRF (Weather Research and Forecasting Model) 모델의 예측 자료를 AI 모델의 입력자료로 활용한다.


2. 연구 방법

2.1 사용자료

AI 모델에 사용되는 입력자료는 2019년부터 2022 년의 내일 24시간의 CMAQ 모델의 대기질 공간 농도 분포 예측 자료와 WRF 모델 (Weather Research and Forecasting Model)의 기상인자 공간 분포 예측 자료 그리고 CMAQ PM2.5 자료동화 자료를 사용하며 각 자료의 세부인자는 표 1에 정리하였다. 이때, 2019년~2021년 자료는 AI 모델의 학습에 사용되며 2022년의 자료는 AI 모델의 검증에 사용한다. 자료 중 CMAQ 모델과 WRF 모델의 예측 자료는 AI 모델의 입력자료로 사용되며 CMAQ PM2.5 자료동화 자료는 AI 모델의 Ground truth 자료로 사용한다.

Detailed features of CMAQ model air quality forecast data, WRF model weather forecast data, and Assimilation CMAQ PM2.5 forecast data: CMAQ model air quality forecast data and WRF model weather forecast data are 24-hour-ahead (D + 1) predictions of atmospheric pollutant and meteorological factor spatial distribution from 00:00 to 23:00, generated by the CMAQ and WRF models. Assimilation CMAQ PM2.5 forecast data consists of the spatial distribution of PM2.5 from the assimilation forecast data.

CMAQ 대기질 공간 농도 분포 예측자료는 그림 1의 구조로 2015년의 KORUS-AQ (Korea-U.S. Air Quality)와 2017년의 CAPSS (Clean Air Policy Support System) 배출량 자료와 WRF 모델 자료를 사용하여 9 km 격자크기의 한반도 영역의 대기질 공간 농도 분포 예측자료를 생성한다. 이때, CMAQ 모델의 9 km 격자크기 한반도 영역의 대기질 공간 농도 분포 예측자료는 27 km 격자 크기 동아시아 영역의 대기질 공간 농도 분포 예측자료에 둥지화 (Nesting) 기법을 적용하여 생성하며, 모델링 영역은 그림 2와 같다. WRF 기상인자 공간 분포 예측자료는 기상 재분석자료를 입력자료로 사용하여 생성하였고, CMAQ PM2.5 자료동화 자료는 Pun and Seigneur (2016)에서 제안한 Pun’s Interpolation 방법을 사용하여 CMAQ 모델의 PM2.5 공간 농도 분포 예측자료를 지표 측정 자료로 보정하여 생성한 재분석 자료이다. 이때, WRF 모델과 CMAQ PM2.5 자료동화 자료의 모델링 영역은 CMAQ 모델과 동일하다.

Fig. 1

Network Architecture of the Community Multiscale Air Quality (CMAQ) model. Fig. 2. Nested Grid Domains Used in the CMAQ Model: 27 km (East Asia) and 9 km (Korean Peninsula).

Fig. 2

Nested Grid Domains Used in the CMAQ Model: 27 km (East Asia) and 9 km (Korean Peninsula).

2.2 제안 모델

2.2.1 Conv-LSTM (Convolutional Long Short Term Memory)

연구에서 사용하는 Conv-LSTM 알고리즘은 실시간 강수량 예측을 위해 제안된 머신러닝 기반 딥러닝 알고리즘으로 기존의 시계열적 특징을 고려할 수 있는 LSTM 알고리즘의 내부 연산식과 공간적인 특징을 고려할 수 있는 CNN의 Convolutional 연산방식을 결합하여 자료의 공간적, 시계열적 특징을 동시에 고려할 수 있다 (Shi et al. 2015).

Conv-LSTM 알고리즘은 기존 LSTM 알고리즘과 동일하게 입력 게이트 (it), 망각 게이트 (ft), 출력 게이트 (ot) 그리고 셀 상태 (Ct)와 은닉 상태 (Ht)로 구성되어 있다. 다만, LSTM 알고리즘은 연산과정에서 하다 마드 행렬 (Hadamard matrix, ·)을 사용하여 매개 변수화 된 단일 차원의 입력 벡터에 의존하여 계산되기 때문에 자료의 시간적 특성만을 고려할 수 있다. 이때, LSTM의 연산과정은 아래 수식 (1)~(5)로 정리되며 수식에서 W, b는 각 게이트와 셀 상태에서의 가중치와 편향이며 σ는 sigmoid 함수, tanh는 Tanh 함수 (Hyperbolic Tangent Function)이며 ⊙는 원소별 곱셈 (element-wise multiplication)을 의미한다.

ft=σ Wfxt+Wfht-1+bf(1) 
it=σ (Wixt+Wiht-1+bi)(2) 
Ct=ftct-1+ittanhWcht-1+Wcxt+bc(3) 
ot=σ(Woxt+Woht-1+bh)(4) 
ht=ottanhCt(5) 

반면, Conv-LSTM 알고리즘의 경우 연산과정에서 합성곱 (Convolution, *)을 사용하여 다중차원의 벡터를 계산하기 때문에 시간적 특성과 공간적 특성을 모두 고려할 수 있다. 이때, Conv-LSTM의 연산과정은 아래 수식 (6)~(10)과 같이 정리되며 각 수식에서의 W, b는 각 입력 게이트와 셀 상태에서의 가중치와 편향이며 σ는 sigmoid 함수, tanh는 Tanh 함수이며 ⊙는 원소별 곱셈 (element-wise multiplication)을 의미한다.

ft=σ(Wf*xt+Wf*ht-1+bf)(6) 
it=σ(Wi*xt+Wi*ht-1+bi)(7) 
Ct=ftct-1+ittanhWc*ht-1+Wc*xt+bc(8) 
ot=σ( Wo*xt+Wo*ht-1+bh)(9) 
ht=ottanhCt(10) 
2.2.2 AI 모델 네트워크 구조 및 Hyperparameter

연구에서는 내일 24 시간의 PM 2.5 공간 농도 분포 예측을 위한 Conv-LSTM 알고리즘을 활용한 AI 모델을 제안한다 . 제안된 AI 모델들은 입력층 (Input layer)과 Conv-LSTM 과 Batch Normalization 으로 구성된 단일 은닉층 (Hidden layer) 을 가진 인코더 층 (En-coder layer) 과 디코더 층 (Decoder layer) 그리고 출력층 (Output layer) 으로 구성된 네트워크를 기반으로 활성화 함수인 ReLU 함수의 사용여부 및 사용위치에 따라 4 개의 Case 로 분류되며 그림 3 과 같이 정리하였다 .

Fig. 3

Proposed AI model structure: (a) Case 1, model without ReLU; (b) Case 2, ReLU in Encoder-Decoder layers; (c) Case 3, ReLU in the output layer; (d) Case 4, ReLU in both Encoder-Decoder layers and the output layer.

Case 1의 경우 그림 3(a)와 같이 AI 모델 네트워크에 ReLU 함수를 사용하지 않은 경우이며, Case 2는 그림 3(b)와 같이 인코더 층과 디코더 층에 ReLU 함수를 사용한 경우이다. Case 3은 그림 3(c)와 같이 출력층에 ReLU 함수를 사용한 경우이며, Case 4는 그림 3(d)와 같이 인코더 층과 디코더 층 그리고 출력층에 ReLU 함수를 사용한 경우이다. 이때, ReLU 함수가 사용되지 않은 층의 2D Conv-LSTM에는 Keras에서 기본값으로 설정된 Tanh 함수가 적용된다.

ReLU 함수와 Tanh 함수는 딥러닝 모델에서 가장 널리 사용되는 활성화 함수로 ReLU 함수는 수식 (11) 같이 출력 값 중 음수를 제한하고 Tanh 함수는 수식 (12)와 같이 출력값의 범위가 -1에서 1 사이로 제한하여 모델에 비선형성을 도입한다.

ReLU function (x)=x, if x>00, if x0(11) 
Tanh function x=ex-e-xex+e-x(12) 

AI 모델의 컴파일 (Compilation)과 하이퍼파라미터 (Hyperparameter)는 표 2에 정리된 것과 같이 Adam 최적화기를 사용하며, 손실 함수 (Loss function)는 Mean Absolute Error (MAE)를 적용하였다.

Proposed AI Model Settings: Model Compilation, Model Hyperparameters, and Conv-LSTM Settings for Each Layer.

학습률 (Learning rate)의 경우 Keras의 “ReduceLROnPlateau” 모듈을 활용하여 검증손실 값이 일정 기간 동안 개선되지 않는 경우 학습률을 자동으로 조정하도록 설정하였다. 연구에서는 학습률을 1.00e-4~1.00e-6 사이로 조정되도록 하였으며, 학습률 조정 기준은 에포크 (Epochs) 10회로 설정하고 “Early stopping” 기능을 적용하여 검증손실 값이 일정 기간 동안 개선되지 않을 경우 학습을 중단하고, 검증손실값이 가장 낮은 시점의 모델을 저장하도록 설정하였다. 연구에서는 Early stopping 기준을 에포크 20회로 설정하였다. 배치 크기 (Batch size)는 18로 설정하였으며, 검증 데이터 비율 (Validation split)은 0.2 (20%) 로 설정하였다.

모델의 각 층에서 사용한 Conv-LSTM의 설정은 Encoder 및 Decoder 층의 경우, Conv-LSTM 필터 (Filter) 수는 36개로 설정하고 커널 크기 (Kernel size)는 기존 연구에서 많이 사용되는 3 × 3으로 설정하였다. 출력층의 경우, 최종 출력이 단일 예측 값을 가지도록 Conv-LSTM 필터 수는 1개로 설정하고 각 위치에서만 독립적으로 값을 계산하여 예측 정확성을 향상시키기 위해서 커널 크기는 1×1로 설정하였다.

2.2.3 AI 모델의 예측방법

본 연구에서 제안한 AI 모델들은 그림 4와 같이 예측시점에서 CMAQ 모델과 WRF 모델을 통해 예측한 내일 24시간의 대기질 및 기상 공간분포 자료를 입력 받아 CMAQ 모델과 동일한 9 km 격자크기의 한반도 영역의 내일 24시간의 PM2.5 농도 공간분포를 예측한다. AI 모델에 입력되는 입력자료의 형태는 (24, 68, 59, 12)의 4차원 형태이며, AI 모델의 예측결과는 (24, 68, 59, 1)의 4차원 형태이며 각 차원은 순서대로 시간, 높이, 넓이, 인자개수를 의미한다.

Fig. 4

Prediction Framework for 24-Hour PM2.5 Spatial Distribution Over the Korean Peninsula Using CMAQ and WRF Models with a 9 km Grid. The framework uses meteorological data from the WRF model and air quality data from the CMAQ model as inputs to generate PM2.5 concentration forecasts for the following day.

2.3 모델 평가방법

2.3.1 AI 모델 학습정도 평가방법

AI 모델의 학습정도는 에포크 증가에 따른 학습손실 (Train Loss)과 검증손실 (Validation Loss)의 감소율을 시각화한 학습곡선 (Model Learning Curve)을 통해 모델의 과소적합 (Underfitting) 또는 과적합 (Overfitting) 여부를 분석하며 모델이 저장된 시점의 에포크에서 학습손실과 검증손실 값을 비교하여 학습정도와 일반화 성능을 평가한다.

2.3.2 모델 예측 성능 평가방법

모델의 예측 성능 평가는 자료 특성 모사 정도와 예측 정확성 및 공간패턴 모사 정도를 나누어 평가를 진행한다. 이때, 한반도 전역에 대한 지표측정 자료가 충분하지 않아 공간 농도 분포 예측 성능 평가 시 실제 값 (Actual value)으로 사용하는 데 한계가 존재한다. 이에 본 연구에서는 CMAQ PM2.5 자료동화 자료를 실제 값으로 사용한다.

자료 특성 모사 정도평가는 각 모델의 예측 값(Predict value)과 실제 값의 통계지표인 최대 (Max), 최소 (Min), 평균 (Mean), 표준편차 (Std), 분산 (Var)을 활용하여 평가한다. 또한, 예측 정확성 및 공간패턴 모사 정도는 정량평가 지표인 RMSE (Root Mean Squared Error)와 Spatial RMSE (Spatial Root Mean Squared Error)를 통해 평가한다.

이때, RMSE는 예측 값과 실제 값 간의 평균적인 차이로 모델의 예측 정확성을 평가하는 지표로 수식 (13)과 같이 표현된다. 여기서 N은 자료의 개수 (연구에서는 2022년 1년 동안의 예측 결과 자료 개수), yi는 실제 값, y^i는 예측 값을 의미한다.

RMSE=1Ni=1Nyi-y^i2(13) 

Spatial RMSE는 각 위치에서의 오류를 평가하여 공간적 패턴에 대한 모델의 성능을 평가하는 지표로 다음 수식 (14)와 같이 표현된다. 여기서 T는 전체 예측기간을 나타내며 (연구에서는 2022년 동안), t는 각 예측 시각, W, H은 공간의 너비와 높이, zt (i, j)와 zt^(i, j)는 t에서 (i, j) 위치의 실제 값과 예측 값이다.

 Spatial RMSE =1TT=1T1mni=1Wj=1Hzt(i,j)-zt^(i,j)2(14) 
2.3.3 AI 모델 공간분포 모사 성능 평가방법

공간분포 모사 성능 평가는 고농도 기간에 대한 예측을 수행한 뒤 AI 모델의 예측결과와 CMAQ PM2.5 자료동화 자료를 시각화하고, 이를 통해 내일 24시간 한반도 영역의 PM2.5 공간농도 분포 예측 시 시간에 따른 PM2.5 공간 농도분포 변화와 이동 모사성을 시각적으로 비교 분석하여 평가를 수행한다. 이때, 연구에서 공간분포 모사 성능 평가는 제안된 AI 모델 중학습정도 평가 및 예측 성능 평가를 통해 내일 24시간 한반도 영역의 PM2.5 공간농도 분포 예측에 가장 적합한 모델로 선정된 AI 모델만을 대상으로 평가를 수행한다. 또한, 고농도 기간은 2022년 환경부에서 발간한 대기 환경연보의 자료를 기반으로 2~3일 동안 여러 지역에서 동시에 초미세먼지 주의보가 발생한 2022년 1월 8일부터 10일을 고농도 기간으로 선정하였다.


3. 결과 및 고찰

3.1 AI 모델 학습정도 평가결과

Case별 AI 모델의 학습정도 평가는 각 Case의 AI 모델 학습곡선을 정리한 그림 5와 모델이 저장된 시점의 에포크, 학습률, 학습 손실 및 검증손실 값을 정리한 표 3을 통해 수행되었다.

Fig. 5

Learning curves of the proposed AI Model: (a) Learning curve of Case 1, (b) Learning curve of Case 2, (c) Learning curve of Case 3, (d) Learning curve of Case 4.

Epoch, Learning Rate, Training Loss, and Validation Loss at the Save Point of the Proposed AI Models.

모델 학습곡선 분석결과, 학습손실은 모든 Case에서 에포크가 증가함에 따라 안정적으로 감소하는 경향을 보이며, 검증손실은 Case 1을 제외한 모든 Case에서 에포크가 증가함에 따라 감소하는 추세를 보였다. 따라서 Case 1을 제외한 AI 모델들은 학습이 안정적으로 진행된 것으로 판단된다. 또한, 각 Case의 모델이 저장된 시점에서 학습손실 및 검증손실 값을 분석한 결과 손실과 검증손실 값의 차이가 0.0027로 가장 작은 Case 3가 일반화 성능이 가장 우수한 모델로 판단된다. 따라서 제안된 AI 모델 중 가장 학습이 잘된 모델은 출력층에 ReLU 함수를 사용한 Case 3으로 판단된다.

다만, 제안된 AI 모델들은 학습손실 값은 지속적으로 감소하는 반면, 검증손실 값은 특정 에포크 이후 약 0.011~0.012 사이에서 변동성을 보이며 일정한 범위를 유지하는 양상을 보여 과적합 (Overfitting) 가능성을 시사한다.

3.2 모델 예측 성능 평가결과

제안된 AI 모델의 자료 특성 모사 성능 평가를 위해 AI 모델들과 CMAQ 모델의 2022년 한반도 영역의 24시간 PM2.5 공간 농도 분포 예측자료와 실제 자료의 통계평가 (최솟값, 최댓값, 평균, 표준편차 및 분산) 결과를 표 4에 정리하였다. 또한, 예측 정확성 평가 및 공간패턴 모사 성능 평가를 위해 정량평가를 수행하여 각 모델의 예측 시간별 RMSE와 Spatial RMSE를 그림 6에 정리하였으며, CMAQ 모델 대비 각 AI 모델의 예측 시간별 RMSE와 Spatial RMSE의 평균개선 정도를 표 5에 정리하였다. 이때, 평균 개선 정도는 각 예측 시간에서의 CMAQ 모델과 각 AI 모델들의 RMSE와 Spatial RMSE의 차이를 평균한 값이다.

Statistical Metrics of Actual Data, CMAQ Model Predictions, and Proposed AI Model Predictions (unit: μg/m3).

Fig. 6

Bar Graphs of Temporal Trends in (a) RMSE and (b) Spatial RMSE for the CMAQ Model and Proposed AI Models.

Average Improvement in RMSE and Spatial RMSE of Proposed AI Models Compared to the CMAQ Model. (unit: μg/m3)

먼저, 자료 특성 모사 성능 평가를 위해 표 4에 정리된 각 모델의 예측 값과 실제 값의 통계적 수치를 비교 분석한 결과, CMAQ 모델이 실제 자료와 가장 유사한 통계적 수치를 가지는 것으로 나타났다. 또한, 제안된 AI 모델들 중 ReLU 함수를 사용하지 않는 Case 1의 경우, 최솟값이 음수이며 실제 자료의 값 범위보다 좁고 평균값이 낮은 것으로 나타났다. 인코더층과 디코더 층에만 ReLU 함수를 사용한 Case 2는 최댓값이 실제 자료의 최댓값과 가장 유사하나, 최솟값이 음수이고 실제 자료의 값 범위보다 넓은 범위와 평균값이 높은 것으로 나타났다. 출력층에만 ReLU 함수를 사용한 Case 3의 경우, 최솟값이 양수이며 제안된 AI 모델 중 실제 자료의 값 범위와 가장 유사한 범위를 가지고, 평균값이 실제 자료와 일치하였다. 마지막으로 인코더 층, 디코더 층, 그리고 출력층에 모두 ReLU 함수를 사용한 Case 4는 최솟값이 양수이며, 실제 자료의 값 범위보다 넓은 범위를 가지고 평균값이 낮은 것으로 나타났다.

따라서 AI 모델 구조 중 출력층에 ReLU 함수가 사용되는 경우, 결과값이 양수로 제한되는 특성을 가지며, 인코더와 디코더 층에 ReLU 함수가 사용되는 경우, 결과값의 범위가 확장되는 특성을 가지는 것으로 분석된다. 이는 ReLU 함수 사용위치에 따른 AI 모델의 특징은 ReLU 함수의 특성에 의해 기인한 것으로 판단된다.

ReLU 함수의 경우, 입력값이 0 이상일 때는 입력값을 그대로 출력하고, 0 이하일 때는 0을 출력하는 특징을 가진다. 따라서 출력층에서 ReLU 함수가 사용 될 경우, 모델의 예측 값이 양수로 제한된 것으로 판단된다. 또한, 인코더와 디코더 층에서 ReLU 함수가 사용된 경우, 양수 영역에서 선형적으로 출력을 그대로 반영하는 특성에 의해 학습이 진행될수록 출력값이 비례적으로 증가하게 되면서 결과값의 범위가 확장된 것으로 판단된다.

결론적으로, 자료 특성 모사 성능 평가결과 ReLU 함수의 사용여부와 적용위치에 따라 AI 모델의 출력 특성이 크게 달라질 수 있음을 시사하고 제안된 AI 모델 중 자료 특성 모사 성능이 가장 우수한 모델은 AI 모델 중 실제 자료와 가장 유사한 통계적 특성과 값의 범위를 가지며, 평균값이 실제 자료와 동일한 Case 3으로 판단된다.

다만, 실제 자료와 가장 유사한 통계적 특성을 나타낸 모델이 CMAQ 모델임을 고려할 때, 제안된 AI 모델들은 CMAQ 모델 대비 자료 특성 모사 성능이 개선되지 않은 것으로 판단된다. 이는 CMAQ 모델의 경우 대기오염 물질의 이동 및 변환을 물리적·화학적 이론에 기반해 정량적으로 계산하며 예측을 수행한다. 반면, AI 모델의 경우 과거 데이터를 활용한 패턴 학습을 통해 예측을 수행한다. 따라서 급격한 농도 변화가 적은 상황에서는 높은 예측 정확성과 공간 패턴 모사 성능을 보이지만 새로운 환경 조건 또는 급격한 변화가 있는 환경 조건에 대한 적응력이 상대적으로 낮아진다. 따라서 AI 모델은 CMAQ 모델 대비 자료 특성 모사 성능이 개선되지 않은 것으로 판단된다.

제안된 AI 모델들의 예측 정확성과 공간패턴 모사 성능을 평가하기 위해 그림 6표 5에 정리된 각 모델의 정량지표 수치와 평균 개선 정도를 비교한 결과, CMAQ 모델의 예측 시간별 RMSE와 Spatial RMSE의 범위가 각각 10.04~10.45 μg/m3, 8.24~8.57 μg/m3로 나타났다. 이는 제안된 AI 모델들보다 예측 시간별 RMSE와 Spatial RMSE가 평균적으로 각각 1.75 μg/m3, 1.28 μg/m3 높은 것으로 나타났다. 따라서 제안된 AI 모델들이 CMAQ 모델보다 예측 정확성과 공간패턴 모사 성능이 개선된 것으로 판단된다.

이때, 제안된 AI 모델들 중 예측 정확성과 공간 패턴 모사 성능이 가장 낮은 모델은 Case 4로 판단된다. Case 4는 예측 시간별 RMSE와 Spatial RMSE의 범위가 각각 8.36~9.02 μg/m3, 6.96~7.43 μg/m3로 가장 넓은 범위를 가지며, CMAQ 모델 대비 예측 시간별 RMSE와 Spatial RMSE의 평균개선 정도가 1.57 μg/m3, 1.25 μg/m3로 가장 작은 개선정도를 보였다.

반면, 예측 정확성과 공간패턴 모사 성능이 가장 높은 모델은 Case 3으로 판단된다. Case 3는 예측 시간별 RMSE와 Spatial RMSE의 범위가 각각 8.16~8.76 μg/m3, 6.60~7.26 μg/m3로 가장 좁고, CMAQ 모델 대비 예측 시간별 RMSE와 Spatial RMSE의 평균 개선 정도가 1.81 μg/m3, 1.31 μg/m3로 큰 개선정도를 보였다.

제안된 AI 모델의 자료 특성 모사 성능, 예측 정확성 및 공간 패턴 모사 성능 평가 결과를 종합적으로 분석한 결과, 제안된 AI 모델들은 CMAQ 모델에 비해 자료 특성 모사 성능에서 개선되지 않았으나, 예측 정확성 및 공간 패턴 모사 성능이 향상된 것으로 나타났다. 이는 제안된 AI 모델들이 CMAQ 모델과 같은 화학수송 모델이 가진 예측 성능의 한계를 개선 할 가능성을 시사한다.

이때, 제안된 AI 모델 중 한반도의 내일 24시간 PM2.5 공간 농도 분포 예측에 가장 적합한 모델은 자료 특성 모사 성능 평가와 예측 정확성 및 공간패턴 모사 성능 평가에서 가장 높은 성능을 보인 Case 3 (출력층에 ReLU 함수를 사용한 AI 모델)으로 판단된다. 이러한 결과는 AI 모델 설계 시 ReLU 함수의 사용여부 및 위치에 따라 AI 모델의 특성이 변화하고, 그로 인해 예측 성능에 직접적인 영향을 미치는 것으로 판단되며, AI 모델 설계에서 ReLU 함수의 사용 여부와 위치 선정의 중요성을 시사한다.

3.3 최적 AI 모델 공간분포 모사 성능 평가결과

제안된 AI 모델 중 한반도의 내일 24시간 PM2.5 공간 농도 분포 예측에 가장 적합한 모델로 선정된 Case 3의 공간분포 모사 성능을 평가하기 위해 선정된 고농도 기간 (2024년 1월 8일부터 2024년 1월 10일)의 PM2.5 농도 공간분포 예측을 수행하고, 이를 시각화하여 CMAQ PM2.5 자료동화 자료와 비교 분석을 수행하였다. 이때, 논문에서는 고농도 기간 중 외부 유입 및 국내 발생에 의한 고농도 사례를 잘 보여 주는 2024년 1월 8일 12:00부터 2024년 1월 9일 06:00까지의 Case 3 예측 결과와 CMAQ PM2.5 자료 동화 결과를 6시간 간격으로 시각화하여 각각 그림 7그림 8로 제시 하였다.

Fig. 7

Conv-LSTM Model Forecast Results (Case 3) for High-Concentration PM2.5 Events (12:00, January 8, 2024~06:00, January 9, 2024).

Fig. 8

CMAQ Data Assimilation Results for High-Concentration PM2.5 Events (12:00, January 8, 2024~06:00, January 9, 2024).

그림 7, 그림 8을 분석결과, 선정된 Case 3은 외부 유입 및 국내 발생에 의해 확산되는 대기 중 PM2.5의 농도 분포를 잘 모사하며, 외부 유입 지점 및 국내 고농도 발생지역을 식별하여 고농도 발생 시 농도를 고농도로 모사하는 것으로 나타났다. 다만, 그림 9의 (a)에서 보이는 것과 같이 모델링 영역 외곽에 노이즈가 발생하며 고농도 지점에서 PM2.5 농도를 과소평가하는 경향이 나타났다. 특히, 국외 유입 지점과 그림 9의 (A), (B)로 표시된 포항, 여수 등 산업단지가 조성된 국내 고농도 발생 지역에서의 농도 피크 값을 정확하게 예측하지 못하는 것으로 나타났다.

Fig. 9

PM2.5 High-Concentration Prediction Results at 18:00, January 8, 2024: (a) AI Model, (b) CMAQ Data Assimilation Results (A: Pohang, B: Yeosu).

즉, 제안된 AI 모델들 중 한반도의 내일 24시간의 PM2.5 공간 농도 분포 예측에 가장 적합한 모델인 Case 3 모델을 통해 고농도 기간에 대한 예측을 수행하고 이를 분석한 결과, 모델링 영역 외각에 노이즈가 발생하며 국내 고농도 발생 지역과 국외 유입 지점에서의 농도를 과소평가하는 것으로 판단되나, PM2.5의 이동경로 및 분포가 실제 상황과 유사하게 공간분포를 모사하는 것으로 판단된다.

이때, 모델링 영역 외각에 노이즈가 발생하는 이유는 합성곱 기반 모델은 주변 픽셀 정보를 사용하여 예측을 수행하기 때문에 모델링 영역의 경계에서 인접한 픽셀의 정보가 부족하여 경계 근처의 예측이 불안정해지고 노이즈가 발생하는 특징에 의해 발생하는 것으로 판단되며, 국내 고농도 발생 지역과 국외 유입 지점에서의 농도를 과소평가하는 이유는 Case3 모델 학습과정에서 사용된 학습자료 기간인 2019년에서 2021년에서 PM2.5 고농도 사례 비율이 2022년 환경연보 초미세먼지 경보발생 기준으로 약 3.9%으로 고농도 사례 비율이 저농도 사례에 비해 낮기 때문에 Case 3 모델이 학습 시 고농도 지역의 특성을 제대로 학습하지 못한 것으로 판단된다.


4. 결 론

본 연구는 CMAQ 모델의 대기질 예측 자료와 WRF 모델의 기상 예측자료를 활용하여 한반도 영역의 내일 24시간 PM2.5 공간 농도 분포 예측 AI 모델을 개발하기 위해 Conv-LSTM 알고리즘 기반의 4가지 AI 모델을 제안하였다. 연구에서는 제안된 AI 모델과 CMAQ 모델 간의 예측 성능 비교평가를 통해 한반도 영역의 내일 24시간 PM2.5 공간 농도 분포 예측에 가장 적합한 모델을 선정하였으며, 제안된 AI 모델은 입력 자료 불확실성, 화학반응 메커니즘의 한계, 기상 변수의 영향 등 CMAQ 모델과 같은 화학수송모델이 갖고 있는 예측 성능 한계를 개선 가능성을 검토하였다. 이때, 제안된 AI 모델들은 동일한 네트워크 구조를 기반으로 ReLU 함수의 사용 여부에 따라 Case 1 (ReLU 함수 미사용), Case 2 (인코더 층과 디코더 층에 ReLU 함수 적용), Case 3 (출력층에 ReLU 함수 적용), Case 4 (인코더 층, 디코더 층, 출력층 모두에 ReLU 함수 적용)로 구성되었다.

연구결과, 먼저 제안된 AI 모델들은 전반적으로 안정적인 학습이 진행된 것으로 분석되었다. 이때, 제안된 AI 모델 중 학습손실과 검증손실의 차이가 0.0027로 가장 낮아 일반화 성능이 가장 우수한 Case 3가 가장 학습이 잘된 것으로 판단된다. 또한, 예측 성능 평가결과 제안된 AI 모델들은 ReLU 함수의 사용여부 및 위치에 따라 각 모델의 특성을 가지는 것으로 나타났으며, CMAQ 모델 대비 자료 특성 모사 성능에서 개선되지 않았으나, 예측 정확성과 공간패턴 모사 성능에서 개선된 결과를 나타냈다. 특히, Case 3은 예측 시간별 RMSE와 Spatial RMSE가 각각 8.16~8.76 μg/m3, 6.60~7.26 μg/m3로 가장 작은 범위를 기록하였으며, CMAQ 모델 대비 평균 개선 정도는 각각 1.81 μg/m3, 1.31 μg/m3로 나타나 가장 우수한 예측 성능을 보였다.

따라서 제안된 AI 모델들 중 가장 학습이 잘되었으며, 예측 성능이 가장 우수한 Case 3을 한반도 영역의 내일 24시간 PM2.5 공간 농도 분포 예측에 가장 적합한 모델로 선정하였다. 선정된 Case 3의 공간분포 모사 성능을 평가하기 위해 고농도 기간 (2024년 1월 8일부터 1월 10일까지)의 PM2.5 공간 농도 분포 예측을 수행하고, 이를 시각화하여 CMAQ PM2.5 자료동화 자료와 비교평가를 수행한 결과, Case 3은 대기 중 PM2.5의 이동 경로 및 분포를 실제 상황과 유사하게 모사하며, 고농도 지점을 식별하고 고농도 발생 시이를 정확히 예측하였다.

결론적으로 본 연구에서는 ReLU 함수의 사용여부 및 위치에 따라 AI 모델의 예측 성능이 달라짐을 시사하며, Conv-LSTM 기반 AI 모델이 CMAQ 모델과 같은 화학수송모델의 예측 성능 한계를 개선할 수 있는 가능성을 시사한다.

다만, 제안된 AI 모델들은 CMAQ 모델에 비해 자료 특성 모사 성능에서 개선되지 않았으며, 고농도 지점의 농도를 과소평가하여 농도 피크 값을 예측하지 못하는 한계를 보였다. 이는 AI 모델이 과거 자료를 기반으로 패턴을 학습하여 예측을 수행함에 따라, 급격한 농도 변화가 적은 상황에서는 높은 예측 정확도와 공간 패턴 모사성을 보이지만, 새로운 환경 조건이나 급격한 변화가 있는 상황에 대해서는 적응력이 떨어지는 특성에서 기인한 것으로 판단된다. 특히, 연구에서 사용된 학습 자료 기간 동안 PM2.5 고농도 사례 비율이 약 3.9%로 낮아, AI 모델이 고농도 기간 또는 고농도 지점의 특징을 충분히 반영하지 못한 것으로 분석되었다.

따라서 본 연구에서는 자료 분포의 왜곡을 방지하기 위해 고농도 비율을 조정하지 않고 연구를 수행하였으나, 향후 연구에서는 예측 한계를 개선하기 위해 클러스터링 (Clustering) 기법과 데이터 증강법을 통해 고농도 사례 비율을 조정한 학습 자료를 구축하고, 이를 기존 Case 3과 동일한 네트워크 구조의 AI 모델에 적용하여 학습 및 비교평가를 수행할 예정이다.

Acknowledgments

이 성과는 정부 (환경부)의 재원으로 한국환경산업 기술원의 미세먼지관리 특성화대학원 사업의 지원을 받아 수행된 연구임.

References

  • Alléon, A., Jauvion, G., Quennehen, B., Lissmyr, D. (2020) PlumeNet: Large-scale air quality forecasting using a convolutional LSTM network. arXiv preprint arXiv: 2006.09204. 09204 [https://doi.org/10.48550/arXiv.2006]
  • Appel, K.W., Bash, J.O., Fahey, K.M., Foley, K.M., Gilliam, R.C., Hogrefe, C., Hutzell, W.T., Kang, D., Mathur, R., Murphy, B.N., Napelenok, S.L., Nolte, C.G., Pleim, J.E., Pouliot, G.A., Pye, H.O.T., Ran, L., Roselle, S.J., Sarwar, G., Schwede, D.B., Sidi, F.I., Spero, T.L., Wong, D.C. (2021) The Community Multiscale Air Quality (CMAQ) model versions 5.3 and 5.3.1: System updates and evaluation, Geoscientific Model Development, 14(5), 2867- 2897. [https://doi.org/10.5194/gmd-14-2867-2021]
  • Chen, S., Ren, X., Mao, J., Chen, Z., Brune, W.H., Lefer, B., Rappenglück, B., Flynn, J., Olson, J., Crawford, J.H. (2010) A comparison of chemical mechanisms based on TRAMP-2006 field data, Atmospheric Environment, 44(33), 4116-4125. [https://doi.org/10.1016/j.atmosenv.2009.05.027]
  • Cho, K., Lee, B.Y., Kwon, M., Kim, S. (2019) Air quality prediction using a deep neural network model, Journal of Korean Society for Atmospheric Environment, 35(2), 214-225, (in Korean with English abstract). [https://doi.org/10.5572/KOSAE.2019.35.2.214]
  • Cohen, A.J., Brauer, M., Burnett, R., Anderson, H.R., Frostad, J., Estep, K., Balakrishnan, K., Brunekreef, B., Dandona, L., Dandona, R., Feigin, V., Freedman, G., Hubbell, B., Jobling, A., Kan, H., Knibbs, L., Liu, Y., Martin, R., Morawska, L., Pope, C.A. III, Shin, H., Straif, K., Shaddick, G., Thomas, M., van Dingenen, R., van Donkelaar, A., Vos, T., Murray, C.J.L., Forouzanfar, M.H. (2017) Estimates and 25-year trends of the global burden of disease attributable to ambient air pollution: An analysis of data from the Global Burden of Diseases Study 2015, The Lancet, 389(10082), 1907- 1918. [https://doi.org/10.1016/S0140-6736(17)30505-6]
  • Fan, J., Li, Q., Hou, J., Feng, X., Karimian, H., Lin, S. (2017) A spatiotemporal prediction framework for air pollution based on deep RNN. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 4, 15-22. [https://doi.org/10.5194/isprs-annals-IV-4-W2-15-2017]
  • Gil, J., Lee, M. (2021) Calculation of PM2.5 in Seoul 12-hours in advance using simple artificial neural network with measurements of background sites, and analysis of contribution of input variables, Journal of Korean Society for Atmospheric Environment, 37(6), 862- 870, (in Korean with English abstract). [https://doi.org/10.5572/KOSAE.2021.37.6.862]
  • Kim, Y.-I., Lee, K.-H., Lee, K.-T. (2022) Evaluation and prediction of column aerosol by using the time series machine learning technique, Journal of Korean Society for Atmospheric Environment, 38(1), 57-73, (in Korean with English abstract). [https://doi.org/10.5572/KOSAE.2022.38.1.57]
  • Kim, Y.-I., Lee, K.-H., Park, S.-H. (2023) Application and evaluation of machine learning techniques for real-time shortterm prediction of air pollutants, Journal of Korean Society for Atmospheric Environment, 39(1), 107- 127, (in Korean with English abstract). [https://doi.org/10.5572/KOSAE.2023.39.1.107]
  • Lee, K.-H. (2023) Day and night aerosol optical properties in Gangneung and their prediction using machine learning, Journal of Korean Society for Atmospheric Environment, 39(6), 968-984, (in Korean with English abstract). [https://doi.org/10.5572/KOSAE.2023.39.6.968]
  • Lee, J.-Y., Lee, C.-Y., Jeong, M.-W., Ahn, J.-Y., Wang, K.-H., Choi, D.-R., Yoon, H.-Y. (2023) XAI analysis of DNN using PM2.5 component input data and improvement of PM2.5 prediction performance, Journal of Korean Society for Atmospheric Environment, 39(4), 411- 426, (in Korean with English abstract). [https://doi.org/10.5572/KOSAE.2023.39.4.411]
  • Le, V.-D., Bui, T.-C., Cha, S.-K. (2020) Spatiotemporal deep learning model for citywide air pollution interpolation and prediction. In Proceedings of the 2020 IEEE International Conference on Big Data and Smart Computing (BigComp) (pp. 55-62). IEEE. [https://doi.org/10.1109/BigComp48618.2020.00-99]
  • Masood, A., Ahmad, K. (2021) A review on emerging artificial intelligence (AI) techniques for air pollution forecasting: Fundamentals, application and performance, Journal of Cleaner Production, 322, 129072. [https://doi.org/10.1016/j.jclepro.2021.129072]
  • Pun, B.K., Seigneur, C. (2006) Using CMAQ to interpolate among CASTNET measurements. In Proceedings of the CMAS Conference.
  • Qi, Y., Li, Q., Karimian, H., Liu, D. (2019) A hybrid model for spatiotemporal forecasting of PM2.5 based on graph convolutional neural network and long short-term memory, Science of the Total Environment, 664, 1-10. [https://doi.org/10.1016/j.scitotenv.2019.01.333]
  • Qi, Z., Wang, T., Song, G., Hu, W., Li, X., Zhang, Z. (2018) Deep air learning: Interpolation, prediction, and feature analysis of fine-grained air quality, IEEE Transactions on Knowledge and Data Engineering, 30(12), 2285- 2297. [https://doi.org/10.1109/TKDE.2018.2823740]
  • Shi, X., Chen, Z., Wang, H., Yeung, D.-Y., Wong, W.-K., Woo, W. (2015) Convolutional LSTM network: A machine learning approach for precipitation nowcasting. Advances in Neural Information Processing Systems, 28. [https://doi.org/10.48550/arXiv.1506.04214]
  • World Health Organization (WHO) (2013) Health risks of air pollution in Europe. HRAPIE Project. Copenhagen, Denmark: WHO.
  • Zhang, B., Rong, Y., Yong, R., Qin, D., Li, M., Zou, G., Pan, J. (2022) Deep learning for air pollutant concentration prediction: A review. Atmospheric Environment, 290, 119347. 119347 [https://doi.org/10.1016/j.atmosenv.2022]

정민우(안양대학교 일반대학원 환경공학과 석사과정) (jk50022@naver.com)

이주용(안양대학교 일반대학원 환경공학과 석·박통합과정) (juyong214@naver.com)

왕경희(안양대학교 일반대학원 환경공학과 박사과정) (kyunghui96@gmail.com)

이채연(안양대학교 일반대학원 환경공학과 석사과정) (dlcoduscjswo@naver.com)

한승희(안양대학교 일반대학원 환경공학과 석사과정) (hasee0122@naver.com)

김희진(안양대학교 일반대학원 환경공학과 박사과정) (high#d1d3ca@hanmail.net)

손승민(안양대학교 일반대학원 환경공학과 박사과정) (eia2000@empas.com)

정필수(안양대학교 일반대학원 환경공학과 박사과정) (pala77@empas.com)

최대련(안양대학교 환경에너지공학과 조교수) (drchoi@anyang.ac.kr)

윤희영(안양대학교 환경에너지공학과 조교수) (huiyoung@anyang.ac.kr)

Fig. 1

Fig. 1
Network Architecture of the Community Multiscale Air Quality (CMAQ) model. Fig. 2. Nested Grid Domains Used in the CMAQ Model: 27 km (East Asia) and 9 km (Korean Peninsula).

Fig. 2

Fig. 2
Nested Grid Domains Used in the CMAQ Model: 27 km (East Asia) and 9 km (Korean Peninsula).

Fig. 3

Fig. 3
Proposed AI model structure: (a) Case 1, model without ReLU; (b) Case 2, ReLU in Encoder-Decoder layers; (c) Case 3, ReLU in the output layer; (d) Case 4, ReLU in both Encoder-Decoder layers and the output layer.

Fig. 4

Fig. 4
Prediction Framework for 24-Hour PM2.5 Spatial Distribution Over the Korean Peninsula Using CMAQ and WRF Models with a 9 km Grid. The framework uses meteorological data from the WRF model and air quality data from the CMAQ model as inputs to generate PM2.5 concentration forecasts for the following day.

Fig. 5

Fig. 5
Learning curves of the proposed AI Model: (a) Learning curve of Case 1, (b) Learning curve of Case 2, (c) Learning curve of Case 3, (d) Learning curve of Case 4.

Fig. 6

Fig. 6
Bar Graphs of Temporal Trends in (a) RMSE and (b) Spatial RMSE for the CMAQ Model and Proposed AI Models.

Fig. 7

Fig. 7
Conv-LSTM Model Forecast Results (Case 3) for High-Concentration PM2.5 Events (12:00, January 8, 2024~06:00, January 9, 2024).

Fig. 8

Fig. 8
CMAQ Data Assimilation Results for High-Concentration PM2.5 Events (12:00, January 8, 2024~06:00, January 9, 2024).

Fig. 9

Fig. 9
PM2.5 High-Concentration Prediction Results at 18:00, January 8, 2024: (a) AI Model, (b) CMAQ Data Assimilation Results (A: Pohang, B: Yeosu).

Table 1.

Detailed features of CMAQ model air quality forecast data, WRF model weather forecast data, and Assimilation CMAQ PM2.5 forecast data: CMAQ model air quality forecast data and WRF model weather forecast data are 24-hour-ahead (D + 1) predictions of atmospheric pollutant and meteorological factor spatial distribution from 00:00 to 23:00, generated by the CMAQ and WRF models. Assimilation CMAQ PM2.5 forecast data consists of the spatial distribution of PM2.5 from the assimilation forecast data.

Data classification Features
CMAQ Air Quality Spatial Concentration
Distribution Forecast Data
CO (ppm), SO2 (ppm), O3 (ppm), NO2 (ppm), PM10 (μg/m3), PM2.5 (μg/m3)
Meteorological Factor Spatial
Distribution Forecast Data
Temperature (°C), Precipitation (mm), Humidity (%), Wind direction (°), Wind speed (m/s),
Atmospheric Pressure (Pa)
Assimilation CMAQ PM2.5 Forecast data PM2.5 (μg/m3)

Table 2.

Proposed AI Model Settings: Model Compilation, Model Hyperparameters, and Conv-LSTM Settings for Each Layer.

Proposed AI Model Settings
Compilation Optimizer
Loss function
Adam
MAE
Hyperparameter Learning rate 1.00e-4~1.00e-6
Epoch -
Validation Split 0.2(20%)
Batch size 18
Conv-LSTM settings Encoder, Decoder Conv-LSTM layer Number of filters
Kernel size
36
3×3
Output Conv-LSTM layer Number of filters
Kernel size
1
1×1

Table 3.

Epoch, Learning Rate, Training Loss, and Validation Loss at the Save Point of the Proposed AI Models.

Case Learning rate Epochs Train loss Validation loss
Case 1 1.00e-4 10 0.0089 0.0117
Case 2 1.00e-4 18 0.0086 0.0114
Case 3 1.00e-4 25 0.0087 0.0114
Case 4 1.00e-4 24 0.0085 0.0115

Table 4.

Statistical Metrics of Actual Data, CMAQ Model Predictions, and Proposed AI Model Predictions (unit: μg/m3).

Classification Min value Max value Mean Std Var
Actual data 1.400e-3 518.10 14.00 13.00 167.98
CMAQ data 4.00e-4 555.43 14.71 15.42 237.81
Case 1 -54.00 119.16 13.18 9.41 88.63
Case 2 -410.83 391.32 14.15 9.74 94.80
Case 3 1.30e-4 213.02 14.00 9.42 88.78
Case 4 1.30e-4 1330.47 13.55 9.20 84.60

Table 5.

Average Improvement in RMSE and Spatial RMSE of Proposed AI Models Compared to the CMAQ Model. (unit: μg/m3)

Classification RMSE
improvement
Spatial RMSE
improvement
Case 1 1.78 1.22
Case 2 1.82 1.32
Case 3 1.81 1.31
Case 4 1.57 1.25