Journal of Korean Society for Atmospheric Environment - Vol. 37 , No. 6

[ Original Paper ]
Journal of Korean Society for Atmospheric Environment - Vol. 37, No. 6
Abbreviation: J. Korean Soc. Atmos. Environ
ISSN: 1598-7132 (Print) 2383-5346 (Online)
Print publication date 31 Dec 2021
Received 25 Nov 2021 Revised 03 Dec 2021 Accepted 07 Dec 2021
DOI: https://doi.org/10.5572/KOSAE.2021.37.6.931

머신러닝 클러스터링을 이용한 서울과 강릉 지역의 컬럼 에어로솔 기여도 산정
표성훈1), 3) ; 이권호2), 3), * ; 이규태2), 3)
1)강릉원주대학교 공간정보협동과정
2)강릉원주대학교 대기환경과학과
3)강릉원주대학교 복사 - 위성 연구소

Estimation of Column Aerosol Contribution in Seoul and Gangneung Using Machine Learning Clustering Technique
Seong-Hun Pyo1), 3) ; Kwon-Ho Lee2), 3), * ; Kyu-Tae Lee2), 3)
1)Spatial Information Cooperative Program, Gangneung-Wonju National University, Gangneung, Republic of Korea
2)Department of Atmospheric & Environmental Sciences, Gangneung-Wonju National University, Gangneung, Republic of Korea
3)Research institute for Radiation-Satellite, Gangneung-Wonju National University, Gangneung, Republic of Korea
Correspondence to : * Tel : +82-(0)33-640-2319 E-mail : kwonho.lee@gmail.com

Funding Information ▼

Abstract

In this study, we estimated characteristics of the local atmospheric aerosols by the machine learning techniques with the column aerosol and meteorological data measured at Seoul and Gangneung. Based on the classified aerosol properties, contributions of aerosol inflow and outflow can be inferred and scenarios based on these results were also determined. Column aerosol observation status for two cities showed that the aerosol optical depth (AOD) observed in Seoul is 39.2% (0.18±0.16) higher than that of Gangneung (0.28±0.24), and the Angstrom Exponent (AE) was a similar range level (1.29±0.3). Although aerosol loads are differences between the two regions, the particle size distribution of regions is similar. For the machine learning clustering analysis, all data samples were classified as the best number of classes and optimized scenarios for Seoul and Gangneung were determined. In order to verify the created scenarios, a case was selected from the GOCI RGB image and MODIS L1B, and the scenario algorithm was performed using the actual ground observation data. This methodology is useful for monitoring and predicting fine dust through the characterization and contribution calculation of atmospheric column aerosols.


Keywords: Aerosol, Machine learning, Aerosol optical thickness, Classification, Air quality

1. 서 론

에어로솔 (aerosol)은 대기 중에 부유하는 미세한 고체 및 액체 입자이며, 인위적 또는 자연적으로 발생한 여러 가지 화합물을 포함한다 (Hua et al., 2016). 일반적으로, 에어로솔의 성분 및 농도는 인위적 오염원이 많은 도시 지역과 청정 지역에서 서로 다른 양상을 보인다 (Yoon et al., 2005). 도시 지역 에어로솔의 배출량과 농도는 비도시 지역에 비해 상대적으로 높은 것으로 알려져 있다 (Seinfeld and Pandis, 2008; Zhang et al., 2007; Pöschl, 2005). 또한 빛의 산란과 흡수에 의한 시정거리 감소는 황산화물, 질소산화물, 유기물질 등으로 생성된 초미세먼지 (PM2.5)의 비율이 높은 도시 지역이 비도시 지역보다 자주 나타난다 (Kim et al., 2001). 대기 중 입자상물질은 직경이 0.001~100 μm의 다양한 크기 분포로 존재하고 (Park and Lee, 2015), 물리·화학적 특성은 대기질을 연구하고 이해하는데 중요한 의미를 가진다. 특히 대기 중 입자상물질 중에서 0.1~1.0 μm 사이의 입자에서 시정 감소 효과에 직접적인 영향을 주는 기여율이 가장 높기 때문에 (Hu et al., 2004) 에어로솔 입자의 구성성분과 크기 분포의 다양성으로 인하여 오염원을 규명하는 데 있어 연직 방향으로 총량을 관측하고 특성을 분석하는 것이 필요하다 (Kim, 2018).

동아시아 지역은 화석연료 사용과 같은 인위적 배출원뿐만 아니라, 사막 지역 등의 자연적인 배출원이 위치한 주요 에어로솔의 발생 및 분포 지역으로 알려져 있다 (Tan et al., 2017; Tao et al., 2016). 그리고 한반도는 지리적으로 중위도 편서풍 지역대에 위치하고 있으며, 동아시아 및 극동 지역에서 배출되는 오염물질에 의한 직접적인 영향과 (Hua et al., 2016; Bae et al., 2014) 장거리 이동 과정 중에 생성된 이차오염물질로 인한 결과가 복잡하게 영향을 미치는 것으로 알려져 있다 (Oh et al., 2015). 이러한 장거리 이동성 오염 물질뿐 아니라 국내 주요 배출원에서 발생하는 에어로솔도 복잡한 영향을 미치게 된다. 또한 도시 내에서 인위적으로 발생한 에어로솔의 대기 중 체류시간은 약 수분에서 일주일 정도이며 배출원이 상당히 국지적으로 분포하므로 에어로솔 농도의 시·공간적 분포를 정량화하기 힘들다 (Seinfeld and Pandis, 2008). 특히, 한반도 중부 지역은 지역 내 에어로솔 발생뿐만 아니라 중국에서 유입되는 장거리 이동성 오염물질이 이동하는 경로에 해당하지만, 수도권 지역을 제외하고는 대기 관측이 매우 부족한 실정이다. 이러한 지상관측 지점의 공간적인 부족함을 보완하기 위해 위성을 통한 관측이나 추가적인 지상관측의 필요성이 제시되었다 (Kim et al., 2016). 그리고, 시공간적인 관측의 한계를 극복하기 위하여 공간적 내삽이나 예측모델과 같은 수치해석적 방법이 사용되기도 하였다 (Son et al., 2020; Kokhanovsky et al., 2006; Singh and Jacob, 2000; King et al., 1999).

최근, 다양한 분야에서 수집된 데이터는 급격히 증가하고 있으며, 이 데이터를 정보와 지식으로 재가공하여 다양한 문제를 신속하게 해결할 필요성이 있다 (Lee, 2021). IT 산업, 서비스 분야 등 산업 전반에서 머신러닝 (또는 기계학습)을 이용한 연구에 대한 요구가 증가하면서 다양한 알고리즘이 개발되어 왔다 (Lee, 2021; Murphy, 2012). 이러한 과정을 통해 가공된 정보는 마케팅, 경영, 과학분야 등 광범위한 분야에서 분석 및 예측에 유용하게 활용될 수 있다 (Lee, 2021). 다양한 머신러닝 기법들은 대기질 분야에도 해당되며 오랜 기간 동안 쌓여온 기상데이터 및 대기질 관측데이터를 빠르게 가공하고 정보를 재생산하는데 굉장히 효과적이다. 최근에는 공간내삽기법 (Sohn and Shin, 2007)이나 부스팅기반 머신러닝 기법 (Park et al., 2021)을 이용하여 미세먼지 농도 산출 및 추정하는 연구와 머신러닝 클러스터링을 이용한 대기 에어로솔 특성을 분석한 연구를 진행하였고 (Lee and Lee, 2020), AERONET 데이터를 기반으로 머신러닝 클러스터링을 이용하여 데이터 재분류 및 훈련데이터와 비교하는 연구가 진행되었다 (Siomos et al., 2020).

따라서 본 연구에서는 컬럼 에어로솔 관측자료와 기상자료를 이용하여 대기 중 에어로솔의 시나리오별 특성 분류 및 기여도를 산정하기 위해 머신러닝 기법을 적용하였다. 이를 위하여 서울과 강릉에서 장기간 관측된 컬럼 에어로솔 자료와 기상자료를 이용하여 머신러닝 기법 중 하나인 클러스터링을 적용하여 대기 에어로솔의 특성에 기반한 시나리오를 작성하였다. 결정된 시나리오를 기반으로 지역별 컬럼 에어로솔의 유형별 기여도를 산정하는 연구를 진행하였다. 머신러닝 기법을 적용한 에어로솔 사례별 시나리오 분류 및 유형별 기여도 정보는 지역별 대기 에어로솔의 유형별 특성과 유출입 특성을 평가하기 위한 수단으로 사용될 수 있을 것이다.


2. 자료 및 방법
2. 1 연구 대상 지역 및 자료

본 연구의 연구 대상 지역은 한반도의 중부 지역에 위치한 서울과 강릉이다. 두 도시는 직선거리로 약 176 km 떨어져 있으며, 두 도시 사이에는 최대 고도 1,354 m의 태백산맥이 남북방향으로 위치하고 있다 (그림 1). 강릉이 위치한 영동 지방은 태백산맥을 기점으로 서부 산지와 동부 해안 지형이 분포되어 있는 복잡한 지형이다 (Lee and Lee, 2020). 이러한 복합 지형의 영향과 해양 기후조건으로 인하여, 태백산맥 서쪽의 영서 지역과는 기후와 환경이 다르게 나타난다 (Kim et al., 2020). 또한, 강릉 주변 지역에는 주요 화력발전소와 시멘트공장이 다수 위치하고 있으며, 이로 인한 오염물질의 배출은 해륙풍의 영향으로 복잡한 이류 확산의 영향을 받는다 (Namgung et al., 2005).


Fig. 1. 
Geographic locations of the ground observations in Seoul (37.56°N, 126.93°E) and Gangneung (37.77°N, 128.86°E). The straight-line shows a distance between the two locations.

반면, 서울은 수도권 지역의 많은 산업시설로의 다양한 배출원에서 대기오염물질이 배출되기 때문에, 대기질과 구성성분 파악을 위한 많은 연구 결과들이 있다 (Choi et al., 2016; Oh et al., 2015). 또한, 한반도 중부 지역은 서해로부터 유입되는 오염물질의 주요 이동 경로로서, 수도권과 인근 지역에 가중되는 영향도 크게 나타난다. 그러나, 한반도 에어로솔의 크기 분포와 지역별 특성을 분석한 결과 (Kim and Choi, 2002), 춘천의 미세먼지 농도 및 원주의 대기오염물질 이동과 침적에 관한 결과 (Jung and Han, 2008; Kwon et al., 1996) 등 각 지역별 대기오염 연구사례는 많지만, 한반도 중부 지역 (서울-원주-강릉)을 대상지역으로 광역 오염물질의 분포 및 이동 경향에 관한 연구는 부족한 실정이다.

표 1은 본 연구에서 사용된 자료 목록으로서, 칼럼 에어로솔 관측 자료, 기상자료, 위성관측 자료를 포함한다. 컬럼에어로솔의 관측 지점은 서울 (북위 37.56°, 동경 126.93°, 고도 97 m)과, 강릉 (북위 37.77°, 동경 128.86°, 고도 60 m)에 위치한 CIMEL-317 Sunphotometer 관측자료이며, Sunphotometer 관측자료는 구름이나 다른 기상요소에 의해 값이 비정상적으로 높거나 낮은 값을 모두 제거하여 산출한 Level 2.0자료를 AERONET 데이터 베이스 (https://aeronet.gsfc.nasa.gov/new_web/index.html)로부터 획득하였다. 기상 관측 자료는 sunphotometer 관측지점과 가장 인접한 자동기상관측장비 (Automatic Weather System; AWS)의 관측지점 (강릉: 북위 37.78°, 동경 128.92°, 고도 7 m, 서울: 북위 37.57°, 동경 126.94°, 고도 103 m)에서 2012년부터 2019년까지 관측된 자료를 이용하였다.

Table 1. 
Specification of measurement instruments and data used in this study.
Instrument Data Period Resolution Source
Sunphotometer Aerosol Optical Depth (AOD),
Angstrom Exponent (AE)
2012~2019 5 min NASA
(https://aeronet.gsfc.nasa.gov)
Automatic Weather
System (AWS)
Wind Speed (WS),
Wind Direction (WD),
Relative Humidity (RH)
1 min KMA
(https://data.kma.go.kr)
Moderate Resolution
Imaging
Spectroradiometer
(MODIS)
L1B calibrated radiance 1~2 times/day,
1 km2/pixel
NASA
(https://ladsweb.modaps.eosdis.nasa.gov/)
Geostationary Ocean
Color Imager (GOCI)
L1B calibrated radiance Hourly,
500 m2/pixel
Korea Ocean Satellite Center
(https://www.kiost.ac.kr/kor.do)

인공위성 관측 정보는 광역 지역에 관한 환경변화 정보를 제공함으로써, 에어로솔의 시·공간적 분포와 기상조건에 관한 시각적 정보의 획득이 가능하다. 또한, 본 연구에서 산출된 에어로솔 시나리오에 대한 정량적/정성적 비교 및 검증을 위하여, 정지궤도 위성인 천리안 위성 (Communication, Ocean and Meteorological Satellite: COMS)의 해양탑재체 Geostationary Ocean Color Imager (GOCI) (Kim and Yoo, 2014)의 칼라합성 영상과 저궤도 위성인 Moderate Resolution Imaging Spectroradiometer (MODIS) 에어로솔 산출 자료를 사용하였다. GOCI는 각 시간대별 위성영상을 분석하기 위하여 한국해양과학기술원 해양위성센터 (https://www.nifs.go.kr/sois/index.jsp)에서 제공되는 L1b 자료를 획득하였다. GOCI L1b영상자료의 해상도는 직하점에서 약 500 m이며, 전처리 과정과 대기보정을 거친 후 각 시간대별 RGB에 해당하는 적색 (443 nm), 녹색 (555 nm), 청색 (660 nm) 파장대의 영상을 합성하여 산출하였다 (Lee, 2013). MODIS는 미국 NASA의 지구 관측 위성인 Terra/Aqua에 탑재된 센서이며, NASA (https://ladsweb.modaps.eosdis.nasa.gov/)의 위성자료 DB에서 제공한다. 에어로솔 광학두께 (Aaerosol Optical Depth; AOD) 산출을 위하여 MODIS SaTellite Aerosol Retrieval (MSTAR) 알고리즘 (Lee et al. 2007)이 사용되었으며, AOD의 산출오차 범위는 ~10%로 보고되었다 (Lee and Kim, 2010).

2. 2 머신러닝 클러스터링

강릉과 서울의 칼럼 에어로솔의 특성을 분류하기 위해 머신러닝 기법 중 K-Means 클러스터링 기법을 사용하였다. 본 연구에서 사용된 K-Means 알고리즘은 일종의 분할적 클러스터링 알고리즘으로서, 이 알고리즘의 개념은 데이터에 내재된 다차원 데이터들의 패턴들과 그 패턴이 속하는 클러스터의 중심 (Centroid)과의 평균 유클리디안 거리 (Euclidean distance)를 최소화하는 것이다 (Ahmad and Dey, 2007). 분할적 클러스터링은 다차원의 데이터 값들을 이용하여 클러스터의 중심 (Centroid)을 여러번 수정하는 과정을 거치면서 군집을 반복적으로 재분류하는 방법이다. 이를 통해 방대한 양의 다차원 데이터가 사용되며, 데이터가 한 군집에 영구히 속하지 않고 최종 결과를 개선할 수 있는 군집으로 이동하여 모든 관측 자료 중 대표성을 포함하고 있는 집단적 구성을 의미하게 된다 (그림 2). K-Means 클러스터링에 사용된 입력자료는 Aerosol Optical Depth (AOD), Angstrom Exponent (AE), 풍향 (WD), 풍속 (WS), 상대습도 (RH)이다. Aerosol Optical Depth (AOD)는 500 nm의 데이터를 사용하였고, Angstrom Exponent (AE)는 440_675 nm의 데이터를 입력자료로 사용하였다. 그림 3은 머신러닝 클러스터링을 위한 자료처리과정을 나타낸다. 머신러닝 클러스터링을 수행하기 위한 자료 전처리 과정에서는 각 입력자료에 대하여 시공간을 일치하는 작업을 수행하였고 결측값을 모두 제거하였다. 머신러닝 클러스터링 단계에서는, 이전 단계인 전처리 과정에서 생성된 데이터의 차원과 범위에 관한 데이터 표준화 작업이 수행되었고, 최적의 클러스터 수를 결정하였다. K-Means 클러스터링을 수행하기 위해 먼저 최적의 클러스터수를 지정해야 하며, 이를 위해 R프로그램의 NbClust 패키지 (Charrad et al., 2014)를 사용하였다. R의 NbClust 패키지는 데이터들의 최적의 클러스터 수를 추천하기위하여 사용되며, 클러스터 수 및 클러스터링 방법을 조합한 후 가장 최적의 군집수를 추천한다. 총 30가지의 내부 계산식이 포함되어 있으며 전처리 데이터를 입력하게 되면 최적화를 진행한 후 각 계산식 마다 개별적으로 클러스터 수를 정하는 테스트를 진행한 후 각 테스트별 최적의 클러스터 수를 선정한다. 본 연구에서는 가장 많은 테스트 결과를 획득한 클러스터 갯수를 선택하였다. 이러한 머신러닝 클러스터링 알고리즘 중 Nbclust를 이용하는 연구는 다양한 분야에서 연구가 진행되고 있다 (Lee, 2021; Oh et al., 2021; Lee and Lee, 2020; Huang et al., 2020; Bejarano et al., 2017; Charrad et al., 2014). 최적 클러스터 수가 결정된 후, 표준화된 입력 자료를 이용한 머신러닝 클러스터링을 수행하였으며, 클러스터링 결과는 각 클러스터의 최적의 중심값으로 산출하였다. 최종적으로 클러스터 수와 클러스터별 중심값, 전처리 데이터를 이용하여 에어로솔 영향도별 시나리오와 기여도를 산정하였다.


Fig. 2. 
Conceptual diagram of K-Means Cluster.


Fig. 3. 
Data analysis process for calculating aerosol scenarios and contribution by aerosol type.


3. 결과 및 토의
3. 1 칼럼 에어로솔 광학 특성

그림 45는 강릉과 서울의 전체 관측 기간 동안 AOD와 AE값에 대한 시계열 그래프이다. 전체 기간 동안 평균 AOD 값은 0.28±0.24 (강릉), 0.46±0.4 (서울)로서, 서울이 약 0.18±0.16 (39.2%) 더 높은 수준이다. 평균 AE 값은 1.29±0.26 (강릉), 1.29±0.28 (서울)으로 두 지역의 평균 AE값은 유사한 범위를 나타냈다. 이러한 결과는, 두 지역의 대기 중 에어로솔 부하량의 수준 차이가 존재하지만, 입자크기 분포 영역이 상당히 유사함을 의미한다. 또한 두 지역 모두 AOD의 시계열 변화가 겨울에 낮고 여름에 높아지는 계절적 변화가 뚜렷하게 나타났다.


Fig. 4. 
Monthly mean AOD at 500nm wavelength observed in Gangneung and Seoul during 2012~2019. Shaded area represents ±1σ range.


Fig. 5. 
Monthly mean AE440-875 observed in Gangneung and Seoul during 2012~2019. Shaded area represents ±1σ range.

연구 지역의 에어로솔의 특성을 비교하기 위해 두 지역에 대하여 AOD와 AE의 상관분석결과는 그림 6과 같다. 강릉과 서울의 AOD의 1차 선형 회귀방정식은 AOD강릉=0.44AOD서울+0.1 (R=0.66, RMSE=0.24)로서, 두 지역간의 AOD는 강도는 다르지만 상관성이 다소 높게 나타났다. AE에 대한 상관분석 결과는 AE강릉=0.6AE서울+0.5 (R=0.69, RMSE=0.29)로서 유사범위 내 포함되어 있음을 알 수 있다. 따라서, 두 지역에서 관측되는 칼럼 대기 중 에어로솔은 유사한 크기분포를 가지는 입자가 칼럼 내 수 농도에 있어 차이가 나는 것을 의미한다. 따라서, 두 지역에서의 에어로솔의 타입별 분류 및 유출입 특성에 대한 분석을 통하여 지역별 에어로솔의 특징은 제시할 수 있을 것으로 판단된다.


Fig. 6. 
Scatter plots of (left) AOD at 500 nm and (right) AE440_675 between Gangneung and Seoul.

3. 2 머신러닝 클러스터링

2012년부터 2019년까지의 8년 동안의 기상자료와 대기컬럼관측 데이터를 사용하여 NbClust 패키지를 이용한 최적 클러스터링 테스트 결과는 그림 7과 같다. NbClust의 30개 테스트를 수행한 결과, 강릉에서는 최종적으로 30개 테스트 중 7개의 테스트 결과가 6개의 클러스터가 최적의 클러스터수인 것으로 판단되었고, 서울의 경우는 30개 테스트 중 12개의 테스트 결과가 4개의 클러스터 수가 최적의 클러스터 수로 결정되었다.


Fig. 7. 
The optimal number of clusters in (left) Gangneung and (right) Seoul determined from the NbClust package.

이렇게 결정된 지역별 최적 클러스터 수 (강릉: 6개, 서울: 4개)로부터 K-Means 클러스터링을 수행하였으며, 클러스터링을 수행한 결과는 각 지역의 클러스터별 대표값과 각 클러스터에 포함되는 데이터의 비율을 포함한다 (표 2, 3). 각 클러스터는 계층적 군집화 (Hierarchical Clustering)와 분할적 군집화 (Partitional Clustering) 중 분할적 군집화라는 방식으로 분류된 군집을 의미한다. 이를 통해 방대한 양의 다차원 데이터들을 사용할 수 있다. 본 연구에 사용된 8년치의 대기 컬럼 에어로솔 데이터와 기상자료의 매우 방대한 양의 데이터를 효과적으로 처리하는 데 매우 적합하다.

Table 2. 
K-mean clustering analysis result using observation data from Gangneung.
Gangneung Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6
AOD 500 nm 1.13 0.28 0.18 0.21 0.35 0.32
AE44_67 1.11 1.34 1.24 1.46 1.29 0.96
Wind Direction (º) 188 (S) 283 (W) 274 (W) 277 (W) 86 (E) 267 (W)
Wind Speed (m/s) 1.81 1.88 4.0 2.73 1.73 2.62
Humidity (%) 65 68 30 42 69 44
Percentage of Cluster 4 24 19 27 12 14

Table 3. 
K-mean clustering analysis result using observation data from Seoul.
Seoul Cluster 1 Cluster 2 Cluster 3 Cluster 4
AOD 500 nm 1.07 0.32 0.27 0.33
AE44_67 1.05 1.39 1.08 1.40
Wind Direction (º) 211 (SW) 57 (NE) 259 (W) 278 (W)
Wind Speed (m/s) 2.23 2.03 3.56 2.14
Humidity (%) 68 57 50 53
Percentage of Cluster 18 26 18 38

3. 3 풍향별 AOD와 AE의 기여도

그림 8, 9는 연구 지역의 풍향의 비율과 풍향별 AOD, AE의 비율을 분석하기 위하여 풍향별 물리량의 분포를 나타낼 수 있는 에어로솔 장미 (Aerosol rose)를 작성한 결과이다. 에어로솔 장미의 결과를 통하여 강릉과 서울의 풍향의 비율과 각 풍향별로 차지하는 AOD와 AE의 비율을 확인하였다. 강릉에서는 전체 기간 중 서풍 계열과 동풍 계열의 바람이 각각 83%와 17%를 차지한 것으로 나타났으므로, 연구기간 동안 강릉 지역 내에서는 서풍 계열의 바람이 우세하였다. 그리고 강릉에서 서풍 계열의 바람이 분 사례 중 약 13%의 사례에서 AOD값은 약 0.525±0.075를 나타냈다. 또한 서풍 계열의 바람 중 40%의 사례에서 1.5±0.1의 AE값을 차지하였고, 33% 사례에서는 1.2~1.4의 AE값을 차지하였다 (그림 8).


Fig. 8. 
Aerosol rose map for calculating the contribution of (left) AOD and (right) AE440_675 by wind direction observed in Gangneung.


Fig. 9. 
Aerosol rose map for calculating the contribution of (left) AOD and (right) AE440_675 by wind direction observed in Seoul.

서울에서 전체기간 중 서풍 계열의 바람은 67%, 동풍 계열의 바람은 33%를 차지하여 서울 지역은 강릉과 다르게 동풍 계열의 바람비율이 강릉보다 높게 나타났다. 서울의 서풍 계열의 바람 중 약 36.5%의 사례에서 AOD가 약 0.525±0.075의 AOD값을 차지하여 강릉보다 더 많은 사례에서 높은 AOD값을 차지했고, 동풍 계열의 바람 중 약 33.9%의 사례에서 AOD가 약 0.525±0.075의 AOD값을 차지했다. AE의 경우 서울의 서풍 계열 바람 중 35%의 사례에서 1.5±0.1 이상의 AE값을 차지하였고, 31%에서 1.2~1.4의 AE값을 차지하였다. 동풍 계열 바람 중 41%의 사례에서 1.5±0.1 이상의 AE값을 차지하였고, 29%에서 1.2~1.4의 AE값을 차지하였다 (그림 9).

3. 4 칼럼 에어로솔 시나리오

각 연구 지역에서 수행된 머신러닝 클러스터링 결과와 풍향별 기여도를 이용하여 각 지역에서 에어로솔의 유형별 시나리오를 작성하였다. 그림 10는 강릉에서 주로 관측되는 에어러솔에 대한 6가지 유형별 시나리오를 가시화한 그림이다. 강릉의 6개 시나리오 중 1 번 시나리오는 습한 남풍이 매우 약하게 불어오고 대기 중 에어로솔 크기는 AE가 1.11로 비교적 큰 입자일 때 AOD가 가장 높은 1.13의 값을 보였다. 이 시나리오는 전체 데이터 중 4%에 해당하며, 강릉 지역 내의 인위적 배출원 (자동차 또는 강릉의 남쪽에 위치한 화력발전소와 시멘트 공장 등)에 의한 영향이 반영된 것으로 추정된다. 2번 시나리오는 습한 서풍이 매우 약하게 불어오고 AE가 1.34로 대기 중 에어로솔 입자의 크기가 큰 경우 AOD는 0.28로 매우 낮은 값을 보인다. 3번 시나리오의 경우 건조한 서풍이 매우 강하게 불어오고 AE가 1.24로 에어로솔 입자의 크기는 큰 상태일 때 AOD는 0.18로 가장 낮은 값을 보였다. 4번 시나리오는 건조한 서풍이 약하게 불어오고 AE가 1.46으로 에어로솔의 크기는 시나리오 중 가장 작은 경우이다. 이때 AOD는 0.21의 값이다. 5번 시나리오는 습한 동풍이 매우 약하게 불어오고 AE가 1.29로 에어로솔 입자는 큰 경우이다. 이때 AOD는 0.35의 값을 보이며, 이 시나리오에서는 동풍의 영향으로 바다의 해염입자가 육지쪽으로 불어오는 사례이다. 6번 시나리오는 건조한 서풍이 약하게 불어올 때 AE가 0.96으로 대기 중 에어로솔이 시나리오 중 가장 큰 입자상태에서 AOD는 0.32를 나타냈다.


Fig. 10. 
6 aerosol scenarios at Gangneung determined by the K-Means clustering results.

그림 11은 서울 지역의 에어러솔 유형별 시나리오를 가시화 한 것으로, 서울의 4개의 시나리오 중 1번 시나리오는 습한 남서풍이 약하게 불어올 때 AE가 1.05로 시나리오 중 에어로솔 입자의 크기가 가장 큰 상태일 때 AOD는 1.07로 에어로솔 농도의 영향이 가장 큰 경우이다. 2번 시나리오는 건조한 북동풍이 약하게 불어오고 AE가 1.39로 대기 중 에어로솔 입자의 크기가 비교적 작은 경우 AOD는 0.32를 나타냈다. 3번 시나리오의 경우 건조한 서풍이 강하게 불어오고 AE가 1.08로 에어로솔 입자의 크기는 비교적 큰 경우 AOD값이 0.27로 가장 낮은 시나리오이다. 4번 시나리오는 습한 서풍이 약하게 불어오고 AE가 1.40으로 대기 중 에어로솔의 크기가 시나리오 중 가장 작은 상태일 때 AOD의 값은 0.33을 나타내는 경우이다.


Fig. 11. 
4 aerosol scenarios at Seoul determined by the K-Means clustering results.

머신러닝을 이용한 시나리오 분류는 지역별로 기상특징과 컬럼 에어로솔의 특징을 반영하여 최적의 시나리오를 다양하게 산출하고 그 시나리오별 발생 비율까지 정량화 할 수 있다. 한반도는 지형적, 기상학적 편차가 지역별로 굉장히 크다. 또한 지상관측망의 분포도 일정하지 않아 지상관측과 인공위성을 이용한 관측이 중요하지만 이 또한 기상상황의 영향을 크게 받는 어려움이 있다. 머신러닝을 이용하여 서울과 강릉뿐만 아니라 여러 지역의 시나리오를 정량적으로 산출하는 연구가 진행되는 것이 중요하며 이를 통해 지역별 대기 에어로솔의 유형별 특성과 유출입 특성을 평가하기 위한 수단으로 활용할 수 있고, 나아가 지역별 미세먼지 관련 정책에도 도움을 줄 수 있는 자료가 될 것이다.

3. 5 시나리오별 대표사례

머신러닝 클러스터링 결과로 작성한 시나리오 사례를 검증하기 위하여, 강릉과 서울에서 동시에 지상관측자료가 존재하는 사례일에 대하여 GOCI RGB이미지와 MODIS L1B 데이터로부터 광역 에어로솔 정보를 확인하였다. 그리고, 지상관측데이터로 머신러닝을 수행한 결과로부터 결정된 시나리오와 관측데이터의 일치 여부를 확인하였다. GOCI와 MODIS L1B 사례에서는 연무가 서해에서 유입되었던 2018년 3월 27일과 상대적으로 대기가 청명한 2019년 1월 13일의 두 사례를 선택하였다 (그림 12, 13). 두 사례일 모두 강릉과 서울에서 지상 관측값이 존재하였으며, 각각의 지상관측 결과와 위성 관측값을 표 4에 나타내었다.


Fig. 12. 
(left) GOCI RGB color composite Image and (right) MODIS retrieved AOD on March 27, 2018.


Fig. 13. 
(left) GOCI RGB color composite Image and (right) MODIS retrieved AOD on January 13, 2019.

Table 4. 
Sunphotometer and AWS observation data for March 27, 2018 and July 03, 2019.
2018-03-27 2019-01-13
Gangneung Seoul Gangneung Seoul
MODIS AOD 550 nm 0.3 1.1 0.1 0.2
Sunphotometer
AOD 500 nm
0.4 1.3 0.3 0.3
AE 440-675 1.1 1.1 1.3 1.4
Wind direction W SW W W
Wind speed 3.5 m/s 1.6 m/s 2.9 m/s 1.4 m/s
Relative humidity 33% 61% 48% 58%
Selected scenario 6 1 6 4

2018년 3월 27일 강릉과 서울의 대기컬럼관측 자료와 AWS자료 (표 4)를 입력자료로 머신러닝을 수행한 결과, 강릉은 6번 시나리오에 해당하였으며 서울은 1번 시나리오에 해당하는 것으로 분류되었다. 이러한 분류 결과는 이전에 클러스터링으로 분류된 결과와도 일치하였다. 2019년 1월 13일의 강릉과 서울의 지상관측데이터 (표 4)의 관측값을 이용하여 머신러닝을 수행한 결과는 강릉이 6번 시나리오로 분류되었고, 서울의 경우는 4번 시나리오로 분류되었다. 머신러닝 클러스터링 기법 중 K-Means 알고리즘을 이용하여 시나리오를 분류하였고, 시나리오 검증을 위해 강릉과 서울의 지상관측 데이터로 머신러닝을 다시 검증한 결과 정확한 시나리오가 분류되었음을 확인하였다.


4. 결 론

칼럼 에어로솔 관측자료는 대기권에서 연직 방향으로 에어로솔의 총량과 입경 등 다양한 특성을 산출한 자료이다. 대기 에어로솔은 생성원과 이동과정에서 다양한 경로를 통하여 대기권 내에서 존재할 수 있으므로, 칼럼 에어로솔은 대기 에어로솔의 특성과 오염원을 규명하기 위하여 매우 중요한 요소이다. 본 연구에서는 강릉과 서울의 AERONET Sunphotometer 자료와 AWS 자료를 사용하여 에어로솔의 특성을 분류하고 기여도를 산정하였다. 이를 위해 머신러닝 기법 중 빅데이터 분류방법으로 잘 알려진 K-Means 알고리즘을 이용하여 강릉 지역의 대기 중 컬럼 에어로솔의 시나리오별 특성 분류 및 기여도를 산정하였다. 2012년부터 2019년까지의 AOD와 AE풍향, 풍속, 상대습도 자료를 사용하였으며 다음과 같은 결론을 도출할 수 있었다.

첫째, 강릉과 서울에서 장기간 동안 관측된 AOD와 AE의 시계열 분석 및 상관분석 결과, AOD 평균값은 강릉 0.28±0.24, 서울 0.46±0.4으로 서울이 강릉에 비하여 약 39.2% 높은 범위를 나타냈으며, 상관계수는 R=0.66으로 약한 양의 상관관계를 보였다. 그리고 AE의 평균은 강릉 1.29±0.26, 서울 1.29±0.28, 상관계수는 R=0.7을 나타내었으므로, 두 지역 간의 에어로솔입자의 크기는 유사하지만 AOD의 값은 서울이 더 높았다. 이러한 결과는 두 지역의 에어러솔 부하량에는 다소 차이가 있지만, 입자크기 분포 영역이 상당히 유사한 범위에 있음을 의미한다.

둘째, 두 지역의 에어로솔에 관한 유형별 분류를 위하여 머신러닝 클러스터링을 수행한 결과, 강릉에서 6개, 서울에서 4개의 최적 클러스터 갯수가 선정이 되었으며 각 클러스터별 중심값을 이용하여 사례별 시나리오가 선정되었다. 강릉의 경우 가장 빈번하게 발생했던 시나리오는 건조한 서풍이 약하게 불어오고 대기 중 입자의 크기가 작은 상태일 때 AOD가 0.21로 나타나는 시나리오이다. 서울의 경우 습한 서풍이 약하게 불어오고 대기 중 에어로솔의 입자 크기가 작은 상태일 때 AOD가 0.33을 보이는 시나리오이다. 두 지역에서 모두 가장 빈번하게 나타나는 시나리오 모두 서풍 계열의 바람이 약하게 불어오고 AOD와 AE값이 비교적 낮은 시나리오였다. 이는 두 지역 모두 편서풍대에 위치하여 서풍 계열 바람이 머신러닝 알고리즘에 반영된 결과이다. 서울과 강릉에서 남풍 계열의 바람이 약하게 불고 습도가 비교적 높은 상태일 때 입자의 크기가 서울에서는 시나리오 중에서 가장 컸고, 강릉에서는 두 번째로 큰 상태였으며 두 지역 모두 가장 높은 AOD값을 나타냈다. 이는 남풍이 부는 시나리오에서는 지역 내 인위적 발생원에서 배출된 입자 크기가 큰 대기오염물질이 영향을 주는 것으로 추정할 수 있다. 동풍 계열의 바람이 부는 시나리오에서는 두 지역 모두 낮은 AOD값을 나타내어 대기 중 오염물질의 부하량이 낮은 것으로 나타났다. 그러나 서울의 경우 동풍 계열일 때 가장 낮은 AE값을 나타내어 오염물질의 부하량은 낮지만 시나리오 중 가장 미세한 입자가 유입되는 것으로 추정된다. 강릉은 동쪽의 바다로 인해 해염입자 또는 습한 공기가 유입되어 AOD와 AE에 영향을 주는 사례가 알고리즘에 반영된 것으로 추정된다.

셋째, 강릉과 서울의 풍향 기여도와 풍향별 AOD, AE의 비율을 분석한 결과, 지역별 에어로솔 특성의 기여도는 강릉과 서울의 경우 각각 83%, 67%로 두 지역 모두 서풍 계열이 우세하였다. AOD와 AE를 에어로솔 장미로 분석하여 풍향별 AOD와 AE의 값의 분포와, 풍향의 변화에 따라 달라지는 기여도를 정량화 하였다.

본 연구에서 사용된 머신러닝 클러스터링은 대기 중 컬럼 에어로솔의 특성 분류 및 기여도 산정을 통한 미세먼지 모니터링 및 예측에 효과적일 것이다. 그러나, 본 연구는 관측지점의 제한으로 인하여 서울과 강릉의 사이에 대한 정보가 고려되지 못하여 각 지열별 유출입량에 대한 연계성이 고려되지 못한 점과, 국내 배출원의 상세 정보가 반영되지 못한 점으로 인하여 정밀한 분류 및 기여도를 분석하지 못한 한계점이 있다. 따라서, 추가적으로 요구되는 정보가 확보되는 경우, 에어러솔의 유형별 평가 및 지역 대기질에 미치는 기여도 평가 등의 추가연구가 가능할 것이다.


Acknowledgments

이 논문은 2019년도 정부 (교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임 (NRF-2019R1I1A3A01062804). 본 연구에서 사용된 AERONET 관측 지점 (서울, 강릉) 사이트를 구축, 유지 관리 및 자료 제공해 주신 연구자분들께 감사드립니다.


References
1. Ahmad, A., Dey, L. (2007) A K-mean Clustering Algorithm for Mixed Numeric and Categorical Data, Data & Knowledge Engineering, 63(2), 503-527.
2. Bae, M.-S., Shin, J.-S., Lee, K.-Y., Lee, K.-H., Kim, Y.-J. (2014) Long-range Transport of Biomass Burning Emissions Based on Organic Molecular Markers and Carbonaceous Thermal Distribution, Science of the Total Environment, 466, 56-66, (in Korean with English abstract).
3. Bejarano, S., Jouffray, J.-B., Chollett, I., Allen, R., Roff, G., Marshall, A., Steneck, R., Ferse, S.-C.-A., Mumby, P.-J. (2017) The Shape of Success in a Turbulent World: Wave Exposure Filtering of Coral Reef Herbivory, Functional Ecology, 31, 1312-1324.
4. Charrad, M., Ghazzali, N., Boiteau, V., Niknafs, A. (2014) NbClust: An R Package for Determining the Relevant Number of Clusters in A Data Set, Journal of Statistical Software, 61(6), 1-36.
5. Choi, J.-S., Kim, J.-H., Lee, T.-H., Choi, Y.-J., Park, T.-H., Ahn, J.-Y., Park, J.-S., Kim, H.-J., Koo, Y.-S., Kim, S.-D., Hong, Y.-D., Hong, J.-H. (2016) A Study on Chemical Characteristics of Aerosol Composition at West Inflow Regions in the Korean Peninsula I. Characteristics of PM Concentration and Chemical Components, Journal of Korean Society for Atmospheric Environment, 32(5), 469-484, (in Korean with English abstract).
6. Choi, J.-S., Kim, J.-H., Lee, T.-H., Choi, Y.-J., Park, T.-H., Ahn, J.-Y., Park, J.-S., Kim, H.-J., Koo, Y.-S., Kim, S.-D., Hong, Y.-D., Hong, J.-H. (2016) A Study on Chemical Characteristics of Aerosol Composition at West Inflow Regions in the Korean Peninsula II. Characteristics of Inorganic Aerosol Acidity and Organic Aerosol Oxidation, Journal of Korean Society for Atmospheric Environment, 32(5), 485-500, (in Korean with English abstract).
7. Hu, C.-G., Song, J.-H., Lee, K.-H. (2004) Size Distribution of Water-Soluble Ionic Components in the Atmospheric Aerosols Collected in Jeju City, Korea, Journal of Environmental Science International, 13(12), 1067-1078, (in Korean with English abstract).
8. Hua, S., Tian, H., Wang, K., Zhu, C., Gao, J., Ma, Y., Xue, Y., Wang, Y., Duan, S., Zhou, J. (2016) Atmospheric Emission Inventory of Hazardous Air Pollutants from China’s Cement Plants: Temporal Trends, Spatial Variation Characteristics and Scenario Projections, Atmospheric Environment, 128, 1-9.
9. Huang, F., An, Z., Moran, M.-J., Liu, F. (2020) Recognition of Typical Antibiotic Residues in Environmental Media Related to Groundwater in China (2009~2019), Journal of Hazardous Materials, 399, 122813.
10. Jin, K.-W. (2018) LEO and GEO Satellite Programs for Space-borne Measurement of Aerosol, Current Industrial and Technological Trends in Aerospace, 16(1), 53-62.
11. Jung, J.-H., Han, Y.-J. (2008) Study on Characteristics of PM2.5 and Its Ionic Constituents in Chuncheon, Korea, Journal of Korean Society for Atmospheric Environment, 24(6), 682-692.
12. Kim, D.-H. (2018) Study of Retrieving the Aerosol Size Distribution from Aerosol Optical Depths, Korean Journal of Optics and Photonics, 29(4), 139-148.
13. Kim, D.-K., Yoo, H.-H. (2014) Analysis of Temporal and Spatial Red Tide Change in the South Sea of Korea Using the GOCI Images of COMS, Journal of Korean Society for Geospatial Information Science, 22(3), 129-136.
14. Kim, H.-M., Jeong, J.-H., Kim, H.-U., Park, C.-G., Kim, B.-J., Kim, S.-B. (2020) Effects of Observation Network Density Change on Spatial Distribution of Meteorological Variables: Three-Dimensional Meteorological Observation Project in the Yeongdong Region in 2019, Atmosphere, 30(2), 169-181.
15. Kim, J.-Y., Choi, B.-C. (2002) Aerosol Size Distributions and Their Regional Characteristics over Korea, Asia-Pacific Journal of Atmospheric Sciences, 38(2), 95-104.
16. Kim, K.-C., Lee, D.-S., Lee, K.-Y., Lee, K.-H., Noh, Y.-M. (2016) Estimation of Surface-level PM2.5 Concentration Based on MODIS Aerosol Optical Depth Over Jeju, Korea, Korean Journal of Remote Sensing, 32(5), 413-421.
17. Kim, K.-W., Kim, Y.-J., Oh, S.-J. (2001) Visibility Impairment During Yellow Sand Periods in the Urban Atmosphere of Kwangju, Korea, Atmospheric Environment, 35(30), 5157-5167.
18. King, M.-D., Kaufman, Y.-J., Tanre, D., Nakajima, T. (1999) Remote Sensing of Tropospheric Aerosols from Space: Past, Present, and Future, Bulletin of the American Meteorological Society, 80(11), 2229-2260.
19. Kokhanovsky, A.-A., Von Hoyningen-Huene, W., Burrows, J.-P. (2006) Atmospheric aerosol load as derived from space, Atmospheric Research, 81(2), 176-185.
20. Kwon, Y.-S., Song, D.-W., Kang, K.-H. (1996) Studies on the Transportation and Wet Deposition of Air Pollutant (SO₂) by Modeling and Precipitation Analysis in Wonju City, Analytical Science & Technology, 9(1), 98-106.
21. Lee, K.-H. (2013) Creating Atmospheric Scattering Corrected True Color Image from the COMS/GOCI Data, Journal of the Korean Association of Geographic Information Studies, 16(1), 1-14, (in Korean with English abstract).
22. Lee, K.-H., Kim, Y.-J. (2010) Satellite Remote Sensing of Asian Aerosols: A Case Study of Clean, Polluted, and Asian Dust Storm Days, Atmospheric Measurement Techniques, Copernicus GmbH, 3, 1771-1784.
23. Lee, K.-H., Kim, Y.-J. von Hoyningen-Huene, W., Burrow, J.-P. (2007) Spatio-temporal Variability of Satellite-derived Aerosol Optical Thickness over Northeast Asia in 2004, Atmospheric Environment, 41, 3959-3973.
24. Lee, K.-H., Lee, K.-T. (2020) Characteristics of Atmospheric Aerosols Based on Column Measurements by Using Machine Learning Clustering, Journal of Korean Society for Atmospheric Environment, 36(5), 608-619.
25. Lee, Y.-H. (2021) A Study on Analytical Machine Learning Method Applying Discretization and Hierarchical Clustering Algorithm, The Journal of Korean Institute of Information Technology, 19(1), 55-61.
26. Murphy, K.P. (2012) Machine Learning: A Probabilistic Perspective, MIT Press.
27. NamGung, J.-Y., Yu, J.-H., Kim, N.-W., Choi, M.-K., Ham, D.-J., Kim, H.-S., Jang, Y.-J. Choi, E.-K. (2005) The Effect of Inversion Layer on the Land and Sea Breeze Circulations Near the Gangneung, Atmosphere, 15(4), 229-239.
28. Oh, C.-J., Ham, M.-J., Lee, S.-W. (2021) Classifying Video Media Repertoires of Millennial Generation: Focusing on the Use of TV and OTT Service, The Journal of Korean Institute of Communications and Information Sciences, 46(5), 863-881, (in Korean with English abstract).
29. Oh, H.-R., Ho, C.-H., Kim, J.-W., Chen, D., Lee, S.-M., Choi, Y.-S., Chang, L.-S., Song, C.-K. (2015) Long-range Transport of Air Pollutants Originating in China: A Possible Major Cause of Multi Day High PM10 Episodes During Cold Season in Seoul, Korea, Atmospheric Environment, 109, 23-30.
30. Park, G.-H., Lee, B.-K. (2015) Size Distribution Characteristics of Water-soluble Ionic Components in Airborne Particulate Matter in Busan, Journal of Korean Society for Atmospheric Environment, 31(3), 287-301.
31. Park, S.-H., Kim, M.-A., Im, J.-H. (2021) Estimation of Ground-level PM10 and PM2.5 Concentrations Using Boosting-based Machine Learning from Satellite and Numerical Weather Prediction Data, Korean Journal of Remote Sensing, 37(2), 321-335.
32. Pöschl, U. (2005). Atmospheric Aerosols: Composition, Transformation, Climate and Health Effects, Angewandte Chemie International Edition, 44(46), 7520-7540.
33. Seinfeld, J.H., Pandis, S.N. (2008) Atmospheric Chemistry and Physics, John Wiley & Sons, Inc., New York, 1326 pp.
34. Singh, H.-B., Jacob, D.-J. (2000) Future Directions: Satellite Observations of Tropospheric Chemistry, Atmospheric Environment, 34(25), 4399-4401.
35. Siomos, N., Fountoulakis, I., Natsis, A., Drosoglou, T., Bais, A. (2020) Automated Aerosol Classification from Spectral UV Measurements Using Machine Learning Clustering, Remote Sensing, 12(6), 965.
36. Sohn, C., Shin, S.-Y. (2007) Influence of Spatial Interpolation Methods Based on Buffering on Hedonic Analysis of Air Quality, The Korea Spatial Planning Review, 77-91.
37. Son, K.-W., You, S.-H., Kim, H.-C., Kim, B-U., Kim, S.-T. (2020) Inter-comparisons of Spatially Interpolated Short-term and Long-term PM2.5 Concentrations of Local Authorities in South Korea 2015-2017, Journal of Korean Society for Atmospheric Environment, 36(2), 185-197.
38. Steinfeld, J.-I. (1998) Atmospheric Chemistry and Physics: From Air Pollution to Climate Change, Environment: Science and Policy for Sustainable Development, 40(7), 26.
39. Tan, S.-C., Li, J., Che, H., Chen, B., Wang, H. (2017) Transport of East Asian Dust Storms to the Marginal Seas of China and the Southern North Pacific in Spring 2010, Atmospheric Environment, 148, 316-328.
40. Tao, M., Chen, L., Li, R., Wang, L., Wang, J., Wang, Z., Tang, G., Tao, J. (2016) Spatial Oscillation of the Particle Pollution in Eastern China During Winter: Implications for Regional Air Quality and Climate, Atmospheric Environment, 144, 100-110.
41. Yoon, S.-C., Won, J.-G., Omar, A.-H., Kim, S.-W., Sohn, B.-J. (2005) Estimation of the Radiative Forcing by Key Aerosol Types in Worldwide Locations Using A Column Model and AERONET Data, Atmospheric Environment, 39(35), 6620-6630.
42. Zhang, Q., Jimenez, J.-L., Canagaratna, M.-R., Allan, J.-D., Coe, H., Ulbrich, I., Alfarra, M.-R., Takami, A., Middlebrook, A.-M., Sun, Y.-L., Dzepina, K., Dunlea, E., Docherty, K., DeCarlo, P.-F., Salcedo, D., Onasch, T., Jayne, J.-T., Miyoshi, T., Shimono, A., Hatakeyama, S., Takegawa, N., Kondo, Y., Schneider, J., Drewnick, F., Borrmann, S., Weimer, S., Demerjian, K., Williams, P., Bower, K., Bahreini, R., Cottrell, L., Griffin, R.-J., Rautiainen, J., Sun, J.-Y., Zhang, Y.-M., Worsnop, D.-R. (2007) Ubiquity and Dominance of Oxygenated Species in Organic Aerosols in Anthropogenically Influenced Northern Hemisphere Midlatitudes, Geophysical Research Letters, 34, L13801.

Authors Information

표성훈 (강릉원주대학교 공간정보협동과정 석사과정)

이권호 (강릉원주대학교 대기환경과학과 교수)

이규태 (강릉원주대학교 대기환경과학과 교수)