핵심어 분석을 통한 국내 대기환경분야의 연구 경향 추이 분석: 1985년부터 2022년까지 한국대기환경학회 출간 논문을 중심으로
Abstract
The primary objective of this study is to conduct an in-depth analysis of domestic research trends within the field of atmospheric environment over the past four decades based on advanced text mining techniques. A comprehensive analysis was made using the datasets of 1919 peer-reviewed scholarly articles, published in the Journal of the Korean Society for Atmospheric Environment (KOSAE) over the period of 1985 to 2022. The findings of this analysis conspicuously underscore that investigations have been most robustly pursued in the realms of particulate matter (PM) with respect to the concentration levels and temporal changes along with the identification of sources pertaining to chemical compounds present in the atmosphere. The outcomes derived from a rigorous application of Term Frequency (TF), Term Frequency-Inverse Document Frequency (TF-IDF), and N-gram analyses collectively reveal a prevailing and sustained research emphasis on PM emissions throughout the preceding four decades. This prolonged focus on PM emissions emerges as the principal thematic discourse within the examined research landscape for the future.
Keywords:
Keyword, JKOSAE, KOSAE, TF, TF-IDF1. 배 경
한국대기환경학회지 (Journal of Korean Society for Atmospheric Environment (JKOSAE))는 1985년부터 한국대기환경학회가 발행하는 학술지 (International Standard Serial Number (ISSN, print) 1598-7132, (ISSN, online) 2383-5346)로, 대기환경과 관련된 다양한 연구 논문 및 정보를 게재하는 저널이다. 이 학술지는 대기오염, 대기질 모니터링, 대기 중 오염물질의 분석과 모델링, 대기환경 정책 등에 관련된 연구와 정보를 전문적으로 다루고 있으며, 2022 Impact Factor로 1.0 (https://jcr.clarivate.com/)의 영향력을 나타내고 있다. 또한, 한국대기환경학회지의 Korea Citation Index (KCI) 2022 영향력지수는 1.91로, 자연과학 분야 (전체 123개)에서 3위에 해당한다.
한국대기환경학회지에는 대기환경 분야의 연구자들이 수행한 다양한 논문들이 게재되며, 이를 통해 대기오염 문제에 대한 이해와 해결책을 모색하는 데 기여하고 있으며, 본 학술지를 통해 연구자들 간의 정보 교류와 최신 연구 동향 파악 및 정책 결정자나 환경 전문가들에게도 중요한 정보원 역할을 하고 있다. 한국대기환경학회지는 게재되는 논문들은 해당 분야의 전문가들에 의해 심사되고 평가되며, 국내외의 대기환경 연구자들과 관련 기관들 사이에서 중요한 학술적 교류와 지식 공유의 장을 제공하며, 대기환경 문제에 대한 더 나은 이해와 해결을 위한 연구 활동을 촉진하고 있다. 한국대기환경학회지는 2002년 12월 KCI 등재학술지에 선정된 이후로, 2018년 1월 KCI 우수등재학술지로 승격되었으며, 2017년 7월 Emerging sources citation index (ESCI)에 선정되었고, 2020년 9월에 Scopus에 등록되었다. 1년 총 6회 (2월, 4월, 6월, 8월, 10월, 12월)에 출판되고 있으며, 한국어 출판을 원칙으로 하고 있다. 2023년부터는 electronic copy (e-copy)만 발행하여, 디지털 시대에 맞추어 변화하고 있다.
본 연구에서는 지난 1985년부터 2022년 출판된 한글 논문제목 및 영문 초록을 바탕으로 주요 단어를 분석하여 대기환경의 연구 동향을 통계 분석하였다. 이를 바탕으로 지난 40년간의 연구 추이 및 향후 미래의 연구 방향을 제시하고자 한다.
2. 분석 방법
2. 1 빅데이터 분석 과정 및 체계
연구 경향을 확인하기 위하여, 국문의 경우 한글 제목 내 단어를 중심으로, 초판 1985년부터 2022년까지 1,919편, 영문의 경우, 영문 초록 내 단어를 중심으로, 공식적으로 기록된 최근 22년간 (2001~2022) 한국대기환경학회 연구논문 총 1,424편에 대해서, 주요 키워드를 분석하였다. 연구 동향을 분석하기 위해 데이터전처리 및 데이터 분석 과정 순으로 연구를 진행하였으며, 핵심적인 연구 주제 및 의미를 도출하기 위해 단어 빈도수 및 단어 빈도 분석, N-gram 등을 진행하였다. 좀 더 자세히, 10년 간격, 5년의 기간을 설정하여 핵심단어의 출현빈도를 분석하였다. 2001년 이후 출판된 논문에 대해서는 영문 초록의 단어 빈도, N-gram 분석을 진행하였다.
2. 2 단어 빈도 및 역문서 빈도 분석
본 연구에서는 단어 빈도 (Term Frequency, TF)와 단어 빈도-역문서 빈도 (Term Frequency-Inverse Document Frequency, TF-IDF)를 분석하였다 (Christian et al., 2016). TF-IDF는 문장에서 특정 단어의 빈도 수를 통계적으로 나타내는 지표이다 (Lee and Lee, 2022; Lee et al., 2019). TF-IDF 값이 높을수록 논문의 핵심단어임을 의미한다 (Choi and Kim, 2015). 단어 간 연결강도 분석 (N-gram)은 단어의 연쇄를 수치로 표현하며, 단어 간 관계성을 나타낼 수 있다 (Lee and Lee, 2022). 본 연구에서는 텍스트 추출을 통해 단어 빈도수와 TF-IDF를 산출하였다. TF-IDF는 여러 문서로 이루어진 문서 군이 있을 때 특정 문서 내에서 특정 단어가 얼마나 중요한지를 나타내는 통계적 수치이다. 구체적으로 TF-IDF 값은 특정 문서에는 많이 언급되지만, 전체 문서에서 해당 단어가 출현한 문서 수가 적은 경우에도 증가하지 않기 때문에, TF-IDF 값이 클수록 핵심주제 및 의미를 나타낼 가능성이 크다 (Chung et al., 2019).
2. 3 단어 간 연결강도 분석 (N - gram)
N-gram 분석은 N개 단어의 연쇄를 확률적인 수치로 산출하고 시각화하는 분석 방법으로 대용량의 문서에서 특정 단어 뒤에 위치하는 음절이나 단어의 빈도를 정량적인 수치로 나타낼 수 있다 (Kang and Lee, 2019). 단어 간 연결방향이 화살표를 통해 시각적으로 표시되며 화살표의 굵기 크기를 통해 연결강도가 결정된다 (Yoo et al., 2019). 본 연구에서는 공출현 단어의 연결중심성 지수를 도출하고 N-gram 네트워크 그래프로 시각화를 진행하였다 (Lee and Lee, 2022). 이를 위해 전처리된 학술데이터 자료를 N-gram 네트워크 분석을 통해 나타내었다.
3. 결과 및 고찰
3. 1 연구 출판 동향
한국대기환경학회 첫 논문은 ‘국내 대기오염의 연구현황과 전망 (Lee and Park, 1985)’이라는 논문을 시작으로, 1985년부터 2022년까지 연구논문 총 1,919편에 대해서 게재된 연구논문 수를 연도별로 살펴볼 때, 2006년 84편, 1999년 74편, 2004년 72편으로 높게 나타났으며 (그림 1), 전체적으로 연간 51편이 출판되었다. 논문 게재 추이를 살펴보면 2002년 이후 전체적으로 일정하게 유지하는 경향을 보이며, 2022년 61편으로 마감되었다. 시기별로 분석한 결과, 제 1시기 (2001~2005) 466편 (31.4%), 제 4시기 (2016~2022) 383편 (56.1%), 제 2시기 (2006~2010) 321편 (21.6%), 제 3시기 (2011~2015) 305편 (20.5%) 순으로 나타났다.
3. 2 단어 빈도 (TF)
그림 2는 1985년부터 10년 간격으로 한글 제목에 대한 TF 분석을 한 결과이다. 제목만 분석했기 때문에, 단어의 전체 자료 수를 높이고, 시기에 따른 연구 동향을 좀 더 자세히 이해하기 위해 각 분석 기간마다 5년의 중첩 기간을 내포하고 있다. 전체적인 단어를 살펴보면, 90년도 초기에는 일반 대기 및 농도의 단어에서, 2000년대 이후 성분 및 관련된 오염원 분석에 따른 배출량, 특성 등으로 연구 유형이 변화하는 것을 볼 수 있다. 2015년도 이후에는 미세먼지 단어가 상대적으로 높게 나타나면서, 물리적 크기에 따른 배출 및 성분에 대한 연구가 변화되고 있음을 볼 수 있다. 한글 제목만으로는 전체 분석 자료의 한계가 있으므로, 2001년 이후, 영문 초록에 출판된 영문 단어를 중심으로 TF 분석을 수행하였다.
그림 3은 2001년부터 5년 간격으로 (2001~2006, 2006~2011, 2011~2016, 2016~2022) 영문 초록에 출판된 영문 단어를 중심으로 한 TF 분석을 수행한 결과를 연도별 출판 편수와 함께 나타낸 것이다. 그 결과, 전체적으로 concentrate (2,611)이 가장 높은 빈도를 나타냈으며, emission (1,942), PM (1,072), source (987), quality (531) 순으로 대기 배출과 대기질 측정과 관련된 단어들이 상위 10위권 내로 형성되었다. Pollutant (469), contribute (426), compound (334) 등 대기오염원의 기여 및 합성과 관련된 단어들이 상위 10위에서 20위권 내를 형성하였다. Vehicle (276), transport (212) 등 대기오염원인 이동수단 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다. Estimate (184), experiment (176), performance (147) 등 대기오염 실험 및 측정과 관련된 단어들이 상위 30위에서 40위권 내를 형성하였다. 즉, 대기오염의 이동오염원에 대한 배출 성분 및 기여량 측정, 분석이 지난 40여 년간의 주 연구 주제라 할 수 있다.
이를 5년 단위로 한국대기환경학회 2001~2005년에 관한 빈도 분석을 실시한 결과, concentrate (480)이 가장 높은 빈도를 나타냈으며, particle (194), source (180), emission (178), aerosol (144) 순으로 미세입자 배출과 에어로졸 형성과 관련된 단어들이 상위 10위권 내로 형성되었다. Pollutant (69), contribute (62), compound (51) 등 대기오염원의 기여 및 합성과 관련된 단어들이 상위 10위에서 20위권 내를 형성하였다. Experiment (49), quality (48) 등 대기질 측정과 실험과 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다. Transport (35), control (28), vehicle (28) 등 이동수단과 차량 배기의 조절과 관련된 단어들이 상위 30위에서 40위권 내를 형성하였다.
2006~2010년에 관한 빈도 분석을 실시한 결과, 2001~2005년의 1번 결과와는 다르게, emission (264)이 가장 높은 빈도를 나타냈으며, concentrate (243), PM (173), source (163), results (154) 순으로 높은 빈도를 나타냈다. 대기 배출 및 농도 분석과 관련된 단어들이 상위 10위권 내로 형성되었다. Factors (85), compounds (83) 등 대기 입자 및 인자와 관련된 단어들이 상위 10위에서 20위권 내를 형성하였다. Carbon (62), toluene (56), pollutants (54) 등 대기오염원 및 성분과 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다. 이는, 2000년도 초반 단순 질량 측정에서 원인별 성분 측정 및 분석으로 넘어가는 연구로 변모한다고 할 수 있다. 2011~2015년에 관한 빈도 분석을 실시한 결과, 2006~2010년과 유사하게 emission (358)이 가장 높은 빈도를 나타냈으며, concentrate (293), PM (260), emissions (220), carbon (168) 순으로 높은 빈도를 나타냈다. 하지만, transport (51) 등 이동수단 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다. Control (49), monitoring (48) 등 이와 관련된 대기환경 모니터링 및 조사와 관련된 단어들이 상위 30위에서 40위권 내를 형성하여, 좀 더 세밀한 측정이 시작된 시기라 할 수 있다.
한국대기환경학회 2011~2015년에 관한 빈도 분석을 실시한 결과, analysis (110) 등 농도 분석과 관련된 단어들이 상위 10위권 내로 들어왔다. 또한, particles (99), factors (86), compounds (67) 등 대기 입자 및 인자와 관련된 단어들이 상위 10위에서 20위권 내를 형성하는 것을 볼 때, 유기성분 등 본격적인 정밀한 성분 분석이 시작되는 시점이라 할 수 있다.
이후, 2016~2022년에 관한 빈도 분석을 실시한 결과, reduction (128)이라는 단어가 등장하기 시작하여 대기오염 감축을 위한 분석 및 모니터링과 관련된 단어들이 상위 10위에서 20위권 내를 형성하였다. 또한, transport (87), control (75), vehicle (67) 등 이동수단과 제어와 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다. 더 나아가, event (67), exposure (58) 등과 같은 사건과 노출과 관련된 단어들이 상위 30위에서 40위권 내를 형성하여, 고농도에 대한 정밀한 분석이 본격적으로 시작된 시점이다.
3. 3 빈도 - 역문서 빈도 (TF - IDF)
표 1은 2001년부터 영문 초록에 출판된 영문 단어를 중심으로 한 TF-IDF 분석을 수행한 결과를 나타낸 것이다. 그 결과, emission (2,316.5), quality (966.7) 등 대기 배출과 대기질 측정과 관련된 단어들이 상위 10위권 내로 형성되었다. Pollutant (880.5), compound (767.7), distribute (686.1) 등 대기오염원의 성분 및 분포와 관련된 단어들이 상위 10위에서 20위권 내를 형성하였다. Reduction (642.7), monitor (600.3), control (536.8) 등 대기오염원 감소 및 모니터링과 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다. Event (482.8), experiment (176), estimate (467.4) 등 대기오염을 일으키는 주요 사건과 측정과 관련된 단어들이 뒤이어 나타났다.
이를 5년간으로 분석해 보면, 한국대기환경학회 2001~2005년 관한 TF-IDF를 실시한 결과, concentrate (489.7)이 가장 높은 가중치를 나타냈으며, 한국대기환경학회 2006~2010년 관한 TF-IDF를 실시한 결과, emission (348.1)이 가장 높은 가중치를 나타내 앞선 TF 분석 결과와 유사하게 나타났다. 또한, TF 결과에 나타난 toluene (148.8), carbon (145.2)과 함께 mercury (133.1)가 주 연구 주제로 등장함을 알 수 있다.
한국대기환경학회 2011~2015년 관한 TF-IDF를 실시한 결과, TF와 다른 점은 climate (134.6) 등 이동수단, 배기가스로 인한 기후변화와 관련된 단어들이 상위 20위에서 30위권 내를 형성하여, 기후변화 조건이 대기오염과 큰 관련성이 있음에 주목하였다.
가장 최근인, 한국대기환경학회 2016~2022년 관한 TF-IDF를 실시한 결과, PM (714.4)이 가장 높은 가중치를 나타냈으며, reduction (252.7), analysis (232.9), monitor (216.3) 등 대기오염 감축을 위한 분석 및 모니터링과 관련된 단어들이 상위 10위에서 20위권 내를 형성하였다. Policy (197.3), transport (181.7) 등 이동수단 및 대기 저감정책과 관련된 단어들이 상위 20위에서 30위권 내를 형성하였다.
3. 4 단어 간 연결강도 분석 (N - gram)
그림 4는 2001년부터 영문 초록에 출판된 영문 단어를 중심으로 한 N개 단어의 연쇄를 확률적인 수치로 산출하는 방법인 N-gram 분석 결과를 나타낸 것이다. 한국대기환경학회 전체 시기에 대한 단어 간 연결강도 분석 결과, ‘PM → concentrate’가 연결강도 (326)로 가장 높게 나타났으며, 이 외에도 ‘emission → factor (250)’, ‘concentrate → PM (157)’, ‘emission → source (154)’ 순으로 도출되었다. 이는 대기 농도 및 이에 대한 배출원인 분석이 가장 중요한 부분이기 때문이다. 또한, 연쇄 단어를 살펴보면 ‘diesel → vehicle → emission → concentrate → particle → distribute’ 6개 gram의 동시 연결성을 나타내었으며, ‘emission → concentrate → quality → monitor’ 4개 gram의 동시 연결성을 나타내었다. 또한, ‘emission → concentrate → specie’ 3개 gram의 동시 연결성을 나타내어 이는 차량 수단으로 인한 대기배출과 성분 측정 및 모니터링이 중요함을 분석할 수 있다.
이를 5년 단위로 분석해 보면, 2001~2005년의 단어간 연결강도 분석 결과, ‘concentrate → particle’이 연결강도 (29)로 가장 높게 나타났으며, 이 외에도 ‘emission → factor (28)’, ‘particle → concentrate (27)’, ‘toluene → concentrate (24)’ 순으로 나타났다. 이후, 2006~2010년의 단어 간 연결강도 분석 결과, ‘emission → actors’가 연결강도 (47)로 가장 높게 나타났으며, 이 외에도 ‘removal → efficiency (16)’, ‘emission → sources (16)’, ‘quality → monitoring (15)’ 순으로 나타났다. 이는 대기배출 원인 분석의 연구로 진화됐음을 의미한다. 또한, ‘benzene → toluene’ 등 전체 단어수가 3개인 연쇄군집 9개가 도출되어, 2000년도 중반이후, 휘발성 유기 화합물의 상호 배출 및 연관성에 깊은 연구가 진행되었다.
한국대기환경학회 2011~2015년의 단어 간 연결강도 분석 결과, ‘emission → factors’가 포함한 연쇄 군집에서는 전체 단어수가 20개로 나타났으며, 특히, ‘biomass → burn’ 등 특정 오염원에 따른 대기배출 성분 및 연구가 진행되었다. 더 나아가, 단어 연쇄를 살펴보면 ‘diesel → vehicle → emission → concentrate → PM → source → contribute’와 같은 7개 gram의 동시 연결성을 나타내 대기배출 원인에 따른 대기오염에 대한 연구가 활발히 진행되었음을 알 수 있다. 가장 최근의 한국대기환경학회 2016~2022년의 단어 간 연결강도 분석 결과, ‘typhoon → prevention’, ‘compound → VOCS’와 같은 다양한 분야의 연관어가 도출되었고, ‘policy → emission → concentrate → specie’ 4개 gram의 동시 연결성을 나타내어, 이는 대기배출 주성분에 대한 농도 및 이에 대한 저감 정책이 부각되었다.
4. 요약 및 제언
본 연구에서는 지난 1985년부터 2022년 출판된 한글 논문 제목 및 영문 초록을 바탕으로 주요 단어를 분석하여 대기환경의 연구 동향을 통계 분석하였다. 1985년부터 2022년까지 연구논문 총 1,919편에 대해서 게재된 연구논문 수를 연도별로 살펴볼 때, 2006년 84편, 1999년 74편, 2004년 72편으로 높게 나타났으며, 전체적으로 연간 51편이 출판되었다. 한국대기환경학회 2001~2005년 관한 TF-IDF를 실시한 결과, concentrate이 가장 높은 가중치를 나타냈으며, 한국대기환경학회 2006~2010년 관한 TF-IDF를 실시한 결과, emission이 가장 높은 가중치를 나타냈다. 또한, toluene, carbon, mercury가 본 기간 동안 주 연구 주제로 등장하였다. 2011~2015년에는 climate 등 이동수단, 배기가스로 인한 기후변화와 관련된 단어들이 새롭게 나타났으며, 기후변화 조건이 대기오염과 큰 관련성이 있음에 주목하였다. 2016~2022년 관한 TF-IDF를 실시한 결과, PM이 가장 높은 가중치를 나타냈으며, reduction, analysis, monitor 등 대기오염 감축을 위한 분석 및 모니터링과 관련된 단어들이 상위권을 형성하였다. 또한, policy 등 대기배출 주요 성분과 농도 측정과 함께 정책적용 주요 연구로 진행되고 있음을 알 수 있다.
본 연구에 활용되지 않은 2023년도 이후 출판되는 논문을 살펴볼 때, 측정 분석 분야에서 초정밀 tandem mass 미세먼지 질량 분석이 주 연구로 진행될 예정으로 판단되며, 인체 독성 관련 분야, 모델 분야에서는 인공지능 기반의 대기질 예측 등이 향후 연구에서 중요한 역할을 담당할 수 있을 것으로 판단한다.
Acknowledgments
본 연구는 한국대기환경학회 지원으로 통계 분석이 수행되었습니다.
References
- Choi, W.-S., Kim, S.B. (2015) N-gram Feature Selection for Text Classification Based on Symmetrical Conditional Probability and TF-IDF, Journal of Korean Institute of Industrial Engineers, 41, 381-388, (in Korean with English abstract). [https://doi.org/10.7232/JKIIE.2015.41.4.381]
- Christian, H., Agus, M.P., Suhartono, D. (2016) Single Document Automatic Text Summarization using Term Frequency-Inverse Document Frequency (TF-IDF), ComTech: Computer, Mathematics and Engineering Applications, 7, 285-294. [https://doi.org/10.21512/comtech.v7i4.3746]
- Chung, P., Ahn, H., Kwahk, K.-Y. (2019) Identification of Core Features and Values of Smartphone Design using Text Mining and Social Network Analysis, Korean Jouranl of Business Administration, 32, 27-47, (in Korean with English abstract). [https://doi.org/10.18032/kaaba.2019.32.1.27]
- Kang, J.Y., Lee, Y.D. (2019) A Big Data Analysis of “Youth Counseling 1388” Utilizing Text Mining: Focused on NAVER Knowledge iN, 2011-2018, The Korea Journal of Youth Counseling, 27, 127-147. [https://doi.org/10.35151/KYCI.2019.27.2.006]
- Lee, J.-H., Lee, M., Kim, J.-W. (2019) A study on Korean language processing using TF-IDF, The Journal of Information Systems, 28, 105-121, (in Korean with English abstract). [https://doi.org/10.5859/KAIS.2019.28.3.105]
- Lee, J.-K., Lee, C.-B. (2022) A Study on Research Trends (2001-2020) of Pinus densiflora Using Text Mining Based on Natural Language Processing, Journal of Agriculture & Life Science, 56, 35-47, (in Korean with English abstract). [https://doi.org/10.14397/jals.2022.56.2.35]
- Lee, T.J., Park, W.H. (1985) An Overview of Air Pallution Research in Korea, Journal of Korean Society for Atmospheric Environment, 1, 1-8.
- Yoo, J.-Y., Kim, J.-Y., Baek, H.-S. (2019) Bibliometric Analysis on Studies of Korean Intangible Cultural Property Dance?: Focusing on Events in the Seoul Area, Journal of the Korea Entertainment Industry Association, 13, 139-147, (in Korean with English abstract). [https://doi.org/10.21184/jkeia.2019.6.13.4.139]
배민석 (국립목포대학교 환경공학과 교수) (minsbae@mnu.ac.kr)
김조천 (건국대학교 사회환경공학부 교수) (jckim@konkuk.ac.kr)
김기현 (한양대학교 건설공학과 교수) (kkim61@hanyang.ac.kr)
이태형 (한국외국어대학교 환경학과 교수) (thlee@hufs.ac.kr)
한영지 (강원대학교 농업생명과학대학 환경융합학부 교수) (youngji@kangwon.ac.kr)
오세호 (국립목포대학교 환경공학과 박사과정연구원) (osh9119mnudk@mokpo.ac.kr)
백성옥 (영남대학교 환경공학과 명예교수) (sobaek@yu.ac.kr)