Note

Ocean and Polar Research. 18 April 2025. 1-13
https://doi.org/10.4217/OPR.2025004

ABSTRACT


MAIN

  • 1. 서 론

  • 2. 자료 및 방법

  •   연구자료

  •   시계열 자료 단기변동 분석 방법

  •   자기상관함수와 통계측도

  • 3. 결 과

  •   시간 차분변수 밀도분포

  •   차분변수의 표준편차와 ACF 비교

  •   로버스트 분산측도

  • 4. 토 의

  •   차분 변수의 정상성

  •   차분 변수의 정규성

  •   용존산소 농도 일주기 변동

  •   기계학습 모델 예측 오차 평가 기준

  • 5. 결 론

1. 서 론

해양 환경 변화 파악의 대표적인 관측자료 유형은 고정된 정점에서 센서를 이용하여 일정한 시간 간격으로 생산되는 시계열(time-series) 자료이다. 과거부터 해양에서의 연속 관측은 꾸준히 수행되어 왔기 때문에 관측 기간이 증가하면서 수년 동안의 변화를 볼 수 있는 장기 시계열 자료가 생산되고 있다. 다만 전반적인 해양 환경인자 변동양상 분석 연구는 관측방법의 한계로 인해 한 지역 내 다수의 정점에서 적은 횟수의 관측정도가 가능하므로 계절 규모의 수동 장기 관측 자료를 이용한 추세 및 변화 양상 분석이 대부분을 차지하고 있다(Kwon et al. 2019; Park et al. 2009a, 2009b; Kwon 2010; Kwon et al. 2014a, 2014b; Yoon et al. 2007; Park et al. 2010; Park et al. 2011; Jeong et al. 2016; Oh et al. 2007; Lee et al. 2018; Lee et al. 2016; Won and Lee 2015). 상대적으로 높은 시간해상도의 시계열 자료를 활용한 연구는 주로 전체 관측기간 규모에서 추세분석, 계절 변동 양상 분석 등 장기분석에 집중되었고, 단기분석은 시간 지연(time-lag) 간격에 따른 자기회귀(auto-regressive) 분석으로 한정되어 일정한 시간 간격으로 자료를 구분하여 통계 측도(statistical measures)를 추정·분석하여 전체 변동 양상을 요약하는 연구가 대부분을 차지하고 있다(Park et al. 2012; Yang et al. 2021). 센서기반 또는 자동관측으로 생성되는 시계열 자료라 할지라도 간단한 ARMA 계열 모형 또는 기계학습모형 구축 및 성능평가부분에만 집중되고 있는 상황이다(Han et al. 2020; Park et al. 2022). 해양의 환경인자는 동적(dynamic) 특성을 보이기 때문에 단기 변동 양상분석이 매우 중요하다. 또한 장기 시계열 자료도 단기 변화가 누적되어 장기 변화를 유발하기 때문에 단기 변화 양상이 우선 분석되어야 한다. 특히 연안 환경은 육상과 수 km내에 존재하고 있어 센서를 이용한 정점 관측이 용이하고 수 시간에서 수일 주기의 단기적이며 급격한 해황 변동이 발생하기 때문에 우선적으로 단기 변화 양상을 파악하기 쉽다(Lee et al. 2006).

해양환경공단(Korea Marine Environment Management Corporation, 이하 KOEM)의 해양수질자동측정망은 다수의 하구, 연안 해역에서 해양 환경인자(수온, 염분, 용존산소 등) 자료를 5분 또는 1시간 간격으로 측정·제공하고 있다. 해당 자료의 분석·활용 연구는 WQI (water quality index)산정, 전체 기간에 대한 통계정보 추정 등으로 제한되고(Kim et al. 2023; Jeon et al. 2020; Park and Kim 2021) 단기 변동 분석에 대한 연구는 매우 미흡한 실정이다.

용존산소(Dissolved Oxygen) 농도는 해양생태계에서 1차적으로 중요한 해양환경 인자로 해양 생물의 생존과 생태계 건강성 유지에 필수적인 역할을 한다. 용존산소 농도는 수온 변화에 따른 용해도의 영향을 직접적으로 받으며(Weiss, 1970), 수온은 계절적 변화 뿐만 아니라 일교차에 의해 단기간(1일 이내–수일)의 변동성을 나타낸다. 따라서, 일교차에 따른 수온 변동이 용존산소 농도 변화에 미치는 영향을 규명하고, 해당 변동 양상을 분석하는 것은 중요하다.

특히, 낙동강 하구 지역은 낙동강 수문 개방 이후 생태계 변화에 대한 연구가 집중되고 있는 지역이며(환경부 보도자료 2017; Son et al. 2021), 낙동강 하굿둑이 건설된 후에는 하굿둑 바로 아래 지역에서 물이 정체되어 용존산소 농도가 낮아졌다(Moon and Choi, 1991). 따라서 수문 개방으로 인한 환경적 변동성이 클 것으로 판단되므로 해양 환경 예측의 불확실성 또한 증가함을 시사한다.

Park and Kim (2021)은 낙동강 하구 정점을 대상으로 용존산소 농도 예측 연구를 수행하였으나, 단기 예측에서 예측시간(forecasting horizon)이 12시간인 경우보다 24시간인 경우에 더 높은 정확도를 보였다. 일반적으로 가까운 미래가 먼 미래보다 예측하기 용이하지만, 시계열 자료에서 자기상관이 강하게 나타나는 경우에는 예측 오차가 반드시 예측시간에 비례하여 증가하지 않을 수 있다(Box et al. 2015). 이를 해석하기 위해 불확실성을 해당 예측시간의 분산으로 정의하고 변동 특성에 대한 선행 연구가 필요하다.

이를 위해 시간차분 변수를 이용하고자 한다. 시간차분 변수는 일정 시간 동안의 용존산소 농도 변화율(Δc/Δ로 정의되기 때문에 주어진 시간간격에서의 평균 용존산소 농도 변화에 해당한다. 따라서 차분 변수의 통계적 특성 분석 정보는 용존산소 농도의 절대적인 수치 변화와는 달리 시간에 따른 농도변화 크기를 파악할 수 있는 장점이 있다. 또한 대표적인 시계열 자료 분석 정보에 해당하는 ACF (autocorrelation function, 이하 ACF)정보로도 변환이 가능하다는 장점이 존재한다. 이를 대표적인 분산 측도인 표준편차로 나타내고, 자료의 편향성을 고려할 때 사용할 수 있는 강건한 통계측도를 함께 제시하였다. 따라서 본 연구에서는 해양수질자동측정망 낙동 을숙, 명지 정점의 용존산소 농도 시간 차분(time-difference) 자료의 다양한 통계측도를 이용하여 기존 분석에서 미흡하다고 판단되는 일주일 이내의 단기 변동 특성 분석기법을 제안하고자 한다.

2. 자료 및 방법

연구자료

본 연구에서는 KOEM ‘해양수질자동측정망’에서 제공하는 낙동 을숙, 명지(이하 ES, MJ)의 용존산소 농도 자료를 사용하였다(Table 1). 상기 자료는 원본 자료와 확정 자료로 구분하여 제공되며, 최소한의 자료 품질관리(quality control)가 수행된 확정 자료를 이용하였다. 연구에서 사용한 자료의 기간은 2015년 1월 1일부터 2019년 12월 31일까지의 5분 간격 시계열 자료이다. 자료의 연간변화 양상은 시계열 도시(time-series plot, Fig. 1a)를 통하여 개략적으로 파악할 수 있지만 차분 변수로 파악한다면 용존산소 농도의 단위 시간 당 상대변화를 파악할 수 있다(Fig. 1b). Fig. 1a에서 볼 수 있듯이 용존산소 농도는 계절에 따라 겨울철에 높고 여름철에 낮아지는 경향을 볼 수 있지만 단기간 변동을 파악하기엔 어려움이 있다. Fig. 1b에서 1일 간격의 용존산소 농도의 변화가 MJ 정점에서 크게는 ±10 mg/L 까지 차이가 나는 것을 볼 수 있다. Fig. 2는 원 자료의 밀도 도시를 통해 자료의 왜도(skewness)를 나타내었다. 원 자료에서 2018년 9월부터 2019년 8월 기간에 산발적으로 발생하는 고정수치(zero-value)는 관측 오류로 판단하여 제거하였다. 또한 결측 구간을 효율적으로 파악하기 위하여 관측자료를 결측이 없는 전체 기간의 완전한(complete) 자료 시간 구간에 병합하였다. 불완전한 자료는 관측 시간정보가 빠지는 경우가 빈번하기 때문에, 시간 간격이 일정하지 않은 문제가 발생하여 효율적이고 체계적인 자료 처리를 방해하기 때문에 완전한 자료로 병합할 필요가 있다.

두 정점 모두 왜도가 양수이므로 정규분포에 비해 오른쪽으로 치우쳐진(Right skewed; positive skew) 분포형태를 보이고 있다. 전체 자료의 개수(nc)는 5분 간격의 5년 자료(2015–2019; 2016년 윤년)에 해당하는 525,888개로 다음과 같이 계산된다.

nc=(365*4+366)(days)*24(hoursday)*605(1hours)=525,888

Table 1.

Information of station

Station name Location Longitude Latitude
MJ 1-394 Myeongji-dong, Gangseo-gu, Busan, South Korea 128°55'56.7"E 35°06'24.3"N
ES 1150-15 Hadan-dong, Saha-gu, Busan, South Korea 128°56'54.4"E 35°06'09.3"N

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F1.jpg
Fig. 1.

Time-series plot of dissolved oxygen (DO) data sets from the KOEM monitoring sites

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F2.jpg
Fig. 2.

Density plot and skewness of time-series data for dissolved oxygen (DO)

시계열 자료 결측에 관한 분석은 결측 간격과 빈도를 이용하여 수행하였다. MJ 정점에서는 간헐적인 하나의 결측이 가장 많고 1시간 이상의 연속 결측도 존재한다. ES 정점에서도 비슷한 유형의 결측 양상을 보이고 있다(Fig. 3). 본 연구에서 결측 구간의 자료는 분석에 사용하지 않으므로 보충(missing imputation)은 생략하였다.

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F3.jpg
Fig. 3.

Missing time and gap size distribution plots of the time-series data (Left = MJ, right = ES, respectively)

본 연구에서 사용한 KOEM 확정자료에 대한 기본적인 요약 통계 정보 및 결측 비율을 정리하면 다음과 같다(Table 2.).

Table 2.

Basic statistical information and the missing ratio of the time-series data

Station no. of data, n
(sum of MGU)
mean
(mg/L)
SD
(mg/L)
min.
(mg/L)
Q1
(mg/L)
Q2
(mg/L)
Q3
(mg/L)
max.
(mg/L)
MR
(%)
MJ 525,888
(25,310)
7.62 2.55 0.49 5.73 7.37 9.24 22.14 4.81
ES 525,888
(46,806)
7.67 2.17 0.13 6.14 7.61 9.17 19.74 8.90

Ref. MGU = missing gap units, 1 gap (= 5 minutes = 1 unit), SD = standard deviation, Q2 = median, Q1, Q3 = the first and third quartiles, respectively; MR = missing ratio.

시계열 자료 단기변동 분석 방법

본 연구에서 사용한 용존산소 농도 자료 및 변수에 대한 정의는 다음과 같다.

Cti=Ci,i=1,2,nc

ti+1-ti=Δt

ti+τ=ti+τΔt

ΔCi(τ)=Ci+τ-Ci,i=1,2,,nc-τ

예를 들어, 한 시간 차분 자료의 경우 𝜏 = 12 이고, 차분변수는 다음과 같다.

ΔCi(12)=Ci+12-Ci,i=1,2,,nc-12

본 연구에서 제안하는 방법은 실질적으로 모든 시계열 자료에 적용 가능하다. 시계열 자료의 차분변수를 이용하여 단기 변동양상을 분석하는 방법으로 다양한 시간 간격의 상대 차분 변수(n-Time Difference Variables, TDV(n), ΔCi(τ))를 정의한다. 여기서 𝜏는 시계열 자료 분석에서 ACF의 독립(입력)변수인 시간지체(time-lag)에 해당되기도 한다. 상기 방법을 통해 연속적인 변동양상 분석 및 목표로 하는 시간 간격의 모든 자료 집단을 고려할 수 있다. 고려 가능한 시간 간격은 1 부터 nc-1이나, 본 연구에서는 단기 시간에 대한 변동양상 분석을 위해 시간간격은 7일(𝜏 = 2016)로 제한하였다.

자기상관함수와 통계측도

차분변수의 표준편차

본 연구에서는 분산측도 중 표준편차(Standard deviation)와 시계열 자료 분석의 기본 이론인 자기상관함수(ACF)를 연결하여 제시하였다. 시계열 자료 C(ti)는 대부분의 모수적(parametric) 분석 과정에서 정상성(stationarity)을 가정하여야 한다. 정상성이란 표본의 개수가 일부 변경되어도 시간에 따른 표본 평균과 분산이 거의 일정하게 유지되는 특성을 의미한다. 다만 이는 이상적인(ideal) 시계열 자료의 경우이고 해양 관측 자료 등 현장 자료는 정상성을 만족하는지에 대한 여부의 진단이 필요하다. 만약 비정상성(non-stationarity) 조건의 경우 및 시계열 자료의 시간 간격을 구분하는 경우는 그 간격에 따라 계산되는 모든 통계 측도에 대해 또 하나의 통계 변수로 간주 가능하다.

정상성을 만족하는 자료는 시간에 관계없이 ACF가 일정한 양상을 보이는 특징이 있다. ACF는 특정 시차(lag = 𝜏)에서의 자료 간 상관관계를 나타내며, 정상성을 만족하는 자료는 ACF가 시간(time)에 의존하지 않고 시차에 따라서만 변하게 된다. 이때 시계열 자료가 비정상성을 보일 경우, ACF 또한 시차 뿐만 아니라 시간에 따라서도 변동하게 되며, 이는 자료 분석에서 추가적인 조치가 필요함을 의미한다. ACF의 정의는 다음과 같다.

μc=ECi,C¯=1Nci

σc2=ECi-μ2,σ^c2=1N-1Ci-C¯2

여기서 𝜇는 모평균, C¯는 표본평균, σc2은 모분산, σ^c2은 표본분산을 의미하며 기호위에 ⌃(hat)은 표본에 대한 추정량을 의미한다. 그리고 자료가 정상성 가정을 만족하는 경우, 다음 조건을 만족한다.

μc=ECi=ECi+τ,C¯=1NCi

σc2=ECi-μ2=ECi+τ-μ2,σ^c2=1N-1Ci-C¯2

𝜏에 따른 자기공분산함수(auto-covariance function, 𝛾) 및 표본 자기공분산함수(γ^)는 다음과 같다.

γτ=covCi,Ci+τ=ECi-μCi+τ-μ=γ(τ)

γ^τ=1Nτ=1N-τCτ-C¯Ci+τ-C¯=γ^(τ),σ^c2=γ0^=γ^(0)

𝜏에 따른 자기상관함수(auto-correlation function, 𝜌) 및 표본 자기상관함수(ρ^)는 다음과 같다.

ρτ=ρ(τ)=E[(Ci-μ)(Ci+τ-μ)E[(Ci-μ)2]·[(Ci+τ-mu)2]=γτσc2·σc2=γτγ0,ρ^τ=ρ^(τ)=γ^τγ^0

이상의 기본적인 정의를 본 연구에서 사용한 차분 변수의 분산, 표준편차 추정 수식과 연결한다면 정상성 만족 조건에서 다음과 같은 관계가 성립된다.

V(τ)=1N-τi=1N-τCi+τ-Ci2=1N-τi=1N-τCi+τ-C¯-Ci-C¯2=1N-τi=1N-τCi+τ-C¯2+Ci-C¯2-2Ci+τ-C¯Ci-C¯~σc2^+σc2^-2γ^(τ)=2γ0^-γτ^=2(γ^(0)-γ^(τ))=S2(τ)

S(τ)=V(τ)=2γ^(0)-γ^(τ)γ0^γ^0=2(1-ρ^(τ))γ^(0)=2γ^(0)(1-ρ^(τ))

여기서 S(τ), V(τ)는 각각 차분변수 ΔCi(τ)의 분산 및 표준편차이다.

차분변수의 로버스트 분산측도

본 연구에서는 분산 측도로 표준편차 외에도 중앙값 절대 편차(Median Absolute Deviation, 이하 MAD)와 쌍별 차이 측도(Pairwise Difference measures, Sn, Qn)를 제시하였다. 특히 상기 언급된 분산 측도들은 통계적으로 강건한(Robust) 특성을 지니고 있어 이상치에 민감하지 않다는 점에서 유용하다. MAD는 다음과 같이 계산한다.

MAD=median(xi-x~)

MAD는 편차를 제곱하는 표준편차에 비해 이상치에 의한 영향이 적으며 특히, 편향된 자료의 경우 효과적인 분산 측도로 평가된다(Leys et al. 2013). 정규분포를 따르는 자료에서는 MAD를 표준편차에 대응하는 강건한 추정치로 변환할 수 있으며, 이때 변환식은 다음과 같다(Rousseeuw and Croux 1993; Mosteller and Tukey 1977; Sachs, 1984)

σR^1.4826MAD

본 연구에서는 표준편차와의 비교를 위해 위 변환식을 활용하여 조정된 MAD 값을 정의하고 사용하였다.

강건한 측도는 이상치가 없는 분포(e.g., 정규분포)에서는 통계적 효율성이 낮지만, 혼합분포나 꼬리가 두꺼운 분포(heavy tailed distribution)에서는 높은 효율성을 보인다. 여기서 효율성이란 모분산에 비해 표본분산이 얼마나 차이가 없는지를 의미하고 표본 집단의 가능한 최소 분산을 모분산으로 나눈 값으로 나타낸다(Everitt 2002). 따라서 이러한 상황에서는 표준편차와 같은 비 강건 추정량의 사용이 적절하지 않을 수 있다. MAD는 강건성을 제공하지만 두 가지 단점이 존재한다. 첫째, 정규분포에서 MAD의 효율성은 표본 표준편차의 약 37%에 불과하다. 둘째, MAD는 위치 추정치를 중심으로 대칭적인 통계량을 계산하므로 왜도에 대처하지 못한다. 이러한 한계를 극복하기 위해 Rousseeuw and Croux (1993)는 쌍별 차이 측도를 제안하였다.

쌍별 차이 측도(Sn, Qn)는 다음과 같이 정의된다.

Sn=1.1926(mediani(medianj|xi-xj|))

Qn=cn(Q1of|xi-xj|);i<j

여기서 cn은 표본에 따라 달라지는 상수지만 통상적으로 2.2219를 사용하며 Q1은 제1사분위수를 말한다. 이들은 위치 추정을 필요로 하지 않으며, 값들 간의 차이만을 기반으로 한다. 정규분포를 따르는 자료에서 쌍별 차이는 MAD 보다 높은 효율성을 보인다. Sn은 58%, Qn은 82%의 효율성을 나타낸다. 특히 정규분포로부터 추출된 표본의 경우 Sn은 소규모 표본에서도 모집단 표준편차에 대해 거의 편향되지 않은 추정치를 제공하며 대규모 표본에서는 Qn이 모집단 표준편차를 안정적으로 추정한다.

3. 결 과

시간 차분변수 밀도분포

먼저 시간 차분 자료가 아닌 전체 자료에 대한 분산측도 추정 결과를 나타내었다(Table 3). 본 연구에서 분산측도 계산은 R언어를 이용하였으며 표준편차와 MAD는 “stats” 패키지의 sd, mad 함수를 사용하였다. Sn, Qn은 “robustbase” 패키지의 Sn, Qn 함수를 이용하였다(R Core Team 2023). 시계열 용존산소 농도 자료의 시간 차분변수에 대한 각각의 통계측도 추정결과는 차분시간 차수(𝜏, difference time order, unit)인 𝜏 = 12•24•7 = 2,016 범위에서 제시하였다. 먼저 각각의 시간 간격에서 계산되는 다수의 시간 차분 변수는 통계적인 확률변수(variables)로 간주하고 차분 변수의 밀도분포를 제시하였다. 다음으로 ACF 이론에서 도출된 S(τ)와 표준편차를 비교제시 하고 추가적인 분산측도를 나타내었다.

Table 3.

Spreading parameter of non-difference data

Station SD MAD Sn Qn
MJ 2.55 2.58 2.55 2.51
ES 2.17 2.24 2.18 2.17

다음은 차분변수에 대한 밀도분포를 나타내었다(Fig. 4).

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F4.jpg
Fig. 4.

Density plot of time-difference variables

밀도 분포는 R 언어의 density() 함수를 이용하여 나타내었다(R Core Team 2023). 검정색부터 분홍색까지 1시간 간격 시간규모부터 7일 간격(𝜏 = 12~2,016) 시간규모까지 차분 변수의 분포이다. ES과 MJ정점 모두 값에서 차이는 보이지만 𝜏 = 12에서 0에 가까운 값이 밀집해 있고 𝜏가 커질수록 퍼짐 정도가 증가하는 양상을 나타내었다.

차분변수의 표준편차와 ACF 비교

ES, MJ 정점 모두 값에서는 차이를 보이지만 뚜렷한 일주기 변동양상은 매우 유사하게 나타났다. 시간 차분 변수의 표준편차를 이용한 단기변동(fluctuation) 크기를 보면 시간 간격에 따라 구분되는 양상을 보였다. 1시간 내 시간 간격에서 6–12시간 정도의 시간 규모에 해당하는 매우 짧은 시간범위에서 차분 변수 퍼짐 측도의 급격한 증가 양상이 드러나고 있다. 이후 12–24시간 시간 규모에서 다시 감소하는 양상을 보이고 있으며 이후 2–3일 규모부터 그 이상 단기 시간 규모에서는 완만한 경사(gradient)로 지속적인 증가 추세를 나타내고 있다. 따라서 두 정점 모두 1일 시간 규모(𝜏 = 288)내에서 가장 급격한 변동을 보였으며 이후 시간 규모에서는 점진적으로 완만한 경사를 나타내었다.

1일 시간간격 규모에서 일 주기변동(6시간, 12시간 주기를 포함하는 변동)이 가장 뚜렷하게 나타나고 있으며 2–3일 시간 규모를 기점으로 6시간, 12시간 주기의 변동성은 감소하는 모습을 나타냈다. 1일 규모의 단위 시간을 기준으로 보았을 때 1일 시간 간격에서는 일간 변동이 뚜렷하게 나타나고 있고 2–3일 보다는 2.5–3.5일 정도로 반일 간격이 추가되었을 때 더욱 큰 변동양상을 보이고 있다. 특히 두 정점 모두 ACF 이론으로 계산된 분산측도 S(τ)의 값과 표준편차가 큰 차이를 보이지 않았다. 다만 6–7일 정도에서 유의미한 차이가 발생하는 결과를 나타내었다.

다만 이 지점은 조석의 영향을 받으므로 유사한 시간규모의 조석주기에 의한 영향도 배제할 수 없다. 그러나 본 연구에서는 매우 정확하고, 명확하게 12, 24시간 간격으로 반복되는 양상을 보이기 때문에, 조석영향보다는 밤낮으로 반복되는 1일 또는 반일 주기에 의한 일교차의 영향을 우세하다고 판단하였다.

다음은 시간 차분 변수의 표준편차와 S(τ)를 비교하여 나타낸 결과이다(Fig. 5).

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F5.jpg
Fig. 5.

Plot of the relationship between the standard deviation (SD) and S(τ) calculated using a ACF theory (red dash line; 𝜏 = 288)

로버스트 분산측도

다음은 각 정점에서 표준편차 외 로버스트 분산측도를 나타내었다(Fig. 6). 두 정점 모두 로버스트 분산측도(MAD, Sn, Qn)는 표준편차와 비교했을 때 값에서 차이를 나타냈지만 각 측도의 값은 큰 차이를 나타내지 않았다. 또한 변동양상에서 모든 분산측도가 매우 유사한 양상을 보이며 강건함 등의 차이로 인해 분산 추정량은 달라지더라도 일주기 변동과 같은 단주기 성분은 측도에 따라 변화하지 않는 결과를 보여주었다.

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F6.jpg
Fig. 6.

Plot of a robust spreading parameter (red dash line; 𝜏 = 288)

4. 토 의

차분 변수의 정상성

단기 변동 분석에서는 정상성 조건을 만족한다고 판단되어 사실상 ACF만을 사용해도 충분하다고 볼 수 있으나 본 연구에서 제안하는 차분 변수 기반의 표준편차를 활용한 분석 결과, S(τ)와 차이는 매우 미미하며 이론적으로 유도된 결과와 일치함을 확인하였다. 또한 표준편차는 범용적이고 직관적인 특성을 가지므로 분석 결과의 이해와 해석이 용이하다는 장점이 있다.

정상성을 만족한다면 차이는 없어야 하지만 차분 시간 간격(𝜏)이 증가할수록 정상성 조건에서 벗어남에 따라 S(τ)와 차분 변수의 표준편차 간 차이가 발생할 수 있으며 이는 Fig. 7에 나타내었다. 따라서 차이가 유의미하게 크지 않아 단기 변동 분석(7일 이내)에서는 실질적으로 정상성이 분석 결과에 큰 영향을 미치지 않음을 확인하였다.

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F7.jpg
Fig. 7.

Plot of the difference between standard deviation (SD) and S(τ)

차분 변수의 정규성

본 연구에서는 ACF 이론과 더불어 자료의 정규성 가정에 대한 논의가 필요하다. 정규성은 많은 통계 분석에서 기본 전제 조건으로 요구되지만, 해양 관측 자료에서는 이를 만족하기 어려운 경우가 많다. Jeong et al. (2013) 는 한반도 연안 수온 자료에 대한 확률분포함수 추정을 통해 가우스 혼합형 분포가 적합하다는 결론을 내렸다. Cho et al. (2004)는 국내 연안 조위자료의 확률밀도함수에 대해 쌍봉형 정규분포 함수가 적합하다고 나타내었다. 이처럼 해양관측자료의 분석에서 정규성 만족은 매우 어렵고 적합한 확률밀도함수를 추정할 필요성이 있다. 국내 연안 표층 용존산소 농도 자료 또한 지역별 또는 해역별로 적합한 확률밀도함수를 추정하는 과정이 필수적이다. 이를 통해 정규성 가정을 만족할 수 있는 대체 분포를 식별할 수 있으며 이는 통계적 분석의 정확성과 신뢰성을 높이는 데 기여할 것이다.

만약 본 연구에서 사용한 시간 차분 변수가 정규성을 만족한다면 표준편차와 MAD의 차이는 0이어야 한다. 그러나 두 정점 모두 유의미한 차이를 나타내었고 MJ 정점의 경우 초반에 급진적인 증가를 나타내다 이후 주기성을 가진 채 완만하게 감소하는 형태를 나타내었다. ES 정점 또한 초반에는 MJ 정점과 유사한 양상을 보였지만 이후 완만하게 증가하는 형태를 나타내었다(Fig. 8). 𝜏가 2016일 때 표준편차와 MAD 간 차이는 각 정점에서 약 0.25, 0.35의 차이를 나타냈고, 차분 변수의 밀도와 정규분포의 차이를 보았을 때 왜도에서 차이는 미미했지만 첨도에서 큰 차이를 보였다(Fig. 9).

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F8.jpg
Fig. 8.

Plot of the difference between standard deviation (SD) and MAD

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F9.jpg
Fig. 9.

Density plot of time-difference value at 𝜏 = 2,016

또한 정규성을 만족하지 않을 때 MAD는 표준편차에 비해 분산을 과소 추정할 가능성이 크다. 이는 표준편차가 이상치에 민감한 반면, MAD는 이상치의 영향을 크게 받지 않기 때문이다. 본 연구에서 사용된 자료(e.g., ES 정점)에서 95% 분위수가 11.20, 최댓값이 19.74로 나타났으며, 이로 인해 표준편차는 높은 값의 영향을 받아 상대적으로 큰 값을 나타내고 MAD는 이상치의 영향을 배제하므로 표준편차에 비해 과소추정 되는 경향을 나타내었다.

정규성을 만족하는 경우, MAD의 조정된 값(Adjusted-MAD)은 표준편차의 대안으로 사용될 수 있다. 그러나 위에서 언급했듯이 해양 관측 자료에서 정규성을 만족하기란 쉽지 않다. 물론 Box-Cox 변환 등을 통해 자료를 정규성에 부합하도록 변환할 수 있으나, 본 연구의 목적은 추가적인 자료 변환 없이 분석이 가능한 방법론을 제안하는 데 있으므로 이러한 변환은 생략하였다.

따라서 자료에 편향(bias)이 존재하거나 이상치(outlier)가 포함된 경우, 표준편차 외에 강건한 분산 측도로 알려진 MAD, Sn, Qn​의 병행 사용을 권장한다. 이러한 강건한 측도는 자료의 이상치와 편향성에 의한 영향을 최소화하며 분석 결과의 신뢰성을 제고할 수 있다.

용존산소 농도 일주기 변동

본 연구의 연구 지역은 조석의 영향을 받는 해역이며, 3.2절에서 언급했듯이 용존산소 농도의 변동성에 조석 주기가 일정 부분 기여할 가능성을 배제할 수 없다. 이를 보다 명확히 평가하기 위해 동일한 자료에서 수온 변수(MJ 정점)를 대상으로 ACF를 분석한 결과를 Fig. 10에 제시하였다.

https://cdn.apub.kr/journalsite/sites/opr/2025-047-00/N00804704/images/opr_47_01_04_F10.jpg
Fig. 10.

ACF of water temperature in Nakdong Myungji station

Fig. 10에서 확인할 수 있듯이, 수온은 매우 정교한 일주기 변동 패턴을 보이며, 이는 용존산소 농도의 변동성과 유사한 주기성을 나타낸다. 낮 동안의 태양 복사열에 의한 표층 가열과 야간 냉각 과정의 패턴과 용존산소 농도의 일주기적 변동 패턴이 매우 유사함을 알 수 있다.

따라서, 용존산소 농도의 단기 변동을 평가할 때 조석에 의한 기여도를 고려하는 것뿐만 아니라, 수온 변동성이 용존산소 농도 변화에 미치는 영향을 정량적으로 평가하는 것이 필요하다.

기계학습 모델 예측 오차 평가 기준

기계학습 모델의 성능을 평가할 때, 단순한 예측 오차(RMSE, MAE 등)뿐만 아니라 예측시간(forecasting horizon)에 따른 불확실성을 고려하는 것이 필수적이다. 일반적으로 예측 오차는 예측 시점이 멀어질수록 증가하는 경향을 보이지만, 동일한 오차 값이라 하더라도 예측길이에 따라 상대적인 성능 해석이 달라질 수 있다. 특히 표준편차는 RMSE와 직관적으로 비교가 가능한 장점이 있다(Thomas 2012)

예를 들어, 현재 시점(10시)을 기준으로 1시간 뒤(11시) 용존산소 농도를 예측했을 때 오차가 3이고, 1시간 30분 뒤(11시 30분)를 예측했을 때도 동일한 오차(3)를 기록했다고 가정할 때, 각 예측시간에 대한 시간 차분 자료의 분산(예측 불확실성)이 각각 1.5와 2.0이라면, 불확실성이 더 큰 1시간 30분 예측이 상대적으로 더 신뢰할 수 있는 결과로 해석될 수 있다. 이는 단순히 절대적인 예측 오차만으로 모델의 성능을 평가하는 것이 충분하지 않으며, 예측 변동성까지 고려한 상대적 성능 평가가 필요함을 시사한다.

5. 결 론

본 연구에서는 시간 차분 변수를 활용하여 단기 변동 분석이 가능함을 보였으며, 이를 통해 ACF 이론과의 일관성을 확인하고 정상성과 정규성에 대한 정량적 판단이 가능함을 증명하였다. 또한, 시간 차분 변수의 분산 측도를 이용하여 기계 학습 모델의 예측 오차 평가 시 예측 시점(time horizon)에 따른 분산을 고려해야 함을 시사하였다.

첫째, 본 연구에서 제안한 차분 변수 기반의 표준편차 분석 결과, S(τ)와 차분 변수의 표준편차 간 차이는 미미하여 이론적으로 유도된 ACF 결과와 일치함을 확인하였다. 이는 단기 변동 분석(7일 이내)에서는 정상성이 큰 영향을 미치지 않음을 시사하며, 표준편차가 직관적이고 범용적인 특성을 갖추고 있어 분석 결과의 해석이 용이하다는 장점을 가진다.

둘째, 해양 관측 자료의 정규성 검토를 위해 차분 변수의 분포를 분석한 결과, 정규성을 만족하는 경우 표준편차와 MAD의 차이는 0이 되어야 하지만, 본 연구에서 사용한 자료에서는 유의미한 차이를 나타냈다. 이는 해양 관측 자료에서 정규성이 쉽게 충족되지 않으며, 적절한 확률 밀도 함수를 추정할 필요성이 있음을 의미한다. 또한, 이상치의 영향을 고려하여 표준편차 외에도 MAD, Sn, Qn과 같은 강건한 분산 측도를 병행 사용하는 것이 적절함을 제안하였다.

셋째, 용존산소 농도의 단기 변동성을 평가하는 과정에서 조석 주기의 영향을 배제할 수는 없으나 수온 변동성과의 관계 또한 중요한 요인으로 작용함을 확인하였다. 수온 변수의 ACF 분석 결과, 용존산소 농도와 같은 주기적 변동 패턴이 관찰되었으며, 이는 용존산소 농도의 변동성이 수온의 일교차로 인한 일주기 변동에도 많은 영향을 받음을 알 수 있기 때문에 단기 변동 양상 분석이 중요함을 의미한다.

넷째, 기계 학습 모델의 예측 오차 평가 시 단순한 RMSE나 MAE와 같은 지표만을 고려하는 것이 아니라, 예측 시점에 따른 불확실성(variance)을 함께 고려해야 함을 강조하였다. 동일한 오차 값을 가지더라도 예측 시점이 멀어질수록 불확실성이 증가할 수 있으며, 예측 오차의 해석에 있어 예측 시간(forecasting horizon)에 따른 분산의 변화를 반영하는 것이 보다 신뢰성 있는 평가로 이어질 수 있음을 논의하였다.

본 연구는 시간 차분 변수를 활용한 정량적 분석이 해양 관측 자료의 단기 변동성을 평가하는 데 유용한 도구가 될 수 있음을 보여주었다. 또한, 차분 변수 기반의 분산 측도를 활용하면 정상성과 정규성에 대한 정량적 검토 뿐만 아니라, 기계 학습 모델의 예측 성능 평가에서 시간에 따른 변동성을 고려할 수 있는 가능성을 제시하면서 향후 연구에서는 다양한 해역과 환경 조건에서 차분 변수를 적용하여 분석 방법론의 일반화를 검토하고, 예측 모델 평가에 있어 분산 측도의 실질적인 활용 방안을 보다 구체적으로 탐색하는 것이 필요하다고 판단된다.

Acknowledgements

이 연구는 이 논문은 2022년도 정부(해양수산부)의 재원으로 해양수산과학기술진흥원-해양유해물질오염원 추적기법개발 사업 지원을 받아 수행된 연구입니다(RS-2022-KS221655). 연구비 지원에 감사드립니다. 또한 해양수질자동측정망 자료를 제공해주신 해양환경공단에도 감사드립니다.

References

1

환경부 보도자료 (2017) 낙동강 하구 생태계 복원을 위한 첫 발을 내딛다. https://www.me.go.kr/home/web/board/read.do?menuId=10525&boardMasterId=1&boardCategoryId=39&boardId=826080 Accessed 05 Feb 2025

2

Box GEP, Jenkins GM, Reinsel GC, Ljung GM (2015). Time series analysis: forecasting and control (5th ed.). Wiley, New york, 720 p

3

Cho HY, Jeong ST, Oh YM (2004) Estimation of probability density function of tidal elevation data. J Korean Soc Coast Ocean Eng 16(3):152-161

4

Everitt BS (2002) The cambridge dictionary of statistics (2nd edition). Cambridge University Press, Cambridge, 420 p

5

Han MS, Park SE, Choi YJ, Kim YM, Hwang JD (2020) Prediction of dissolved oxygen in Jindong Bay using time series analysis. J Korea Soc Mar Environ Saf 26(4):382-391

10.7837/kosomes.2020.26.4.382
6

Jeon SB, Oh HY, Jeong MH (2020) Estimation of sea water quality level using machine learning. J Korean Assoc Spat Inf 28(4):145-152

10.7319/kogsis.2020.28.4.145
7

Jeong HR, Na GT, Kim GT, Lee SY, Kim ES, Noh JH, Park CH, Roh HS (2016) Characteristics of variation for water quality during 2010-2015 around Ulleungdo and Dokdo, Korea. In: 2016 Joint Conference Proceedings of the Korean Society of Ocean Science and Technology, Bexco, Busan, 19-20 May, pp 199-204

8

Jeong ST, Cho HY, Koh DW, Oh NS, Son KP (2013) Estimation of probability distribution functions for water temperature data in Korean coasts. J Korean Soc Coast Ocean Eng 25(1):11-19

10.9765/KSCOE.2013.25.1.11
9

Kim SB, Kim KT, Lee JS (2023) Real-time WQI prediction using AI-based models. J Korean Soc Mar Environ Energy 26(1):66-80

10.7846/JKOSMEE.2023.26.1.66
10

Kwon JN (2010) Characteristic of long term variation of the water quality at the waters of Goseng bay. J Korean Soc Mar Environ Eng 13(4):279-287

11

Kwon JN, Lee JH, Kim YS, Lim JH, Choi TJ, Yea MJ, Jeon JW, Kim SM (2014a) Long-term variations of water quality in Jinhae Bay. J Korean Soc Mar Environ Energy 17(4):324-332

10.7846/JKOSMEE.2014.17.4.324
12

Kwon JN, Lim JH, Shim JH, Lee JH, Choi TJ (2014b) The Long-term variations of water quality in Masan Bay, South Sea of Korea. J Korean Soc Mar Environ Energy 17(3):212-223

10.7846/JKOSMEE.2014.17.3.212
13

Kwon KY, Shim JH, Shim JM (2019) Temporal variations of sea water environment and nutrients in the East Coast of Korea in 2013-2017: Sokcho, Jukbyeon and Gampo Coastal Areas. J Korea Soc Mar Environ Saf 25(4):457-467

10.7837/kosomes.2019.25.4.457
14

Lee J, Cho GT, Gong YG, Han HK, Song HI, Seo YS, Lee YH, Hwang JD, Shim JM (2006) Seasonal environmental variation in Gangneung coastal area of East Sea. In: Proceedings of the Korean Society of Marine Environment and Safety Conference, Jeju National University, Jeju, 23-24 Nov, pp 234-240

15

Lee MO, Lee SH, Kim PJ, Kim BK (2018) Characteristics of water masses and its distributions in the southern coastal waters of Korea in summer. J Korean Soc Mar Environ Energy 21(2):76-96

10.7846/JKOSMEE.2018.21.2.76
16

Lee YW, Park MO, Kim SS (2016) Spatiotemporal variations of marine environmental characteristics in the middle east coast of Korea in 2013-2014. J Korean Soc Mar Environ Energy 19(4):274-285

10.7846/JKOSMEE.2016.19.4.274
17

Leys C, Ley C, Klein O, Bernard P, Licata L (2013) Detecting outliers: do not use standard deviation around the mean, use absolute deviation around the median. J Exp Soc Psychol 49(4):764-766

10.1016/j.jesp.2013.03.013
18

Moon CH, Choi HJ (1991) Studies on environmental characteristics and phytoplankton community in the Nakdong River estuary. J Oceanol Soc Korea 26(2):144-154

19

Mosteller F, Tukey JW (1977) Data analysis and regression: a second course in statistics. Addison-Wesley, Boston, 588 p

20

Oh YJ, Lee IC, Moon CY, Kong HH (2007) The annual variations of Oxygen Deficeint Water Mass (ODW) in Jinhae Bay of Southern Coast. In: Proceedings of the Korean Society of Marine Environment and Safety Conference, Korea Coast Guard, Incheon, 1-2 Nov, pp 234-240

21

Park MO, Kim SS, Kim SG, Kwon JN, Lee SM, Lee YW (2012) Factors controlling temporal-spatial variations of marine environment in the Seomjin River estuary through 25-hour continuous monitoring. J Korean Soc Mar Environ Energy 15(4):314-322

10.7846/JKOSMEE.2012.15.4.314
22

Park SS, Kim BK, Kim KH (2022) Prediction in dissolved oxygen concentration and occurrence of hypoxia water mass in Jinhae Bay based on machine learning model. J Korean Soc Coast Ocean Eng 34(3):47-57

10.9765/KSCOE.2022.34.3.47
23

Park SS, Kim KH (2021) Prediction of DO concentration in Nakdong River estuary through case study based on long short term memory model. J Korean Soc Coast Ocean Eng 33(6):238-245

10.9765/KSCOE.2021.33.6.238
24

Park SY, Choi OI, Kwon JN, Jeon KA, Jo YJ, Kim HC, Kim PJ, Park JS (2009b) Long-term variation and characteristics of water quality in the Gunsan coastal areas of Yellow Sea, Korea. J Korea Soc Mar Environ Saf 15(4): 279-313

25

Park SY, Hur S, Yoo J, Hwang WG, Park JS, Lee SM, Kim CM (2013) Temporal and spatial variations of water quality in the Cheonsu Bay of Yellow Sea, Korea. J Korea Soc Mar Environ Saf 19(5):439-458

10.7837/kosomes.2013.19.5.439
26

Park SY, Kim HC, Kim PJ, Park KS, Ko JY, Jeon SB, Lee SM, Park JS (2009a) Long-term variation and characteristics of water quality in the Garolim coastal areas of Yellow Sea, Korea. J Korea Soc Mar Environ Saf 15(4): 315-328

27

Park SY, Kim SS, Kim PJ, Cho ES, Kim BM, Jeon SB, Jang SJ (2011) Long-term variation and characteristics of water quality in the Yeoja Bay of South Sea, Korea. J Korea Soc Mar Environ Saf 17(3):203-218

10.7837/kosomes.2011.17.3.203
28

Park SY, Kim SS, Kim PJ, Cho ES, Kim SY, Choi YS, Kim BM, Kim DU (2010) Long-term variation and characteristics of water quality in the Mokpo coastal areas of Yellow Sea, Korea. J Korea Soc Mar Environ Saf 16(4): 321-327

29

R Core Team (2023) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna

30

Rousseeuw PJ, Croux C (1993) Alternatives to the median absolute deviation. J Am Stat Assoc 88(424):1273-1283

10.1080/01621459.1993.10476408
31

Sachs L (1984) Applied statistics: a handbook of techniques. Springer-Verlag, New York, 253 p

10.1007/978-1-4612-5246-7
32

Son BY, Im TH, Yang SK (2021) Steps toward integrated water management in the Nakdong River estuary. Water Future 54(9):18-28

33

Thomas M, (2012) Root mean square error compared to, and contrasted with, standard deviation. Surv Land Inf Sci 72(3):107-108

34

Weiss RF (1970) The solubility of nitrogen, oxygen, and argon in water and seawater. Deep Sea Res Oceanogr Abstr 17(4):721-735

10.1016/0011-7471(70)90037-9
35

Won JH, Lee YW (2015) Spatiotemporal variations of marine environmental parameters in the South-western region of the East Sea. J Korean Soc Oceanogr 20(1):16-28

10.7850/jkso.2015.20.1.16
36

Yang JY, Cho SH, Lee JS, Han CH, Hur S (2021) Time- series analysis of seawater temperature in the Garolim Bay, the west coast of Korea. J Environ Sci Int 30(7):585-595

10.5322/JESI.2021.30.7.585
37

Yoon YY, Jung SJ, Yoon SC (2007) Characteristics and long term variation trend of water mass in the coastal part of East Sea, Korea. J Korean Soc Mar Environ Eng 10(1):59-65

국문 참고자료의 영문표기 English translation / Romanization of references originally written in Korean

1

Ministry of Environment Press Release (2017) Taking the First Step Toward Ecosystem Restoration of the Nakdong River Estuary. https://www.me.go.kr/home/web/board/read.do?menuId=10525&boardMasterId=1&boardCategoryId=39&boardId=826080 Accessed 05 Feb 2025

페이지 상단으로 이동하기