이 연구에서는 구미시의 경제활동인구 및 취업자 수 예측을 위해 시계열 모델과 LLM을 활용한 두 가지 접근법을 비교했다. 데이터는 경제활동인구, 경제활동참가율, 취업자 수, 고용률 등 총 12개 변수로 구성된 142개 지역의 반기별 데이터를 기반으로 하며, 시계열 모델은 슬라이딩 윈도우 방식으로 데이터를 학습했다. 시계열 모델은 여성 경제활동의 불규칙성을 반영한 변수와 남성/여성 데이터를 모두 사용해 예측 정확도를 높였고, LLM은 산업 특성 및 정책 요인 등을 고려해 예측을 시도했다. 연구는 모델 성능 향상을 위해 도메인 지식과 feature engineering을 활용한 성능 개선을 제시하며, 하이브리드 모델 접근을 통해 예측 정확도 향상이 가능하다고 결론지었다.

1. 개발 목표

지표
그림1 - 취업자 수와 경제활동 인구 수 추이
  • 미래의 1개 시점을 예측하는 단기 예측 모델 학습
  • 위의 표를 구성하는 항목들을 예측하며, 예측 대상 변수들은 다음과 같음
    • 취업자(남성/여성/전체), 전체 고용률, 경제활동인구, 경제활동참가율
  • 본문에서는 취업자 수(남자/여자/전체)와 경제활동인구(남자/여자/전체) 예측 모델에 대한 내용을 중점적으로 작성

2. 활용 데이터

  • 경제활동인구, 경제활동참가율, 취업자수, 고용률에 대해 전체/남성/여성으로 구분된 총 12개 항목의 데이터를 학습에 활용
    (* 데이터 출처: KOSIS(「지역별고용조사」, 통계청))
  • 각 항목들은 2013년 상반기부터 2024년 상반기까지 수집된 23개(시점)의 반기별 데이터
  • 전체 230개 지역(시/군/구) 중 데이터 수집 기간이 일치하지 않는 지역들을 제외하고 최종적으로 142개 지역의 데이터를 학습에 사용

3. 변수 선정

  • 예측 대상 변수들의 계산식은 표1과 같음
변수 수식
경제활동인구(명) 취업자+실업자
경제활동참가율(%) (경제활동인구/만 15세 이상 인구)*100
취업자수(명) 남성취업자+여성취업자
고용률(%) (취업자수/만 15세 이상 인구)*100
표1 - 경제지표 산출 수식
  • 경제활동인구를 계산할 때는 취업자 수와 실업자 수를 합산하며, 경제활동참가율은 이 경제활동인구를 만 15세 이상 전체 인구로 나누어 산출한다는 점을 파악
  • 실업자 수와 실업률, 만 15세 이상 인구 수를 추가하여 테스트한 결과 실업자 수와 실업률은 주요 변수로 추가하고 만 15세 이상 인구는 모델 성능을 저하시켜 제외
  • 데이터 수가 적고 반기 데이터임을 고려해 날짜 관련 변수는 추가하지 않고 총 14개의 변수의 순차적 패턴만을 학습하도록 함
  • 여성의 경제활동 참여는 출산과 육아 등 생애주기적 요인으로 인해 불규칙한 패턴을 보이므로 예측의 정확도를 높이기 위해 비경제활동 관련 변수를 분석에 포함
  • 따라서 예측에 활용한 최종 변수는 다음과 같음
모델 변수명 개수
남성 경제활동 예측 모델 경제활동인구(계, 남자, 여자)
경제활동참가율(계, 남자, 여자)
고용률(계, 남자, 여자)
취업자(계, 남자, 여자)
실업자(계)
실업률(계)
14
여성 경제활동 예측 모델 경제활동참가율(여자)
비경제활동(여자, 15~29세, 30-49세, 육아)
경제활동인구(여자)
취업자(여자)
고용률(여자)
8
표2 - 활용 변수

4. 데이터셋 구성 방안

  • 슬라이딩 윈도우 방식으로 10개의 연속된 시점을 입력값(Input)으로 사용하고, 그 다음 시점의 값을 출력값(Output)으로 하여 데이터셋을 구성

데이터셋구성

그림2 - 데이터셋 구성 방안

5. 모델 구축 결과

5.1 남성 경제활동 예측 모델

  • 남성 데이터셋의 shape은 다음과 같음 (데이터 수, 시퀀스 수, 특성 수)
구분 내용 shape
학습용 데이터 구미시를 제외한 142개 지역 X:(1846, 10, 14)
y:(1846,1,14)
테스트 데이터 구미시 데이터 X:(13,10,14)
y:(13,1,14)
표3 - 남성 데이터셋

남성 경제활동 모델 결과

그림3 - 남성 경제활동 모델 결과
  • 남성 경제활동 예측 모델 구축 시, 여성 관련 변수들을 함께 활용했을 때 예측 성능이 향상되어 분석에 포함

5.2 여성 경제활동 예측 모델

  • 여성 데이터셋의 shape은 다음과 같음 (데이터 수, 시퀀스 수, 특성 수)
구분 내용 shape
학습용 데이터 구미시를 제외한 142개 지역 X:(2414, 6, 8)
y:(2414, 1, 8)
테스트 데이터 구미시 데이터 X:(17, 6, 8)
y:(17, 1, 8)
표4 - 여성 데이터셋

여성 경제활동 모델 결과

그림4 - 여성 경제활동 모델 결과
  • 여성 경제활동 예측 모델의 경우, 각 변수들의 높은 변동성으로 인해 긴 시퀀스 사용 시 예측 정확도가 저하되는 현상이 관찰됨. 따라서 시퀀스를 6으로 설정하여 과거 데이터로 인한 노이즈를 최소화하고자 함

5.3 최종 모델

최종예측결과

그림5 - 최종 예측 결과
  • 남성과 여성에 대한 각각의 경제활동 모델 결과를 결합하여 전체 취업자/인구에 대한 예측값을 산출함

6. LLM 활용 예측

  • Claude 3.5 Sonnet을 활용하여 구미시 경제활동인구에 대한 독립적인 예측을 시도
  • LLM은 지역 특성, 산업 동향, 정책적 요인 등을 종합적으로 고려 가능
  • 다음 프롬프트를 활용하여 시계열 모델과 동일하게 1시점 예측을 수행
맥락:
대한민국 경상북도 구미시의 경제활동 데이터를 바탕으로 다음 시점의 주요 경제지표를 예측해야 합니다.

예측 필요 항목 (단위: 만명):
1. 경제활동인구_남자
2. 경제활동인구_여자
3. 취업자_남자
4. 취업자_여자

예측 시 준수사항:
1. 코드 작성이나 특정 알고리즘을 사용하지 말 것 - 논리적 추론을 통해 예측할 것
2. 제시된 시점까지의 데이터만 활용할 것 - 이후 시점의 정보는 배제할 것
3. 데이터셋 내 모든 변수 간의 상관관계를 고려할 것
4. 다음 요소들을 고려할 것:
   - 구미시의 산업도시로서의 특성
   - 경제적 요인들
   - 정책적 요인들

고려해야 할 주요 사항:
- 구미는 전자/IT 제조업이 발달한 주요 산업도시임
- 지역 경제 정책과 산업 동향을 고려해야 함
- 계절적 패턴과 인구통계학적 추세를 반영해야 함

출력 형식:
예측값을 다음과 같은 파이썬 리스트 형식으로 제시할 것:
경제활동인구_남자 = [예측값]
경제활동인구_여자 = [예측값]
취업자_남자 = [예측값]
취업자_여자 = [예측값]
  • 각 예측 결과는 다음과 같음

llm남자

그림6 - LLM 남자 변수 예측 결과

llm여자

그림7 - LLM 여자 변수 예측 결과
  • 시계열 예측 모델과 마찬가지로 LLM을 활용한 예측 결과에서도 여성 관련 변수들의 정확도가 낮게 나타남

7. 예측 결과 비교

  • 앞서 학습한 시계열 모델과 LLM의 예측값을 비교한 결과는 다음과 같음
활용 모델 예측 변수 MAPE
시계열 남성 취업자 수 1.01%
여성 취업자 수 2.53%
남성 경제활동인구 수 1.14%
여성 경제활동인구 수 2.72%
LLM 남성 취업자 수 1.90%
여성 취업자 수 2.77%
남성 경제활동인구 수 1.46%
여성 경제활동인구 수 3.00%
표5 - MAPE 비교
  • 모든 변수에 대해 시계열 모델이 LLM 대비 더 낮은 MAPE를 보임
  • 이는 LLM이 다양한 정성적 요인들을 포괄적으로 분석할 수 있지만 정확한 수치 예측 능력은 시계열 모델에 비해 상대적으로 제한되어 있기 때문으로 예상됨

8. 결론 및 제언

  • 모델을 만들기 위해서는 각 변수들에 대한 도메인 지식이 필요
  • 부족한 학습데이터 수로 인해 모델의 일반화 능력에 대한 불확실성 존재
  • 추가적인 feature engineering을 통해 예측 모델의 성능을 올릴 수 있을 것으로 기대
  • 프롬프트 엔지니어링을 통해 LLM의 예측 성능 향상 기대
  • 시계열 모델과 LLM의 상호보완적 특성을 활용한 하이브리드 접근법을 통해 예측 정확도 개선 가능