데이터 준비

data_collection/ 은 원천 데이터를 정리하고, 학습 가능한 형태로 만드는 파이프라인을 담당합니다.

담당 역할

원천 소스 정리
상세 페이지 sanitize
학습용 컬럼 선택과 정리
category / size score 계산용 참조 테이블 준비
최종 training-ready CSV 생성

왜 별도 영역으로 두는가

중고차 데이터는 그대로 모델에 넣기 어렵습니다.
브랜드 표기, 모델명, 세부 트림, 체급, 색상, 주행거리 같은 정보가 일관되지 않기 때문입니다.

따라서 이 영역은 단순 수집이 아니라,
모델이 학습 가능한 형태로 문제를 다시 정의하는 층에 가깝습니다.

결과적으로 만들어지는 것

이 파이프라인의 결과는 대략 두 갈래로 이어집니다.

모델 학습용 CSV
백엔드 전처리에서 재사용할 reference 데이터

즉 데이터 준비 단계는 연구 워크스페이스와 백엔드 둘 다에 영향을 줍니다.

어디를 더 보면 되는가

코호트/원천 수집 README: data_collection/raw/models_cohort/README.md
문제 배경: justification.md