(데이터 사이언스) 데이터 전처리(1) - 개요

쉬운 목차

왜 데이터 전처리인가?

실제 데이터베이스에서 데이터 추출 정확한 데이터 없음머신 러닝이나 딥 러닝은 데이터가 양호해야 작동한다는 것을 알게 될 것입니다. 데이터가 좋지 않으면 최신 SOTA나 최고급 모델도 소용이 없다. (GIGO, 쓰레기 투입, 쓰레기 배출)

'추천 관련글,

확실하지 않은 경우 Kaggle 또는 Dacon에 게시된 데이터를 다운로드하여 검토하십시오. 기본 타이타닉 데이터에서 현재 Age와 Cabin은 빈 데이터가 많습니다.

대회에 업로드된 데이터가 고도로 정제된 데이터라도 제공된 데이터를 그대로 사용하는 것은 불가능합니다.

여전히 확실하지 않은 경우 GPS를 사용하여 방향을 찾는 경험을 고려하십시오. 내 위치는 항상 옳았습니까? 별로.

인적 오류 또는 컴퓨터 오류가 있을 수 있습니다.

데이터 품질만 있으면 됩니다!

데이터 품질 측정

정확도: 데이터 값이 정확합니까?
- 인간 또는 컴퓨터 오류로 인한 부정확한 데이터 저장
- 사용자가 잘못 입력하여(예: 생일은 1월 1일, 알라바마에 거주) 시스템의 초기 값이 저장되어 있는 경우 이를 난독화된 누락 데이터라고 합니다.
- 버퍼 오버플로로 인한 데이터 전송 오류 또는 기술적 한계로 인한 동기화 오류
완전성: 데이터가 완전합니까?
- 누락된 값에는 몇 가지 이유가 있을 수 있습니다. (장비 고장으로 인해 기록되지 않음)
일관성: 데이터가 여러 속성에서 일관성이 있습니까?
- 상충되는 데이터가 있을 수 있습니다. (생일이 2010년 3월 7일이고 현재 만 40세인 경우)
- 데이터 기록 또는 변경 사항이 있을 수 있습니다. (과거에는 1, 2, 3점으로 저장되었으나 지금은 A, B, C로 저장됩니다.)
적시성: 데이터가 적시에(신속하게) 업데이트됩니까?
신뢰성: 데이터를 신뢰할 수 있음(최근에 오류를 수정했지만 과거에 이미 기록된 데이터는 아님)
해석 가능성: 데이터가 이해하기 쉬운가?

1. 데이터 정리

2. 데이터 통합

3. 데이터 축소

4. 데이터 변환

각 단계에 대해 자세히 설명하고 게시하겠습니다.