엑셀을 ChatGPT의 도움을 받아 작업 시간을 획기적으로 줄이고 전문가처럼 작업할 수 있습니다. 엑셀 프롬프트 7가지중 2 번째, 데이터 전처리에 관한 내용입니다. 형식없이 뒤죽박죽인 데이터를 일관성 있게 정리하는 작업이 데이터 전처리 입니다.
데이터 분석의 80%는 전처리에 사용된다는 말이 있을 정도로, 지저분한 데이터를 정리하는 과정은 가장 시간 소모적인 작업이에요. 하지만 ChatGPT의 도움을 받아 효율적으로 데이터를 정리하는 방법을 알아보세요. 체계적인 접근법과 효율적인 엑셀 함수를 활용하면 데이터 전처리 시간을 획기적으로 줄일 수 있어요!
🧹 2. 데이터 전처리 프롬프트 - 지저분한 데이터도 깔끔하게 정리하기
프롬프트 템플릿 :
"[특정 문제] 같은 이슈가 있는 지저분한 데이터셋을 정리하는 단계별 과정 알려줘. 쓸만한 엑셀 함수랑 단축키도 같이 알려줘."
사용 예시 1: 중복 데이터와 불필요한 공백 처리
프롬프트:
"고객 이름이 중복되고, 날짜 형식이 섞여 있으며, 불필요한 공백이 많은 지저분한 데이터셋을 정리하는 단계별 과정 알려줘. 쓸만한 엑셀 함수랑 단축키도 같이 알려줘."
단계별 전처리 과정:
데이터 개요 파악하기
1> 데이터 범위 확인:
a. 현재 셀에서 데이터 영역의 마지막 열로 이동 : Ctrl + 오른쪽 화살표
b. 연속된 데이터 선택: 첫 번째 데이터 셀 선택 후 Ctrl + Shift + 아래 화살표
, Ctrl + Shift + 오른쪽 화살표
c. 현재 셀에서 데이터 영역의 마지막 행으로 이동 : Ctrl + 아래 화살표
2> 전체 행/열 개수 확인:
a. 선택된 데이터 범위를 확인하거나, 상태 표시줄에서 개수를 확인합니다.
중복 제거하기
1> 데이터 전체 선택 후 Alt > A > M
단축키로 중복 제거 대화상자 열기
2> 중복 기준 열 선택: 중복을 판단할 기준이 되는 열을 체크합니다. (예: 고객ID, 고객명)
- 주의: 예시 데이터에서 고객 ID가 같은 김철수님의 구매 기록이 다르므로, 고객ID만 선택하면 중복으로 처리되어 한 개의 기록만 남게 됩니다. 만약 동일 고객의 모든 구매 기록을 유지하고 싶다면 중복 제거 기준을 신중하게 결정해야 합니다.
- 예시 데이터 처리: 고객ID와 구매일자를 함께 선택해야 각 구매 건을 고유하게 인식하여 모든 데이터를 유지할 수 있습니다.
3> 확인: 중복된 행이 제거됩니다.
a. UNIQUE
함수 사용: =UNIQUE(A2:D100)
함수를 사용하여 고유한 행만 추출할 수도 있습니다. (Excel 365 이상)
불필요한 공백 제거
1> TRIM
함수 사용 (앞뒤 공백 제거):
- 빈 셀에
=TRIM(B2)
를 입력하고 실행합니다. (B열이 고객명 열이라고 가정) - 해당 셀의 오른쪽 아래 모서리(채우기핸들)를 잡고 아래로 드래그하여 나머지 셀에도 함수를 복사 적용합니다.
- 결과를 복사하여 원래 고객명 위치에 값으로 붙여넣기 합니다. (선택 후
Ctrl + C
, 원본 범위 선택 후Ctrl + Alt + V > V
: 선택하여 붙여넣기)
2> 찾기 및 바꾸기 (중간 공백 포함 여러 공백 제거):
- 데이터 범위를 선택합니다.
- 단축키:
Ctrl + H
(찾기 및 바꾸기 대화상자 열기) - 찾을 내용: 스페이스바를 여러 번 눌러 공백을 두 칸 이상 입력합니다.
- 바꿀 내용: 스페이스바를 한 번만 눌러 공백 한 칸을 입력합니다.
- 모두 바꾸기를 클릭합니다. 이 과정을 공백이 더 이상 바뀌지 않을 때까지 반복해야 여러 개의 연속된 공백을 처리할 수 있습니다.
데이터 유효성 검사
- 빈 열에 다음 함수들을 사용하여 데이터 타입을 확인합니다.
=ISTEXT(A2)
(A2 셀이 텍스트인지 확인)=ISNUMBER(D2)
(D2 셀이 숫자인지 확인 - 금액 열)=ISDATE(C2)
(C2 셀이 날짜 형식인지 확인)
- 조건부 서식 활용:
- 데이터 범위를 선택합니다.
- 단축키:
Ctrl + Shift + L
(필터 적용/해제) - 각 열의 필터를 사용하여 이상값을 확인합니다. 예를 들어, 날짜 열에서 예상 범위를 벗어나는 날짜를 찾거나, 금액 열에서 비정상적으로 크거나 작은 값을 찾을 수 있습니다.
- 조건부 서식의 셀 강조 규칙을 사용하여 특정 조건에 맞는 이상값을 시각적으로 강조할 수도 있습니다.
던져준 프롬프트에 대한 CHATGPT의 전처리 과정 답변이에요. 오류도 있을 수 있지만 필요할 때마다 AI 를 활용하면 상황에 맞는 빠른 처리가 가능하겠지요. 아, 잊지마세요. 데이터 전처리 과정보다는 엑셀도 AI 에게 원하는 결과를 얻을 수 있다는 것을...
전처리가 생각보다 내용이 빡빡하네요. 이 게시물은 ''사용예제1' 에서 끝냅니다. 다음편에 계속될 겁니다.
이전 엑셀과 ChatGPT 수식 프롬프트 : https://secstart.tistory.com/1097
작성자: 마늘빵