데이터 사이언스 기초

파이썬 기초 프로젝트 리뷰

skbaek1223 2024. 11. 9. 15:21

11.4~11.8 한주 동안 진행했던 데이터 기반 부동산 추천 프로젝트에 대한 간단한 회고를 남겨보려고 합니다.
 
저희 조(11조)는 2024 서울시 부동산 실거래가 정보를 바탕으로 부동산 매물을 추천해주는 프로젝트를 진행했습니다.
 

1. 데이터 전처리

 

 

 
우선은 데이터에서 컬럼 별로 결측치에 해당하는 부분을 삭제하거나 대체하는 작업을 진행했습니다.
 

 
 

다음으로는 부동산 가격에 대해서 박스플롯을 그려보고, 3분위수+1.5*IQR 초과에 해당하는 부분을 이상치로 제거했습니다.
 

2. 부동산 매물 추천

 
저희 조에서는 만화 짱구에 나오는 짱구 가족, 오수, 짱구 할아버지를 고객으로 선정하여 프로파일링을 해봤습니다.

 

 

부동산 추천에 있어서는 부동산 도메인의 지식이 중요하다고 생각하여, 우선적으로는 부동산 사이트 및 관련 기사들을 최대한 많이 참조하였습니다. 조사 결과를 바탕으로, 고객들의 최우선 관심사에 해당하는 학군, 교통, 병원이 잘 조성되어 있는 구-동 들을 먼저 추려냈습니다.
 
그 다음에 적정 주거 면적, 전시시설, 도서관, 마트에 해당하는 자료를 기존 자료에 추가하고 후순위 관심사에 해당하는 조건들을 적용하여 데이터를 추출한 후, 치안과 가격 변동 정보까지 참조하여 추천 매물을 선정하였습니다.

 
 

고객별 후보 지역

 
 

1번 짱구 가족

 

후보 매물

 

매물 가격 변동/ 치안 정보

 
 

짱구 가족을 위해서는 왕자 상가 와 대광 그린을 추천 매물로 선정했습니다.
 
왕자 상가 아파트는 주변에 학원, 명문고가 많고, 주변에 쇼핑 시설도 많아서 편리하고, 대광그린은 가격변동 위험이 적고, 치안이 좋고, 교통과 쇼핑 시설이 잘 되어 있습니다.

 

2번 오수

 

후보 매물

 
 

매물 가격 변동/ 서울역, 용산역 개발계획

 
 

오수를 위해서는 더플래티넘서울역과 트윈시티남산을 추천 매물로 선정했습니다.
 
더플래티넘서울역은 주상복합이면서 편의시설의 접근이 용이하고, 서울역, 용산역의 역세권이 복합개발 예정이라 호재인 상태이면서 가격 변동의 위험도 적었습니다. 트윈시티남산은 서울역과 지하통로로 연결되어 있으면서 거래량이 많아서 추천했습니다.

 
 

3번 짱구 할아버지

 

 

 
짱구 할아버지의 경우 장원 빌라트를 추천 매물로 선정했습니다. 성모 병원이 가장 가깝고, 주민센터, 공원과 산책로가 가까우면서 근처에 마트, 백화점 등의 쇼핑 시설이 있어서 추천했습니다.
 

● 피드백

 

현직자 분께 피드백을 받았을 때, 부동산 도메인 정보를 활용한 점에 대해서는 현직에서도 그와 비슷한 과정을 거치기 때문에 좋았다는 평가를 받았고, 결측치, 이상치 처리를 할 때 구체적으로 정확하게 했던 점, 프로파일 설정으로 공감대를 형성한 점에서도 좋은 평가를 받았습니다. 다만, 시각화에서의 라벨링이나 색의 강조, 추천 과정에서 박스 플롯이나 다른 자료를 활용한 보충 설명이 없어서 아쉽다는 평가를 받았습니다.
 

● 소감

 

그 동안 3주간 함께 했던 조원분들께서 다들 열심히 참여해 주셔서 정말 너무 감사했습니다.
 
기존에는 분석을 할 때 데이터나 수학에 기반해서 추천하는 것만 생각을 하고 있었는데, 도메인 정보를 열심히 찾아주신 조원 분들 덕분에 부동산 도메인 정보에 기반한 심도 있는 추천 프로젝트를 해볼 수 있었던 것 같습니다. 또한, 짱구 가족으로 프로파일링 하는 아이디어 내주신 것도 정말 감사했습니다.
 

● 알게 된 점, 보완할 점

 
특정 도메인에 대한 분석을 진행할 때, 도메인과 관련된 정보를 최대한 많이 찾아보고 습득하여 데이터 분석에 녹여내는 것이 도움이 많이 된다는 점, 발표를 할 때는 역시 공감대를 형성하는 것이 중요하다는 점에 대해 생각해 보게 된 것 같습니다.
 
시각화나 데이터 기반 사고나 분석에 대해서 좀 더 체계적이지 못했던 점은 아쉬웠지만 앞으로 더 열심히 공부해서 보완해야 할 부분인 것 같습니다.

'데이터 사이언스 기초' 카테고리의 다른 글

t 검정 with 파이썬  (0) 2024.11.15
웹 스크래핑의 기본  (0) 2024.11.13
Leet-Code pandas 버전 리뷰  (1) 2024.11.08
SQL Window Function  (0) 2024.11.04
시계열 분석  (0) 2024.11.02