DATA1 Python

본 토픽은 현재 준비중입니다. 공동공부에 참여하시면 완성 되었을 때 알려드립니다.

프로젝트 계획

프로젝트 자원분배

큰 프로젝트에서는 인원이랑 자원을 잘 분배해야 합니다. 시간도 사람도 돈도 한정되어 있으니까요.

하지만 저희는 1인 프로젝트이기 때문에 크게 신경 쓸 게 없습니다. 스마트폰이랑 컴퓨터, 전기세만 있다면 비용은 0원에 수렴합니다.

문제는 시간인데요. 예를 들어 운동 같은 경우에는 매일 운동할 시간을 내야 하고요. 무엇보다 피로한데도 운동을 할 여력이 있는지가 문제입니다. 데이터를 분석하는데 할애할 시간도 필요합니다. 중대한 문제지만 NCS에는 없는지라... 별도로 다루거나 알아서 잘 해결하시리라 믿고 넘어가겠습니다.

프로젝트 WBS수립

처음 보는 용어가 나왔습니다. WBS (Work Breakdown Structure)는 업무를 쪼개놓은 계획표입니다. 대표적인 하향식 업무 계획방식인데요. 하향식은 먼저 큰 틀을 짜놓고 하나하나 쪼개서 세부적인 계획을 하나하나 세우는 방식입니다. 원래 프로그램 개발에서 사용하던 양식인데, 데이터 분석으로 넘어온 겁니다.

사실 복잡하기만 하지 결국 계획표라 생각합니다. NCS에서도 자세히 설명하지 않고요. 그래도 궁금하시면 다음 링크를 참조해보시기 바랍니다.

데이터 프로젝트는 크게 4단계로 이뤄집니다.

데이터 분석 과제 정의 -> 데이터 준비 탐색 -> 데이터 분석 모델링 및 검증단계 -> 산출물 및 기타

이걸 NCS에 맞게, 저희가 하는 순서대로 용어만 바꾸면 이렇게 됩니다.

데이터 분석 기획 -> 분석용데이터 구축->탐색적 데이터 분석, 통계기반 데이터 분석 -> 데이터 시각화

세부적인 할 일은 NCS를 따라가기 때문에 정해져 있습니다. 당장 왼쪽에 있는 목차를 보시면 되거든요. 어차피 지금은 세세한 그림이 보이시지 않을 것이기 때문에, 설명하진 않겠습니다.

분석 기간은 큼직큼직하게 정해봅시다. 원래 큰 프로젝트라면 고객과 약속한 마감기한이 있을 겁니다. 기한을 맞추기 위해 열심히 굴러야 겠죠. 하지만 혼자하는 프로젝트에서는 크게 신경 쓸 문제는 아닙니다.

분석 기획은 이제 거의 끝났습니다. 혼자서 하니까 금방 끝나죠. 하지만 실제로 커다란 프로젝트에서 고객 인터뷰하고, 자료 조사하고, 목표 회의하고, 프로젝트 계획까지 하면 몇 주는 금방 갈지도 모릅니다. (저도 실무는 안 해봤지만 물론 회사에 따라 규모에 따라 다르겠죠)

분석용데이터를 구축하는데에는 아마 8주가 소요되리라 생각합니다. 왜 8주인지는 수집 시스템 구축에서 자세히 이야기하겠지만요. 저희가 신체리듬/수면위생/마음건강 세 가지를 조합하는 경우의 수가 8가지이기 때문입니다.(0, 1,  2, 3, 12, 23, 13, 123) 한 가지에 1주일씩 하니까 8주인 거죠. 이렇게 나온 데이터를 정제하는 데에도 많은 시간이 걸리진 않을 겁니다.

데이터를 분석하고 시각화하는 데에는 아마 며칠이면 되지 않을까 싶습니다. 물론 강의를 읽거나 보거나 듣고 계실 여러분은 하나하나 기법을 배워야 하니 더 걸리시겠죠.

이야기는 길어졌지만, 저는 이 부분을 크게 중요하게 다루지 않고 넘어갑니다. 그 이유는...

자원과 시간 추정에 대해서

사실 경험이 많은 전문가가 아니면 프로젝트 자원/시간 추정은 정말 어렵기 때문입니다. 이건 며칠 배워서 되는 게 아닙니다. 저 역시 실무 경험이 없고요. 안 해 봤는데 어떻게 알겠습니까. 갑자기 문제가 생기거나, 고객이 추가 요구를 해서 계획이 틀어질 수도 있고요. 여기에 대해서는 책을 써도 모자란데 NCS에서는 빈약하게 다루고 있는 감이 있습니다.

그래서 상향식 접근방식인 애자일 같은 방법이 급부상 하고 있고, [애자일 데이터 과학 2.0] 같은 책도 나왔습니다. NCS는 하향식을 기준으로 다루지만, 저는 애자일한 데이터과학에도 관심이 많습니다. 혹시 추정에 대해 더 궁금하신 분들은 [불확실성과 화해하는 프로젝트 추정과 계획]을 참고해보시면 좋을 겁니다.

단계별 산출물 정의

앞에서 말한 각 단계가 끝날 때마다 눈에 보이는 산출물을 보여줘야 합니다. 업무를 명확하게 처리하고 공유하기 위해서죠.  대부분 문서나 데이터입니다. 보고서라 해도 되겠죠. NCS에서도 산출물을 만들지만, 그 항목을 구체적으로 정리하진 않습니다. 그래서 이부분은 ADsP 자격증 이론 부분을 참고했습니다.

단계별 산출물 정의서

데이터 분석 과제 정의 -> 데이터 준비 탐색 -> 데이터 분석 모델링 및 검증단계 -> 산출물 및 기타

  • 데이터 분석 과제 정의
    • 이슈, 문제점 V
    • 자료조사 V
    • 분석 목표 정의서 V
    • (프로젝트 자원분배 계획서)
    • (WBS)
    • (프로젝트 위험관리 계획서)
  • 데이터 준비 탐색
    • 데이터 정의, 데이터 획득 계획서
    • (데이터 스토어 수립 계획)
    • 수집된 데이터
    • 데이터 정합성 보고서
    • 데이터 탐색 보고서
  • 데이터 모델링 및 검증
    • 모델링 결과 보고서
    • 알고리즘 설명서
    • 모델 평가 검증 보고서
  • 산출물 밎 기타
    • 프로젝트 성과 평가서
    • 프로젝트 최종 보고서

댓글

댓글 본문
버전 관리
Taehee Kim
현재 버전
선택 버전
graphittie 자세히 보기