08.29 데이터분석
아침시작미팅
박사님 미팅 - 수요일 오후 희망.
상관관계분석 필요
오늘 각자 하던 분석은 끝낸다고 생각하고
내일 각자의 특성 공유하고 상관관계 분석. ex) 히트맵
아이디어(비즈니스적 목표) - 각자 하던거 킵고잉하면서 계속 생각하기. 지금 하는 분석을 어떻게 쓸지.
역할 - 분석(고급), 모델링,
에 대해 다음 미팅에 이야기했으면 좋겠다고 했었음.
공통목표 - 각자 상관분석은 꼭 한번씩은 하기. 자기가 원하는 결과를 한 번 도출해보자.
개별목표 - 고급분석 기법 검색하기, 이거는 분석했다!하는 한가지 토픽 정해서 관련 내용 줄글 나올 정도로 분석하기.
점심중간보고
<숙희>
Python->R로 작업 변경. 데이터 하나로 모으고 상관관계 분석 시도.
NaN을 0으로 바꾸고 싶은데 안 되어서, order_num이 1인 행은 다 추출은 했는데 잘 안바뀜.
<새연>
15번째 커널 끊기는중 서버 충원좀 해라.
파이썬 데이터 -> R로 옮기려고 다운받아서 올리려고 했는데 커널 계속 잘려서 안 됨
장바구니 분석 R로 연관분석 어떻게 하는지 찾아보고 있었음. 그리고 코드 좀 써둠.
<유경>
Python으로 어렵던 split R로 하니 reordered 0, 1에 따라 아주 잘 나뉨. 0, 1 별로 변수 저장도 수월해서
지난주에 하려던 (재)구매율 상위 Top 분류와 주문시간대 파악 할 수 있을 듯.
그리고 R로 상관관계분석은 어떻게 하는지 검색함.
Hitmap 만들어보기 전에 reordered 별로 넣어보고는 싶은데 order_id별로 장바구니 정보도 합쳐야 할지
합치면 뭘 합쳐서 넣어야 좀 유의미한 값이 나올지 feature 조합 해보고 있었음.
https://m.blog.naver.com/value_foryou/221408509318
<수경>
히트맵 - prior, train 문자 숫자 안 합치고 그냥 해봤는데 상관관계 별로 없다고 나옴. 0.01 이런식..feature 다듬어볼까 함.
연속형 - 범주형이 섞여있어서 트리맵?만들어보고싶음.
<보겸>
재주문에 관한 상관관계를 분석하려고 히트맵으로 나타내 보려고 어떻게 하는지 검색하고 할려고했는데 밥시간이 됐다.
주문 요일, 주문 시간, 재주문 날짜 합쳐서 히트맵 보려고 했음. 근데 이상하게 나왔다.
Q. 상관관계 분석하려면 연속형 범주형을 나눠서 해야하나??
타이타닉 때도 str로 표시된 categorical data는 숫자로 mapping해줬음. 히트맵은 연속형으로 해야한다고??
-> 데이터 상관관계 분석할 때 serial과 categorical 중 하나로 통일해야하는지 고민해야함.