KISTI 빅데이터 분석가 과정/그룹 프로젝트

09.18 3,4주차 보고 및 멘토미팅

_empty_ 2019. 9. 18. 15:56

<오전 3,4주차 발표>

3,4주차 발표.pptx
7.39MB

26일 전체과정 발표 - 피드백 받고 27일까지 최종 인쇄본 넘겨야 함

30일 전체 팀 대상 결과보고

 

 

<오후 멘토미팅>

user_id 기반 데이터 수 줄이기

확 줄여서 돌리고, 캐글 커널보다 로컬의 자원이 좋으니 사용하라

 

CF나 이미 user_id 로 Word2Vec 돌린거나 매커니즘이 같다

이미 같은 내용을 해놓은거고 거기서 결국 가까운 유저들은 비슷한 상품을 구매 - 취향이 비슷함을 의미한다.

이미 표시한 내용 (dbscan을 돌린게 없을뿐 일단 Word2Vec은 되니까)

한 명을 기준으로 취향이 같은 여러명의 장바구니 내역을 나열하고, 공통적인 상품들을 보면 추천 매커니즘이 나온다.

이미 표시가 된 것.

 

product와 user는 연관 되어있다.

user가 가장 많이 산 product만 보더라도, 그 product와 연관된 상품들이 있음을 우리는 이미 분석을 했으니

활용하려면 활용할 수 있다. 

CF는 아이디어일 뿐 그 아이디어는 무궁무진하니 코드에 매달릴 필요가 없다.

너무 멀리가지 말고 데이터의 의미를 생가갛며 만들어 올라가는 것.

 

맨 처음  p, u, t의 3차원 플롯에서 바로 알고리즘 코드로 갈 수도 있었지만

이렇게 Word2Vec에 DBSCAN 해서 데이터를 탐구해보며 또띠야도 보고 요거트도 봤기 때문에

CF 아이디어에 대해 더 자유롭게 할 수 있는것. 중간 과정을 거친거기때문에 오히려 더 잘 하고 있는거고 자유롭게 하는것

이 흐름을 잘 설명해야한다

 

:: 최종 보고서의 개선점

재료는 나름 잘 갖춰져있는 것 같으니 스토리텔링을 잘해라.

슬라이드가 설명을 해야지 말로 설명을 하겠다는 것도 정도껏이다.

하다못해 10개 플롯 띄우는거에서 글자 크기라도 잘 보여야 한다.

공 들인 과정을 잘 보여야 한다 - 이걸 어떻게 보여줄 것인가. 동그라미를 쳤으면 저 동그라미가 뭔지

plot을 그렸다면 확대를 하든 설명을 적든 이게 뭔지.

실험 결과 보여줄 때에도 impressive한 몇 개만 명료하게 보여줘야지 반복은 안 됨

실험결과 중 가장 잘 된걸 골라서 들고가야지 전부 다 보여주는 자리가 아니다

Word2Vec도 본질적으로 설명. 아이디어를 설명하고 코어를 그려서 보여줘야 우리의 아이디어를 보여줄 수 있는거지

라이브러리를 쓴 게 중요한게 아니라 왜 그 라이브러리를 썼고 뭘 구하려고 했는지가 잘 표현이 되어야 한다.

 

최종본에서는 주제선정 및 이유부분 좀 더 상세하게

(그림도 넣어서 재밌었으면 좋겠다는 박사님의..개인적인 요구..26일엔 그림 넣어야하나)

처음 한 두장에서 전체 발표에 대한 레이아웃이 그려져야 잘 듣는다.

 

3,4주차 보고서처럼 쓰면 공부한 노트로밖엔 안 보여서 논문을 쓰거나 보고서를 쓸 때는 보기가 좋지만

우리 프로젝트를 설명하는 발표에는 적합하지 않다.

분석 내용 설정, 설계, 설계한 이유와 그에 따라서 무슨 데이터를 구해왓고 분석을 하려면 그대로 못 쓰니까 모델링을 했고 (put 3차원 그린거부터해서) 어떤 생각을 가지고 ㄱ연관성을 이러이런걸 분석하려고 했고 그래서 라이브러리를 썼다 일 뿐인걸로. 라이브럴리가 메인이 아니라.

군집분석이 왜 필오ㅛ했고, 왜 했는지가 더 중요하고

왜 dbscan을 썼는지도 (아깐 말로 설명 했었지만 그것도 슬라이드에 보여주라는 말이신듯)

클러스터링 한 데이터프레임을 보여줘도 어떻게 정제해서 넣어서 결과가 나왔다 수준이 아니라

전체 표를 그냥 보여줘버리면 뭔지 이해도 안되고 그 다음 슬라이드도 뜬금없이 나오기때문에 잘 연결해거 정리를 하든 논리에 맞게 잘 설명

 

이탈방지라기보다는 결과적으로는 추천 서비스지 이탈 방지와는 관련이 없어보이니까 잘 정리

 

중간과정의 그래픽화

각 단계에 담은 의미

그래서 CF가 된다

결과가 잘 나올진 모르겠지만 줄이긴 줄여서..