09.18 3,4주차 보고 및 멘토미팅
<오전 3,4주차 발표>
26일 전체과정 발표 - 피드백 받고 27일까지 최종 인쇄본 넘겨야 함
30일 전체 팀 대상 결과보고
<오후 멘토미팅>
user_id 기반 데이터 수 줄이기
확 줄여서 돌리고, 캐글 커널보다 로컬의 자원이 좋으니 사용하라
CF나 이미 user_id 로 Word2Vec 돌린거나 매커니즘이 같다
이미 같은 내용을 해놓은거고 거기서 결국 가까운 유저들은 비슷한 상품을 구매 - 취향이 비슷함을 의미한다.
이미 표시한 내용 (dbscan을 돌린게 없을뿐 일단 Word2Vec은 되니까)
한 명을 기준으로 취향이 같은 여러명의 장바구니 내역을 나열하고, 공통적인 상품들을 보면 추천 매커니즘이 나온다.
이미 표시가 된 것.
product와 user는 연관 되어있다.
user가 가장 많이 산 product만 보더라도, 그 product와 연관된 상품들이 있음을 우리는 이미 분석을 했으니
활용하려면 활용할 수 있다.
CF는 아이디어일 뿐 그 아이디어는 무궁무진하니 코드에 매달릴 필요가 없다.
너무 멀리가지 말고 데이터의 의미를 생가갛며 만들어 올라가는 것.
맨 처음 p, u, t의 3차원 플롯에서 바로 알고리즘 코드로 갈 수도 있었지만
이렇게 Word2Vec에 DBSCAN 해서 데이터를 탐구해보며 또띠야도 보고 요거트도 봤기 때문에
CF 아이디어에 대해 더 자유롭게 할 수 있는것. 중간 과정을 거친거기때문에 오히려 더 잘 하고 있는거고 자유롭게 하는것
이 흐름을 잘 설명해야한다
:: 최종 보고서의 개선점
재료는 나름 잘 갖춰져있는 것 같으니 스토리텔링을 잘해라.
슬라이드가 설명을 해야지 말로 설명을 하겠다는 것도 정도껏이다.
하다못해 10개 플롯 띄우는거에서 글자 크기라도 잘 보여야 한다.
공 들인 과정을 잘 보여야 한다 - 이걸 어떻게 보여줄 것인가. 동그라미를 쳤으면 저 동그라미가 뭔지
plot을 그렸다면 확대를 하든 설명을 적든 이게 뭔지.
실험 결과 보여줄 때에도 impressive한 몇 개만 명료하게 보여줘야지 반복은 안 됨
실험결과 중 가장 잘 된걸 골라서 들고가야지 전부 다 보여주는 자리가 아니다
Word2Vec도 본질적으로 설명. 아이디어를 설명하고 코어를 그려서 보여줘야 우리의 아이디어를 보여줄 수 있는거지
라이브러리를 쓴 게 중요한게 아니라 왜 그 라이브러리를 썼고 뭘 구하려고 했는지가 잘 표현이 되어야 한다.
최종본에서는 주제선정 및 이유부분 좀 더 상세하게
(그림도 넣어서 재밌었으면 좋겠다는 박사님의..개인적인 요구..26일엔 그림 넣어야하나)
처음 한 두장에서 전체 발표에 대한 레이아웃이 그려져야 잘 듣는다.
3,4주차 보고서처럼 쓰면 공부한 노트로밖엔 안 보여서 논문을 쓰거나 보고서를 쓸 때는 보기가 좋지만
우리 프로젝트를 설명하는 발표에는 적합하지 않다.
분석 내용 설정, 설계, 설계한 이유와 그에 따라서 무슨 데이터를 구해왓고 분석을 하려면 그대로 못 쓰니까 모델링을 했고 (put 3차원 그린거부터해서) 어떤 생각을 가지고 ㄱ연관성을 이러이런걸 분석하려고 했고 그래서 라이브러리를 썼다 일 뿐인걸로. 라이브럴리가 메인이 아니라.
군집분석이 왜 필오ㅛ했고, 왜 했는지가 더 중요하고
왜 dbscan을 썼는지도 (아깐 말로 설명 했었지만 그것도 슬라이드에 보여주라는 말이신듯)
클러스터링 한 데이터프레임을 보여줘도 어떻게 정제해서 넣어서 결과가 나왔다 수준이 아니라
전체 표를 그냥 보여줘버리면 뭔지 이해도 안되고 그 다음 슬라이드도 뜬금없이 나오기때문에 잘 연결해거 정리를 하든 논리에 맞게 잘 설명
이탈방지라기보다는 결과적으로는 추천 서비스지 이탈 방지와는 관련이 없어보이니까 잘 정리
중간과정의 그래픽화
각 단계에 담은 의미
그래서 CF가 된다
결과가 잘 나올진 모르겠지만 줄이긴 줄여서..