전체 건수가 몇 건
상품을 몇백개를 끊었고
그거에 붙인 유저가 몇만건이었고
그래서 전체 클러스터가 얼마엿는데 -1, 0, 1, ... 이렇게 몇명으로 분리가 되어서
최종적으로 구한 유저의 클러스터는 몇백명
product을 먼저 고르고 user를 골랐기 때문에 당연히 나오는 결과들은 product에 치우칠 수밖에 없다
user를 먼저 랜덤하게 고르고 dbscan을 시행하면 무슨 물건을 산 유저들인지 모르기때문에 거기서 묶인 유저들은
비슷한 걸 산 유저들끼리 - 우리가 그 전제를 전혀 모르는 -
궁극적으로 order list를 고른다면 거기에 어떤 user가 들어있는지, 어떤 상품이 들어있는지 전혀 알 수 없다
랜덤으로 3만건을 골라내서 user의 특성을 보고 product의 특성을 봐야 우리가 알지 못하는 내용에 대한 분석
그래서 계속 줄이라고 말을 했던건 order_list, 전체 오더 건수에서 줄이라는거지
product나 user를 골라서 줄이라는 말이 아니다
나온 결과들이 의존적이고, 의존적일 수 밖에 없음을 이해해야 한다
product x user -> order list
의 그림을 이해해야하고 꾸준히 3차원 축을 그려야 한다는 이유가 그것
-------
마지막 ppt에 user, product
Word2Vec 그림을 tsne scatter plt 보여줄때 글자 빼고 점으로만 표시해서 뭉친 모양을 보여주어야함
글자로 그리면 괜히 가로로 길게 퍼지고 텍스트로 뿌리니까 무거워지는거지 점만 찍어서 보여줘라
user dbscan할때에도 product 500개 잘랐던 걸로 그림 그려보라..는 말이 아닌데?
user 기준 product list, productㄹ기준 user list 에 대한 각각 ㅡㄱ림을 그리라는건데....
k means는 클러스터를 정할 수 있다는게 장점인거고
dbscan은 밀도기반인거고
그래서 그려보라는 것 - 텍스트 빼기 !!
cluster에 대한 naming은 우리가 엑셀로 했던 거고...
덩어리를 한 데에 묶지 마라
user가 a, b, c를 샀을 때 product cluster중 vegan그룹에 a, b, c가 있고
육식만 하는 그룹에 c, d, e, f 가 있다머면 user는 Vegan 그룹에 추천해주는 것
-> 하나 나올 수 있음. product cluster를 얼마나 의미있게 잘 하느냐의 기준. 클러스터가 퍼펙트하진 않아도 깔끔하게 나뉘어져야 함
상품 클러스터들 중에 뭐가 가까울건가를 비교해야한다. - user 장바구니랑 cluster들을 word2vec 하면 되지 않을까 이건??
정확히 CF는 아니지만 비슷하게는 하는거임
세세히 Working해서 보여줄 필요는 없르니 cluster와 user 예시 몇 개만해서 보여주면 그만인 것
어떤 유저가 하나의 프로덕트 그룹에만 속하진 않을 수도 있다. 비건이면서 밀크그룹에도 속할 수 있는 것.
그럼 두 개를 보고 골고루 추천해 준다고 하면 되는 것
=>>>>> 이게 시나리오 하나. 슬라이드가 이렇게 만들어줘야 하는 것
데이터 설명하고, 데이터를 이렇게 줄였고, wordvedㅇ로 부노가 이랬고 클러스터가 이랬고
클러스터 네이밍을 이렇게 해서 장바구니를 보고 이런 기준으로 추천을 해주었다. 우릭 ㅏ하고싶은건 어떤 사웊ㅁ의팔린걸 보고 상품의 잠재적인 고객에게 그룹핑된 상품을 기준으로 추천ㅇ르 해준다. 라는 시나리오 하나가 나오는것.
상품 추천에 여러 방법이 있지만 우리는 이 방법을 선택한 것처럼 이야기 하면 된다.
이건 정확히 말하면 CF랑 살짝 거리가 있음
:: 박사님이 말했던 CF 시ㅏ나리오란 무엇이냐
A와 B 유저가 산 상품들이 겹치니까 추천을 해주면 된다. 그때 새연이가 준 그림같은거.
즉 유저끼리 비슷한 경향이 있음을 알아야 한다 - user에 따른 product list 데이터가 있다
user word2vec plot 그리는게 user끼리 mapping되어있는 것이다. 여기는 클러스터링ㅇ ㅣ필요없음.
그러면 user word2vec에 similarity 구해보면 가까운 유저들 알려줌
그 유저에게 얘네들의 경험을 추천해주면 됨
한 유저당 주변을 세명~다섯명정도 골던지..(top10보고 유사도 보고 고르면 될듯)
-> 한 유저와 연관된 유저들이 많이 산 물건 중 ""내가 안 사본 물건"" 샀던 물건들을 기준으로 그룹핑되었으니 산 물건은 의미 없고
내가 안 사봤지만 나와 비슷하게 묶인 주변 유저들이 많이 산 물건들이 있다면 나와 연관이 있지 않겠느냐
가 CF의 본질
만약 레고 덕후라면 차->배->기차->비행기이런식으로 큼직한걸 사나간다 치면
나는 이제 뉴비라 차 레고만 샀다. 그럼 다음에 다른 모형 레고들을 사지 않겠느냐라고 추천해주는게 가능하다는것
물론 한 유저가 다른 유저들이랑 떨어져있을 수 있으니 가능함