09.04 멘토 미팅

KISTI 빅데이터 분석가 과정/그룹 프로젝트

09.04 멘토 미팅

_empty_ 2019. 9. 4. 16:06

Mento Meeting Note

데이터 분석 - 시작은 fiction

이럴 것 같다, 이랬으면 좋겠다. 생각을 갖고 분석을 해서 구체화 시키면 된다.

이러한 소설을 쓸 수 있을 것 같다. 소설에 분석으로 근거를 붙여서 설득을 시키는게 과제를 해결하는 양상.

id가 숫자형이어도 개별적으로 의미하는거고 순수 의미가 x.

다른 것들과 의미가 단순하게 비교해서는 안나올수도 있기 때문에, 실제로 의미가 있을 만한 값을 생각해보고

상관분석을 하거나 히트맵을 그리거나 해야한다.

에라이하고 때려넣으면 안된다. 기대를 하고 적절히 처리해서 넣어야 함.

목표를 정하자.

2017년의 데이터 - 정확한 기간은 알 수 없으나 1년정도로 예상?

전체 주문 건수 : 3 million

user : 약 20만명

department : 21개

aisle : 133개

product : 약 5만개

바나나에 광적으로 미친 사람들이 전체 바나나 구매량의 90%를 사버렸을 지도 모른다.

전체적인 특성을 생각해야한다. heavy buyer (구매 갯수를 알 수 없다는게 문제인데...)

아니면 바나나를 주로 사는 사람들이 주말마다 사는지, 월마다 사는지, 정기구매를 하는지 몰아서 사는지 비정기적인지..

주문 횟수가 적은 사람들의 수를 어떻게 늘릴 것인가.

시뮬레이션이 안되어서 예측이 힘들 것 같고 분석 정도는 가능할듯.

사용자의 패턴을 통해 히든 경험, 취향을 뽑아내거나.

데이터에 대해 정확히 그림을 그려야 한다. x, y , z축으로 교차점을 찾아 묶는다던가...

ex. 각 축을 user, product(aisle로 카테고리화), time(시간정보 - 요일, 구매시각, 재구매시간). 어떤 유저가 어떤 상품을 얼마만에 샀는지. 주기적으로 산지 아닌지...

또 각 id별로 어떤 상품인지 등의 text information. department, aisle 등등..

:: product : category - 바나나랑 우유를 같이 산다. 월마트 사례 같은? 함께 팔리는걸 clustering. 상품들 사이의 관련성.

product 1-100, 1-100개로 히트맵 만들었을때 상관 수가 높으면 함께 팔린다는걸 알 수 있다는 그런거. 물론 꼭 두개씩이 아니라 여러개를 한번에 비교할수도 있겠지.

:: user : group

::time : 주기성

위 세 개의 관련성이 상호복합적이라 잘 정리해야하는데 모든걸 분석할 수 없으니까

어떤 걸 할 지를 정해서

focus를 잘 정해서 그걸 중심으로 분석을 들어가야 한다.

조사해 온 내용은 약간의 살은 붙어있지만 결국 저 3차원을 벗어나지 않는다.

이제 해야하는 건 저 자잘하게 살펴본 데이터에 대한 명확한 정리 / 그 다음부터 이제 하려는 분석이 가능한지 아닍. 뭘 할건지에 대해 정해야함. Goal

CF : Colaboration Filtering. 넷플릭스나 음악같은 필터링. 어디든 핵심 기술. 잘 하면 만족할 콘텐츠를 줄 수 있지만 적당한걸 줘야 재구맹ㅍㄹ을 높익 ㅗ이탈을안하게 도와준느 것. 그런 ㄱ레코멘디이션 ,추천을 얼마나 잘 해주느냐가 핵심 기술.

각 유저에 맞게. 회사 입장에선 이윤이 극대화 되게. 즉 평균적인 만족도가 올라가게. Overall satisfaction.

---------------------------------------------

ex. 반려동물 장난감 월 단위 정기배송..넷플릭스 추천시스템처럼??

ex. 유기농 시리얼 자주 먹는 사람이면 신상품 중에 좋아할 만한 시리얼을 정기배송 해준다던가, 그 리뷰를 또 반영해서 새로운 상품.

https://particularpantry.com/instacart-review/

ex. 칼로리, 영양성분 비율 정하면 그 안에서 품목 알아서 구성해서 보내주는 배송 서비스.

식료품계의 넷플릭스를 꿈꾼다!!!

----------------------------------------------

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

3 Million Instacart Orders, Open Sourced

Curious about the food Americans eat? Look no further.

tech.instacart.com

아이디어가 있어도 저 data 박스 안에서 활용할 수 있는 feature로 끄집어내야한다는게 중점.

그래서 데이터를 정리하는게 중요하다. 실제 가능한지 아닌지를 봐야하기 때문에.

:: 시나리오 정하기 브레인스토밍

상품별로 주기.. 7일에 한 번 주문한다 하면? - recommendation이 실제 반영되는지를 볼 순 없기 때문에 분석 수준에서만 할 수 있음.

소비자의 경향...같이 산 상품 묶어서 추천하는 정도.

user별로 since_prior_order값을 다 합치면 첫 주문부터 마지막 주문까지 전체 사용 기간을 '일'단위로 알 수 있음.

적게 구매한 사람들이 많이 주문한 물품이랑 많이 구매한 사람들이 주문한 물품에 어떤 차이가 있는지.

한 번에 같이 산 물건들은 연관성이 있다고 voting?

케첩을 많이 사는 사람들은 마요네즈를 많이 산다. 그런데 마요네즈를 많이 사는 사람들은 그 다음으로 당근을 많이 사고 그 다음 케첩을 많이 산다. - 비대칭성의 예시. 이걸 그려보면 되게 재미있다. 이게 Word2Vec.

밤에 바나나를 사는 사람들의 모임 - 이게 하나의 feature.

아침에만 같이 팔리는 상품들. 주말에만 같이 팔리는 상품들.

단어 간 심리적 거리?를 나타낸다는 개념.

Word2vec 개념 설명해주심→Dataspace 안에서 word2vec으로 데이터를 탐색해보고 공통점을 찾아보고..

Word2vec, MDS같은 Python, R 안에 있는 라이브러리 사용해 보기.

다시 한 번 말하지만

1. 뭘 하고싶은지 명확히 하고

2. 그때그때 뭘 필요로 하는지를 조사하고 (평소에 알고 있는 편이 당연히 좋지만 우린 일단 모르니까)

3. 하고자 하는 걸 위해 왜 이걸 써야하는지를 알고 써보기

https://datascienceschool.net/view-notebook/6927b0906f884a67b0da9310d3a581ee/

Data Science School

Data Science School is an open space!

datascienceschool.net

단순한 카운팅은 몰라도 한꺼번에 수백만건 돌리면 죽으니까

만 건 정도 잘라서 해보고 마지막엔 다 넣어보고 그때도 안되면 반이라도 넣어보고..이런식으로.

대용량은 보통 하둡으로 클러스터링하거나 하는데 지금 이 전처리를 다 하라고 할 순 없으니까

어떻게 시나리오를 짤지에 대한 자유도는 줄 건데

오늘 힌트를 많이 줬으니 이 부분은 자유롭게 생각해오기.

다음주 월요일 까지 최대한 해 와서 미팅합시다.

저작자표시 비영리 변경금지 (새창열림)