Archive

공개데이터 정리 본문

기타

공개데이터 정리

mariabeetle 2022. 8. 7. 14:54
  • 추천시스템 관련 연구를 진행하며, baseline으로 삼을만한 데이터를 한번 찾아봤습니다.
  • 필요한 요건은 아래와 같았습니다.
    • User, Item, Interaction 데이터가 필요합니다.
      • user 데이터는 고객의 CRM정보(성별, 나이, 지역 등)가 필요했고, 더 나아가 도메인에 따른 피쳐들(커머스같은 경우, 1달 안 동안 페이지 방문 수, 1달 동안 구매 횟수 등)이 있으면 더욱 좋은 데이터라 할 수 있겠습니다.
      • Item 데이터는 user와 마찬가지로 item에 대한 속성정보를 의미합니다. 예를 들어, 커머스 데이터같은 경우 상품의 대분류, 중분류, 소분류, 가격, 1달안의 결제 횟수 등이 있으면 좋을 것 같습니다.
      • Interaction 데이터는 간단하게 (user_id, item_id, 날짜)가 있으면 되고, 이 때 user_id는 user 테이블과, item_id는 item 테이블과의 join key를 나타냅니다. 어떤 고객이 어떤 상품과 언제 interaction이 발생했는지를 알 수 있으면 됩니다.
        • 그 외 앱 로그같은 경우, session 정보가 더 추가되어 sequence로 나타낼 수 있는 데이터면 좋은데 이렇게 확실히 사용할 수 있는 데이터가 있는지는 좀 더 찾아봐야할 것 같습니다.

데이터 이름User 데이터Item 데이터Interaction 데이터출처

Book       https://www.kaggle.com/datasets/arashnic/book-recommendation-dataset?select=Books.csv
H&M 개인화 패션 추천 데이터       https://www.kaggle.com/competitions/h-and-m-personalized-fashion-recommendations/data?select=transactions_train.csv
  • 그 외 찾아봤던 공개데이터들

데이터이름설명채택되지못한이유

Criteo dataset - Criteo회사에서 공개한 데이터셋. - Interaction관련된 데이블만 있었고, user, item데이터로 나누기 애매함.

 

'기타' 카테고리의 다른 글

격파르타 SQLD 챌린지 실제 합격 후기  (0) 2024.06.02
소프트웨어 개발 모델  (0) 2017.10.12
Lex 기초  (0) 2017.10.07
Comments