Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- Max Array Sum
- programmers
- 머신러닝
- 격파르타 후기
- 야근지수
- 파이썬
- 백준
- DFS: Connected Cell in a Grid
- Recursion: Davis' Staircase
- Algorithm
- python
- candies
- 격파르타 장점
- Reverse Shuffle Merge
- 격파르타 합격후기
- 구슬탈출2
- 코딩테스트
- Roads and Libraries
- 매칭점수
- 피보나치 함수
- 알고리즘
- Find the nearest clone
- [sqld]자격증합격
- Special String Again
- BFS: Shortest Reach in a Graph
- 프로그래머스
- 해커랭크
- Interview Preparation Kit
- hackerrank
- Common Child
Archives
- Today
- Total
Archive
공개데이터 정리 본문
- 추천시스템 관련 연구를 진행하며, baseline으로 삼을만한 데이터를 한번 찾아봤습니다.
- 필요한 요건은 아래와 같았습니다.
- User, Item, Interaction 데이터가 필요합니다.
- user 데이터는 고객의 CRM정보(성별, 나이, 지역 등)가 필요했고, 더 나아가 도메인에 따른 피쳐들(커머스같은 경우, 1달 안 동안 페이지 방문 수, 1달 동안 구매 횟수 등)이 있으면 더욱 좋은 데이터라 할 수 있겠습니다.
- Item 데이터는 user와 마찬가지로 item에 대한 속성정보를 의미합니다. 예를 들어, 커머스 데이터같은 경우 상품의 대분류, 중분류, 소분류, 가격, 1달안의 결제 횟수 등이 있으면 좋을 것 같습니다.
- Interaction 데이터는 간단하게 (user_id, item_id, 날짜)가 있으면 되고, 이 때 user_id는 user 테이블과, item_id는 item 테이블과의 join key를 나타냅니다. 어떤 고객이 어떤 상품과 언제 interaction이 발생했는지를 알 수 있으면 됩니다.
- 그 외 앱 로그같은 경우, session 정보가 더 추가되어 sequence로 나타낼 수 있는 데이터면 좋은데 이렇게 확실히 사용할 수 있는 데이터가 있는지는 좀 더 찾아봐야할 것 같습니다.
- User, Item, Interaction 데이터가 필요합니다.
데이터 이름User 데이터Item 데이터Interaction 데이터출처
- 그 외 찾아봤던 공개데이터들
데이터이름설명채택되지못한이유
Criteo dataset | - Criteo회사에서 공개한 데이터셋. | - Interaction관련된 데이블만 있었고, user, item데이터로 나누기 애매함. |
'기타' 카테고리의 다른 글
격파르타 SQLD 챌린지 실제 합격 후기 (0) | 2024.06.02 |
---|---|
소프트웨어 개발 모델 (0) | 2017.10.12 |
Lex 기초 (0) | 2017.10.07 |
Comments