데이터 관리, 비즈니스 데이터 분석
월 : 중간 프로젝트 발표. 데이터를 효율적으로 관리하는 방법(파켓, 다운캐스트)
격노 : 비즈니스 데이터 분석
숫자 : 3.1
목 : Insight Day, 준비 과정(“프로젝트를 통한 데이터 사이언스 학습”)
- 다운캐스트를 사용하여 메모리 사용량을 80% 이상 줄여 효율적인 메모리 사용 가능
- 개방형 Parquet 형식을 이해하고 최대 90% 압축으로 파일을 저장할 수 있습니다.
1. 쪽모이 세공
데이터, 데이터 센터
- 데이터 센터는 항상 열을 발생시키고 회사는 데이터 사용량에 따라 요금을 인상합니다 => 데이터를 효율적으로 관리하는 방법은 무엇입니까?
- 저장 장치의 성능 향상에는 한계가 있습니다.
(예시: 데이터 용량이 늘어날 때 1TB SSD를 증설하는데 10만원이 든다면…) - 데이터 용량이 줄어듦에 따라 저장 공간이 확보되고 데이터 교환의 효율성이 높아집니다.
ETL 대 엘자
- ETL(추출, 변환, 로드)
: 데이터는 데이터 웨어하우스에 저장할 수 있는 수준에서 수집, 처리 및 저장 => 새로운 데이터가 추가될 때마다 처리 및 저장되어야 합니다. - ELT(추출, 로드, 변환)
: 대용량 데이터를 보다 빠르고 효율적으로 처리할 수 있습니다.
=> 필요에 따라 데이터를 저장하고 검색하고 처리할 수 있습니다.
- https://www.integrate.io/blog/etl-vs-elt/
- https://blog.naver.com/freepsw/222276087707
쪽매 세공 대 CSV
- csv: 한 줄씩 저장
- 쪽모이 세공: 열에 저장
- Parquet에는 메타데이터가 포함되어 있으므로 소량의 데이터에 대해서는 csv가 더 작을 수 있습니다.
- 그러나 파일 크기가 커질수록 Parquet로 저장하면 약 1/10로 줄어듭니다.
2. 낙담
– 데이터 타입이 설정되지 않은 경우 => 기본적으로 메모리에 여유 공간이 할당됩니다.
– 실제로 사용하는 데이터가 그렇게 많은 저장 공간을 차지하지 않는다면? => 메모리를 비효율적으로 사용합니다.
– 문자형(카테고리형용) => 숫자로 변경 및 관리
– 숫자 유형(+값만) => 부호 없는 유형으로 다운캐스트
– 숫자 유형(+ 및 – 값 모두 있지만 범위가 작음) => int, float로 다운캐스트(예: int64 => int8)
3. 비즈니스 데이터 분석
온라인 소매
코호트, 보유, RFM, 클러스터 분석
전자상거래
- 오늘의 집 사례 => 여러 가지 가설을 세우고 적용하고 검증해야 합니다.
- 주요 메트릭은 서비스에 따라 다릅니다.
- 마케팅 용어
계기반
- 목적: 특히 B2C 회사를 위해 회사 수준에서 콘텐츠(결과) 공유
- 방법 :
- https://christophjanz.blogspot.com/2013/12/a-kpi-dashboard-for-early-stage-saas.html
코호트 분석
- 코호트: 공통 특성(예: 날짜, 행동, 구매한 제품 등)을 공유하는 사용자 그룹입니다.
- 코호트(코호트) 분석: 시간 경과에 따라 사용자 그룹을 추적하는 방법입니다.
- 표준시,
히스토그램
- bins=50: 범주 및 숫자 유형이 이 수준에서 표시됩니다.