[WIL] 멋쟁이사자처럼 AI

데이터 관리, 비즈니스 데이터 분석

: 중간 프로젝트 발표. 데이터를 효율적으로 관리하는 방법(파켓, 다운캐스트)

격노 : 비즈니스 데이터 분석

숫자 : 3.1

: Insight Day, 준비 과정(“프로젝트를 통한 데이터 사이언스 학습”)

  • 다운캐스트를 사용하여 메모리 사용량을 80% 이상 줄여 효율적인 메모리 사용 가능
  • 개방형 Parquet 형식을 이해하고 최대 90% 압축으로 파일을 저장할 수 있습니다.

1. 쪽모이 세공

데이터, 데이터 센터

  • 데이터 센터는 항상 열을 발생시키고 회사는 데이터 사용량에 따라 요금을 인상합니다 => 데이터를 효율적으로 관리하는 방법은 무엇입니까?
  • 저장 장치의 성능 향상에는 한계가 있습니다.

    (예시: 데이터 용량이 늘어날 때 1TB SSD를 증설하는데 10만원이 든다면…)
  • 데이터 용량이 줄어듦에 따라 저장 공간이 확보되고 데이터 교환의 효율성이 높아집니다.

ETL 엘자

  • ETL(추출, 변환, 로드)
    : 데이터는 데이터 웨어하우스에 저장할 수 있는 수준에서 수집, 처리 및 저장 => 새로운 데이터가 추가될 때마다 처리 및 저장되어야 합니다.

  • ELT(추출, 로드, 변환)
    : 대용량 데이터를 보다 빠르고 효율적으로 처리할 수 있습니다.

    => 필요에 따라 데이터를 저장하고 검색하고 처리할 수 있습니다.

  • https://www.integrate.io/blog/etl-vs-elt/
  • https://blog.naver.com/freepsw/222276087707

쪽매 세공CSV

  • csv: 한 줄씩 저장
  • 쪽모이 세공: 열에 저장
  • Parquet에는 메타데이터가 포함되어 있으므로 소량의 데이터에 대해서는 csv가 더 작을 수 있습니다.

  • 그러나 파일 크기가 커질수록 Parquet로 저장하면 약 1/10로 줄어듭니다.

2. 낙담

– 데이터 타입이 설정되지 않은 경우 => 기본적으로 메모리에 여유 공간이 할당됩니다.

– 실제로 사용하는 데이터가 그렇게 많은 저장 공간을 차지하지 않는다면? => 메모리를 비효율적으로 사용합니다.

– 문자형(카테고리형용) => 숫자로 변경 및 관리

– 숫자 유형(+값만) => 부호 없는 유형으로 다운캐스트

– 숫자 유형(+ 및 – 값 모두 있지만 범위가 작음) => int, float로 다운캐스트(예: int64 => int8)

3. 비즈니스 데이터 분석

온라인 소매

코호트, 보유, RFM, 클러스터 분석

전자상거래

  • 오늘의 집 사례 => 여러 가지 가설을 세우고 적용하고 검증해야 합니다.

  • 주요 메트릭은 서비스에 따라 다릅니다.

  • 마케팅 용어

계기반

코호트 분석

  • 코호트: 공통 특성(예: 날짜, 행동, 구매한 제품 등)을 공유하는 사용자 그룹입니다.

  • 코호트(코호트) 분석: 시간 경과에 따라 사용자 그룹을 추적하는 방법입니다.

  • 표준시,

히스토그램

  • bins=50: 범주 및 숫자 유형이 이 수준에서 표시됩니다.

누락된 값의 표현 방법