DATA LAKE(데이터 레이크)
[데이터 소스] → [수집 Layer] → [저장 Layer] → [처리 Layer] → [분석/시각화] (DB, IoT, SaaS) (Kafka, Flume) (S3, HDFS) (Spark, SQL) (Tableau, ML)DATA LAKE(데이터 레이크) 는 구조화된 데이터, 반구조화된 데이터, 비정형 데이터 등 모든 유형의 대용량 데이터를 원본 형태 그대로 저장하고 관리하는 중앙 집중식 저장소입니다.(→ 전통적인 데이터 웨어하우스와 달리, 데이터를 미리 정제하거나 스키마를 정의하지 않아 유연성이 높습니다.) 1. 데이터 레이크의 핵심 특징특징설명원본 데이터 저장CSV, JSON, 로그 파일, 이미지, 동영상, IoT 데이터 등 다양한 형식 수용스키마 온 리드(Schema-on-R..
AI 중 로컬 PC에서 다운 받아 별도 학습하여 별도의 서비스를 만들 수 있는 AI
1. Hugging Face Transformers특징: 다양한 사전학습된 언어모델(BERT, GPT-2, GPT-J, GPT-NeoX 등)을 로컬에 다운로드 후 파인튜닝 가능.장점: Python 기반, 커뮤니티와 자료가 풍부, 자유롭게 커스텀 가능.사용법: transformers 라이브러리 설치 후 데이터셋으로 파인튜닝 진행.서비스화: Flask, FastAPI 등과 연동하여 웹서비스 구축 가능.2. OpenAI GPT 모델 (API 외에 로컬 버전)GPT-2, GPT-J, GPT-Neo 같은 모델은 로컬에서 사용 가능.GPT-3 이상의 모델은 로컬 배포가 제한적이며, 보통 API를 통해 사용.GPT-J, GPT-NeoX는 EleutherAI에서 공개한 오픈소스 모델로 로컬에서 파인튜닝 가능.3. St..