Ace-Step 1.5는 오픈 소스 AI 음악 생성 모델로, 상업 수준의 음악을 로컬 하드웨어에서 생성할 수 있도록 설계되었습니다.
Gradio UI를 중심으로 설치, 사용법, 특징, 팁, 오류 해결 등을 설명합니다.
1. Ace-Step 1.5 소개 및 AI 생성 음악
Ace-Step 1.5는 StepFun에서 개발한 오픈 소스 음악 생성 AI 모델입니다.
소비자급 하드웨어(예: RTX 3090)에서 상업 등급 음악을 생성할 수 있으며, 4GB 미만 VRAM으로 작동합니다.
텍스트 프롬프트를 입력하면 가사, 멜로디, 악기 등을 포함한 완전한 음악을 생성합니다. 주요 용도는 AI 기반 음악 작곡, 리믹스, 커버 생성 등입니다.
모델은 DiT(Diffusion Transformer)와 LM(Language Model)을 결합한 하이브리드 아키텍처를 사용해 빠르고 고품질 출력을 제공합니다.
AI 생성 음악의 예: "upbeat pop rock with electric guitars" 같은 프롬프트로 10초에서 10분 길이의 노래를 생성할 수 있습니다. 다국어 가사(50+ 언어)와 1000+ 스타일/악기를 지원합니다.
2. Ace-Step 1.5 모델 사용 실행 화면 (Gradio UI 활용)
Gradio UI는 웹 기반 인터페이스로, 모델을 쉽게 실행하고 결과를 확인할 수 있습니다. 아래는 Gradio UI의 예시 스크린샷입니다. (실제 화면은 설정에 따라 다를 수 있음)

- 주요 섹션: 서비스 구성(모델 로드), 입력(프롬프트, 가사), 고급 설정, 결과(오디오 재생).
3. 알아둬야 할 Ace-Step 1.5 모델 주요 특징
| 성능 | A100에서 2초 미만, RTX 3090에서 10초 미만으로 전체 노래 생성. 배치 생성(최대 8곡) 지원. |
| 품질 | 상업 모델(예: Suno)을 능가하는 수준. 1000+ 악기/스타일, 다국어 가사. |
| 다양성 | 참조 오디오 입력, 커버 생성, 리페인트(부분 편집), 트랙 분리, 멀티 트랙 생성, 보컬-to-BGM 변환. |
| 제어 | 메타데이터(BPM, 키, 타임 시그니처, 길이) 조절. 간단 모드와 커스텀 모드 지원. |
| 개인화 | LoRA 훈련으로 사용자 스타일 캡처(8곡, 3090에서 1시간). |
| 자원 | 4GB VRAM 이하로 로컬 실행. CPU/MPS 지원(느림). |
| 추가 기능 | 쿼리 재작성, 오디오 이해, LRC(가사 타임스탬프) 생성, 품질 스코어링. |
4. Ace-Step 1.5 설치법, start_gradio_ui.bat 배치 실행 안 될 때 해결법, Ace-Step 1.5 사용법
설치법 (Windows 중심, GitHub 기준)
- 필수 요구사항: Python 3.11, CUDA 지원 GPU(추천). Git 설치.
- Windows 포터블 패키지 다운로드 (쉬운 방법):
- GitHub에서 ACE-Step-1.5.7z 다운로드().
- 압축 해제.
- start_gradio_ui.bat 더블 클릭 (첫 실행 시 모델 자동 다운로드).
- 표준 설치 (개발자용):
- uv 설치 (pip install uv).
- 저장소 클론: git clone https://github.com/ace-step/ACE-Step-1.5.
- 디렉토리로 이동: cd ACE-Step-1.5.
- 종속성 설치: uv sync.
- Gradio UI 실행: uv run acestep 또는 python acestep/acestep_v15_pipeline.py.
환경 변수 설정 (.env 파일): ACESTEP_INIT_LLM=true 등으로 구성.
start_gradio_ui.bat 실행 안 될 때 해결법
- 문제 원인: Python 미설치, GPU 드라이버 문제, 모델 다운로드 실패.
- 해결법:
- Python 3.11 확인: python --version.
- GPU 확인: quick_test.bat 실행 (패키지에 포함).
- 다운로드 소스 변경: --download-source huggingface 옵션 추가.
- 업데이트 충돌: merge_config.bat 실행 (백업 생성).
- VRAM 부족: ACESTEP_INIT_LLM=false 설정 (DiT만 사용).
- 에러 로그 확인: 터미널에서 직접 python app.py 실행.
Ace-Step 1.5 사용법 (Gradio UI)
- 실행: start_gradio_ui.bat 또는 python app.py --config acestep-v15-turbo --init-llm.
- 인터페이스 접근: 브라우저에서 http://localhost:7860 열기.
- 기본 워크플로:
- 서비스 초기화: 모델 선택 (acestep-v15-turbo), LM 경로, 장치(auto). "Initialize Service" 클릭.
- 생성 모드 선택: Simple (자연어 입력) 또는 Custom (상세 제어).
- 입력: Song Description 또는 Caption/Lyrics 입력. Instrumental 체크 가능.
- 고급 설정: Steps(8), Guidance Scale(7.0), Seed 등 조정.
- 생성: "Generate Music" 클릭. 결과에서 오디오 재생/다운로드.
- 배치 생성: Batch Size 2~8로 여러 변형 생성.
5. 음악 리페인트 하기
리페인트(Repaint)는 기존 오디오의 특정 부분을 재생성합니다.
- 사용법:
- Task Type: "repaint" 선택.
- Source Audio 업로드.
- Repainting Start/End (초 단위, End=-1은 끝까지).
- Caption으로 원하는 내용 설명 (e.g., "add heavy drums").
- "Generate Music" 클릭.
- 용도: 특정 섹션 수정, 오류 수정.
6. 음악 프롬프트 잘 만드는 팁
- Simple Mode: 자연어로 "a soft Bengali love song"처럼 간단히.
- Custom Mode: 장르, 악기, 분위기 상세히 (e.g., "upbeat pop rock with electric guitars, driving drums").
- 가사 구조: [Verse 1], [Chorus] 태그 사용.
- 메타데이터 추가: BPM(120), Key("C Major"), Duration(180) 지정.
- LM 활용: "Format" 버튼으로 프롬프트 자동 개선.
- 팁: 구체적일수록 좋음. "Query Rewriting"으로 LM이 태그 확장. 랜덤 예시(주사위 버튼) 사용.
7. 오류 해결법
(1) Initialize하고 타입 에러 오류 날 때
- 원인: 호환되지 않는 패키지 버전 또는 타입 불일치 (e.g., Torch 버전 문제).
- 해결법:
- 종속성 재설치: uv sync --force.
- Flash Attention 확인: "Use Flash Attention" 비활성화.
- 로그 확인: 에러 메시지 검색 (e.g., GitHub 이슈).
- ROCm/AMD 사용자: uv 피하고 수동 venv 사용.
(2) 재생성시 새로운 곡이 아닌 이전 곡이 재생될 때
- 원인: 캐싱 문제 또는 Seed 고정.
- 해결법:
- "Random Seed" 체크.
- Seed 값 변경 (e.g., -1 또는 새 값).
- 캐시 지우기: 앱 재시작 또는 "Unload" LoRA.
- AutoGen 비활성화 후 수동 생성.
'AI' 카테고리의 다른 글
| 상용 LLM에서 오픈소스 LLM으로: AI Cursor 설계, 구현 및 운영 가이드 (0) | 2025.09.18 |
|---|---|
| 사내 로컬 AI 개발자 시스템 구축 로드맵: 상용 LLM에서 러칼 오픈소스 LLM으로의 전환 (0) | 2025.09.18 |
| AI 러버블 코딩 (0) | 2025.09.15 |
| Windows 11에서 Playwright 실행 엔진 개발하기 (0) | 2025.08.25 |
| 개발자가 로컬에서 Playwright 기반 스크립트 실행 엔진을 구축 (1) | 2025.08.25 |