무료 도구
내 Mac에서 돌릴 수 있을까?
Mac을 위한 궁극의 LLM 메모리 계산기. Apple Silicon 구성에 맞는 정확한 메모리 사용량, 토큰 생성 속도, 호환성을 계산합니다.
1. 하드웨어
2. 모델 선택
예: 8B 모델이면 8.
낮은 정밀도 = 적은 메모리, 약간의 품질 저하.
프롬프트 + 최대 생성 토큰 합계.
병렬 시퀀스 수 (채팅은 1).
고급 아키텍처
맥에 추천
메모리 분석
필요 총 RAM
0.0 GB
처리량 (추정)
~0 t/s
첫 토큰 시간
<0.5 s
소비 전력
0 W
추정 비용 / 시간
$0.00
CO₂ / 시간
0 gCO₂e
빠른 시작
터미널에 복사하여 붙여넣기:
자주 묻는 질문
토큰 처리량은 어떻게 계산되나요?
Apple Silicon에서 추론 속도는 메모리 대역폭에 의해 제한됩니다. 칩의 대역폭을 로드된 모델 크기로 나누고 프레임워크별 효율 계수를 적용합니다 (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).
macOS 버전이 왜 중요한가요?
macOS는 시스템용으로 메모리를 예약합니다. Sequoia와 Tahoe는 온디바이스 AI 기능으로 인해 Sonoma보다 더 많이 예약합니다. 이 계산기는 그 차이를 반영합니다.
프레임워크마다 RAM 사용량이 다른 이유는?
vLLM은 높은 동시성을 위해 대형 KV 캐시 블록을 사전 할당합니다. Ollama는 Go 런타임 오버헤드가 있습니다 (~600MB). MLX와 SGLang은 더 가벼운 C++/Python 백엔드입니다 (~200MB 기본).
양자화란 무엇인가요?
양자화는 모델 가중치의 정밀도를 낮춰 (예: FP16→INT4) 메모리 사용을 2~4배 줄입니다. 약간의 품질 저하가 있지만 채팅과 코딩에는 보통 허용 범위입니다.
전력과 비용 추정은 어떻게 계산되나요?
전력은 칩의 부하 시 TDP에서 도출합니다. 비용은 세계 평균 전기 요금 ($0.15/kWh), 배출량은 세계 평균 전력망 탄소 강도 (385 g CO₂e/kWh)를 사용합니다.
RAM보다 큰 모델을 실행할 수 있나요?
기술적으로 가능합니다 — macOS가 SSD의 스왑 메모리를 사용합니다. 하지만 처리량이 정상의 약 10%로 떨어져 실시간 채팅은 사실상 불가능합니다.