무료 도구

내 Mac에서 돌릴 수 있을까?

Mac을 위한 궁극의 LLM 메모리 계산기. Apple Silicon 구성에 맞는 정확한 메모리 사용량, 토큰 생성 속도, 호환성을 계산합니다.

1. 하드웨어

Mac 프로세서

통합 메모리 (RAM)

macOS 버전

추론 프레임워크

2. 모델 선택

모델 검색

파라미터 (십억)

예: 8B 모델이면 8.

양자화 / 정밀도

낮은 정밀도 = 적은 메모리, 약간의 품질 저하.

컨텍스트 윈도우 (토큰)

프롬프트 + 최대 생성 토큰 합계.

배치 크기

병렬 시퀀스 수 (채팅은 1).

고급 아키텍처

레이어

히든 사이즈

어텐션 헤드

KV 헤드 (GQA/MQA)

맥에 추천

메모리 분석

필요 총 RAM

0.0 GB

: 16 GB

모델 가중치 0.0 GB

KV 캐시 0.0 GB

프레임워크 오버헤드 & Acts. 1.0 GB

macOS 예약 2.0 GB

최적 — 여유 있게 편안하게 실행. 채팅과 대용량 컨텍스트에 이상적.

처리량 (추정)

~0 t/s

첫 토큰 시간

<0.5 s

소비 전력

0 W

추정 비용 / 시간

$0.00

CO₂ / 시간

0 gCO₂e

빠른 시작

터미널에 복사하여 붙여넣기:

$ mlx_lm.generate --model meta-llama/Meta-Llama-3-8B

자주 묻는 질문

토큰 처리량은 어떻게 계산되나요?

Apple Silicon에서 추론 속도는 메모리 대역폭에 의해 제한됩니다. 칩의 대역폭을 로드된 모델 크기로 나누고 프레임워크별 효율 계수를 적용합니다 (MLX ≈ 85%, Ollama ≈ 65%, vLLM ≈ 70%, SGLang ≈ 88%).

macOS 버전이 왜 중요한가요?

macOS는 시스템용으로 메모리를 예약합니다. Sequoia와 Tahoe는 온디바이스 AI 기능으로 인해 Sonoma보다 더 많이 예약합니다. 이 계산기는 그 차이를 반영합니다.

프레임워크마다 RAM 사용량이 다른 이유는?

vLLM은 높은 동시성을 위해 대형 KV 캐시 블록을 사전 할당합니다. Ollama는 Go 런타임 오버헤드가 있습니다 (~600MB). MLX와 SGLang은 더 가벼운 C++/Python 백엔드입니다 (~200MB 기본).

양자화란 무엇인가요?

양자화는 모델 가중치의 정밀도를 낮춰 (예: FP16→INT4) 메모리 사용을 2~4배 줄입니다. 약간의 품질 저하가 있지만 채팅과 코딩에는 보통 허용 범위입니다.

전력과 비용 추정은 어떻게 계산되나요?

전력은 칩의 부하 시 TDP에서 도출합니다. 비용은 세계 평균 전기 요금 ($0.15/kWh), 배출량은 세계 평균 전력망 탄소 강도 (385 g CO₂e/kWh)를 사용합니다.

RAM보다 큰 모델을 실행할 수 있나요?

기술적으로 가능합니다 — macOS가 SSD의 스왑 메모리를 사용합니다. 하지만 처리량이 정상의 약 10%로 떨어져 실시간 채팅은 사실상 불가능합니다.