
이 글에서 다루는 내용
Claude 사용이 일정 규모를 넘어가면 "어떻게 쓸 것인가"보다 "얼마나 효율적으로 토큰을 쓸 것인가"가 더 중요한 문제로 바뀝니다. 이 글은 Anthropic 공식 문서 기준으로 실제 비용을 뚜렷하게 줄여 주는 레버 여덟 개를 정리합니다. 프롬프트 캐싱과 Batch API 같은 구조적 할인부터, Claude Code에서 쓰는 컨텍스트 위생 명령어, CLAUDE.md 다이어트, 모델 계층 선택, 그리고 구독 vs API 선택까지 한 편으로 훑습니다. 가격 수치는 2026년 4월 기준이며 공식 가격 페이지에서 최신값을 재확인하시길 권합니다.
1. 가장 큰 레버 - 프롬프트 캐싱
1-1. 핵심 메커니즘
프롬프트 캐싱은 반복되는 프롬프트 앞부분(시스템 프롬프트, 문서, 예시 등)을 서버 측에 캐시해 두고 재사용하는 기능입니다. 요청 본문의 해당 블록에 cache_control 필드를 붙이기만 하면 됩니다.
1-2. 가격과 임계값
| 구분 | 입력 토큰 가격 기준 배율 |
|---|---|
| 캐시 쓰기(새로 저장) | 1.25배 (25% 프리미엄) |
| 캐시 읽기(재사용) | 0.1배 (90% 할인) |
손익분기점은 단 1회 재사용입니다. 한 번이라도 캐시 히트가 나면 쓰기 프리미엄이 회수됩니다. 최소 토큰 수가 있어 너무 짧은 프롬프트는 자동 스킵됩니다. Opus 계열은 4,096토큰 이상, Sonnet 계열은 1,024토큰 이상부터 캐싱이 적용됩니다.
💡 같은 시스템 프롬프트를 여러 요청이 공유하는 RAG·에이전트 루프에서 이 기능이 가장 크게 먹힙니다. 기본 TTL은 5분(ephemeral)이고, 1시간 확장 옵션도 제공됩니다.
2. 대량·비동기 작업은 Batch API
즉시 응답이 필요 없는 대량 처리는 Batch API로 돌리면 입력·출력 토큰 모두 50% 할인됩니다. 응답은 최대 24시간 내 완료를 보장하는 비동기 큐 방식입니다. 문서 일괄 요약, 데이터셋 분류, 야간 리포트 생성처럼 지연이 허용되는 작업에 그대로 적용할 수 있습니다.
ℹ️ 프롬프트 캐싱과 Batch API는 서로 배타적이지 않습니다. 고정된 시스템 프롬프트를 캐싱하면서 본문만 Batch로 흘리면 두 할인이 곱으로 쌓여 비용이 최대 수준으로 내려갑니다.
3. 모델 계층을 내려서 쓰기
같은 문제를 Opus로 푸는 비용과 Haiku로 푸는 비용은 몇 배 차이가 납니다. 2026년 4월 기준 Anthropic 공식 가격표(단위는 100만 토큰당 USD)는 아래와 같습니다.
| 모델 | 입력 | 출력 | 추천 용도 |
|---|---|---|---|
| Haiku 4.5 | $1 | $5 | 분류, 요약, 초안, 반복 호출 |
| Sonnet 4.6 | $3 | $15 | 일반 코딩, 문서 분석 |
| Opus 4.6 / 4.7 | $5 | $25 | 복잡 추론, 아키텍처 설계 |
실전 원칙은 "Haiku로 먼저 풀어보고, 실패 시에만 Sonnet·Opus로 올린다"입니다. 내부 라우팅이 가능한 프로젝트라면 난이도 분류를 먼저 Haiku로 수행한 뒤, 어려운 케이스만 Opus로 넘기는 2단 구조가 비용을 크게 낮춥니다.
4. Claude Code 컨텍스트 위생 명령어
Claude Code는 세션이 길어질수록 컨텍스트가 쌓이고 턴마다 그 전체가 다시 모델에 들어갑니다. 네 가지 슬래시 명령으로 이 흐름을 관리합니다.
| 명령 | 역할 | 쓸 타이밍 |
|---|---|---|
/clear |
현재 세션 히스토리 초기화 | 주제가 완전히 바뀔 때 |
/compact |
이전 대화를 요약해 압축 | 자동 요약보다 먼저 선제적으로 |
/context |
현재 세션에서 누가 얼마나 토큰을 먹는지 시각화 | 세션이 묵직해졌을 때 |
/cost |
지금까지 누적된 토큰·비용 확인 | 작업 전후 비교 |
# 예: 다음 작업으로 넘어가기 전에 압축 + 중요 맥락 고정
/compact focus on API changes and modified files
/compact에 초점을 함께 지정하면 요약 과정에서 중요한 맥락이 잘려 나가는 걸 막을 수 있습니다.
5. CLAUDE.md를 500토큰 이하로
CLAUDE.md는 모든 세션·모든 턴에서 시스템 프롬프트로 투입됩니다. 5,000토큰짜리 CLAUDE.md는 세션당 수십 턴이 돌면 그 자체로 수만 토큰의 고정 비용을 만듭니다. 공식 가이드는 이 파일을 "프로젝트의 형태를 전달하는 역할"로 한정하길 권합니다.
- 프로젝트 전체 문서화를 CLAUDE.md에 복사하지 않기.
- 핵심 빌드·테스트 명령은 5줄 이내.
- 참조할 파일은 경로 포인터 3개 정도만.
- 규칙은 짧고 명령형 문장으로 압축.
- 세부 지침은 CLAUDE.md 대신 스킬·플러그인으로 외부화해 필요할 때만 로드.
⚠️ CLAUDE.md의 어느 한 줄이 "정말 매 턴 필요한 지시인가"를 자문하는 습관이 가장 효과적입니다. 대답이 애매하면 스킬로 분리하는 편이 안전합니다.
6. Extended Thinking 예산 관리
Extended Thinking은 모델이 답변 전 내부적으로 길게 추론하도록 하는 기능이고, 추론 토큰도 과금됩니다. 항상 켜둘 필요는 없습니다.
- 간단한 분류·요약에는 Thinking을 비활성화하거나 낮은
budget_tokens(예: 1,024)로 제한. - 복잡한 아키텍처 설계처럼 실제로 추론 이득이 큰 상황에서만 예산을 늘려 사용.
- 최신 Claude 모델은 Adaptive Thinking으로 방향이 이동 중입니다. 별도 예산을 지정하지 않아도 모델이 필요할 때만 추론 길이를 늘리는 방식이라, 공식 문서는 신규 통합은 Adaptive Thinking을 우선 고려하라고 안내합니다.
7. max_tokens와 간결 프롬프트
출력 토큰은 청구되지만 "생성된 분량"에만 과금됩니다. max_tokens를 일부러 크게 잡는 습관은 바로 돈 낭비입니다. 일반 분석·코드 작업은 1,024~4,096부터 시작해 실제 필요치까지만 올리는 편이 안전합니다.
프롬프트에 "답은 최대 3문장으로만, 불필요한 설명 없이" 같은 간결성 지시를 함께 주면 출력 길이 자체가 줄어듭니다. 코드 리뷰·리팩터 제안처럼 장문이 필요 없는 태스크는 특히 효과가 큽니다. 필요하면 stop_sequences로 "끝났다"를 명시해 모델이 스스로 멈추도록 합니다.
8. 구독 vs API - 사용량으로 고르기
가장 큰 오해는 "API가 항상 저렴하다"입니다. 실제로는 사용량 구간에 따라 결과가 반전됩니다.
| 월 사용량 | 유리한 선택 |
|---|---|
| ~수십 MTok 수준 | API 페이-퍼-유즈 |
| 수억~수십억 토큰 수준 | Max / Team / Enterprise 구독 |
Claude Code나 Claude for Chrome을 매일 적극적으로 쓰는 개인 개발자는 구독 한도 안에서 고정 요금으로 돌리는 쪽이 체감 비용이 훨씬 낮습니다. 팀 단위 운영에서는 Team/Enterprise 플랜의 모델 allowlist와 사용량 모니터링 기능을 같이 활용하면 구성원 간 비용 편차를 통제하기 쉽습니다.
한눈에 보는 절약 레버 요약
| 레버 | 체감 절감 | 적용 난이도 |
|---|---|---|
| 프롬프트 캐싱 | 재사용분 90% 할인 | 중 |
| Batch API | 입출력 50% 할인 | 중 |
| Haiku로 하락 | Opus 대비 최대 80% 절감 | 하 |
| /clear·/compact·/context | 세션당 수천~수만 토큰 | 하 |
| CLAUDE.md 다이어트 | 턴당 수백~수천 토큰 | 하 |
| Thinking 예산 축소 | 추론 요청당 수천 토큰 | 중 |
| max_tokens 제한 + 간결 지시 | 출력당 5~40% | 하 |
| 구독 전환 (heavy user) | API 대비 수배~수십배 | 하 |
마무리
토큰 절약은 한 번의 큰 결단이 아니라 여러 작은 습관의 누적입니다. 개인 개발자라면 Claude Code에서 /cost와 /context를 며칠만 붙들고 있어도 낭비 포인트가 눈에 보이기 시작합니다. API를 운영하는 팀이라면 프롬프트 캐싱과 Batch API 두 개만 먼저 넣어 두는 것이 가장 큰 한 방입니다. 가격은 분기 단위로 조정될 수 있으니 공식 Pricing 페이지의 최신값을 기준으로 재검증하는 것이 안전합니다. 다음 글에서는 같은 주제를 "팀 단위 비용 관리" 관점에서, Team/Enterprise 관리자 콘솔과 사용량 대시보드 활용법 중심으로 정리하겠습니다.
- 공식 문서: Prompt Caching
- 공식 문서: Batch Processing
- 공식 문서: Claude Pricing
- 공식 문서: Models Overview
- 공식 문서: Extended Thinking
- 공식 문서: Claude Code Commands
- 공식 문서: Manage Costs in Claude Code
- 공식 문서: Claude Code Best Practices
- 관련 글: Claude Code 설치 및 활용 완벽 가이드
'AI & LLM' 카테고리의 다른 글
| OpenClaw란 무엇인가? 내 기기에서 돌아가는 오픈소스 AI 비서 (0) | 2026.04.23 |
|---|---|
| 하네스 엔지니어링이란? (1) | 2026.04.22 |
| MCP 서버 연동으로 Claude Code 확장하기 (1) | 2026.04.21 |
| 클로드 Remote Control 사용 방법 - 폰에서 내 PC의 Claude Code 이어 받기 (1) | 2026.04.20 |
| 텔레그램 봇으로 Claude Code 원격 제어하기 - WSL + Python 브리지 구축 가이드 (0) | 2026.04.20 |