OpenAI가 Broadcom과 추론용 AI 칩 Jalapeño를 공개했다

📋 오늘의 3줄 요약
- OpenAI가 ChatGPT 요청을 처리하는 전용 칩을 Broadcom과 만들었어요.
- 목표는 Nvidia GPU 의존을 줄이고, 같은 전력으로 더 많은 응답을 처리하는 거예요.
- 한국 빌더는 모델 비용·지연시간을 지금부터 제품 단위로 쪼개 봐야 해요.
안녕하세요, 오늘은 “모델 경쟁” 뒤에서 실제 제품의 속도와 원가를 좌우하는 AI 칩 경쟁을 볼게요.
📌 오늘의 딥다이브 — OpenAI의 첫 추론 칩이 말해주는 AI 원가 전쟁
무슨 일이 있었나
OpenAI와 Broadcom이 Jalapeño라는 새 AI 칩을 공개했어요. OpenAI가 말하는 표현은 “LLM에 최적화된 추론 칩”입니다. 쉽게 말하면, ChatGPT나 Codex가 사용자의 질문을 받고 답을 만드는 순간을 처리하는 서버용 칩이에요. 모델을 처음 훈련시키는 칩이 아니라, 이미 만든 모델을 수많은 사용자에게 계속 돌리는 데 초점을 맞춘 칩입니다. 출처
Jalapeño는 ASIC(Application-Specific Integrated Circuit)입니다. 범용 GPU처럼 여러 일을 잘하는 칩이 아니라, 특정 목적에 맞춰 설계한 주문형 칩이라는 뜻이에요. The Verge는 이 칩이 ChatGPT와 Codex 같은 서비스의 요청 처리를 겨냥한다고 정리했어요. OpenAI는 이 칩을 “여러 세대에 걸친 컴퓨트 플랫폼의 첫 단계”라고 부르고, 2026년 말까지 데이터센터에 배치할 계획이라고 밝혔습니다. 출처

왜 지금인가
이 뉴스의 핵심은 “OpenAI도 칩 회사를 꿈꾼다”가 아니에요. 더 정확히는 AI 서비스의 병목이 모델 성능에서 운영 비용으로 이동하고 있다는 신호입니다.
ChatGPT처럼 사용자가 많은 제품은 훈련보다 추론 비용이 매일 쌓입니다. 사용자가 질문할 때마다 토큰이 생성되고, 그만큼 서버와 전력이 들어가잖아요. 그래서 OpenAI 입장에서는 Nvidia GPU를 더 많이 사는 것만으로는 부족해요. GPU 공급은 제한적이고, 데이터센터 전력도 빠듯합니다. Ars Technica는 OpenAI가 자체 칩을 통해 Nvidia 같은 외부 공급자 의존도를 낮추고, 모델·제품·하드웨어를 한 덩어리로 최적화하려 한다고 봤어요. 출처
이미 다른 빅테크도 같은 길을 가고 있어요. Google은 TPU, Amazon은 Trainium과 Inferentia, Microsoft와 Meta도 자체 AI 칩을 밀고 있죠. 다만 OpenAI는 클라우드 인프라 회사가 아니라 모델·제품 회사였다는 점이 다릅니다. 이제는 “좋은 모델을 만든다”에서 끝나지 않고, 그 모델을 싸고 안정적으로 돌릴 수 있는 회사가 이기는 게임으로 가고 있어요.
디테일: 9개월, 전력 효율, 그리고 아직 비어 있는 숫자
공개된 숫자 중 가장 눈에 띄는 건 개발 기간입니다. OpenAI와 Broadcom은 Jalapeño 설계와 생산 준비가 9개월 만에 이뤄졌다고 설명했어요. Broadcom은 OpenAI 연구진과의 논의, OpenAI의 향후 모델·제품 로드맵에서 얻은 정보를 바탕으로 처음부터 LLM 추론용으로 설계했다고 밝혔습니다. 출처
성능 수치는 아직 조심해서 봐야 해요. OpenAI는 초기 테스트에서 “현 최고 수준보다 와트당 성능이 상당히 좋다”고 말했지만, 구체적인 벤치마크나 비교 대상은 공개하지 않았습니다. The Decoder도 이 부분을 짚었어요. 어떤 모델, 어떤 배치 크기, 어떤 지연시간 조건에서 비교했는지 아직 모른다는 겁니다. 기술 보고서는 앞으로 나온다고 합니다. 출처
Broadcom 쪽 발언도 흥미로워요. The Verge는 Broadcom CEO Hock Tan이 Reuters 인터뷰에서 Jalapeño가 Nvidia Blackwell 및 Google TPU와 맞먹는 성능을 낸다고 말했다고 전했어요. 다만 이 역시 독립 검증된 공개 벤치마크는 아닙니다. 지금은 “가능성이 있다” 정도로 받아들이는 게 맞아요. 출처
The Decoder는 더 큰 배치 그림도 전했습니다. OpenAI는 칩 설계를 맡고, Broadcom은 반도체와 네트워킹 기술을 제공하며, Celestica가 보드·랙·시스템 통합을 맡는 구조로 설명돼요. 또 첫 배치가 Microsoft와 다른 파트너를 포함해 기가와트 규모로 계획됐고, Microsoft가 초기 물량의 40% 구매를 보장할 것으로 예상된다는 보도도 붙었습니다. 이 대목은 확정 발표라기보다 보도 기반의 전망으로 봐야 합니다. 출처
왜 중요한가
빌더 입장에서 이건 멀리 있는 반도체 뉴스처럼 보일 수 있어요. 하지만 실제로는 API 가격, 응답 속도, 사용량 제한으로 돌아올 가능성이 큽니다.
AI 앱의 원가는 대체로 세 가지에서 터집니다. 입력 토큰, 출력 토큰, 그리고 대기 시간이에요. 사용자가 많아질수록 “모델이 똑똑한가”보다 “이 요청을 얼마에 몇 초 안에 처리할 수 있나”가 중요해집니다. OpenAI가 추론 전용 칩을 직접 잡으려는 이유도 여기에 있어요. 같은 전력으로 더 많은 요청을 처리하면, 회사는 마진을 지키면서도 더 큰 모델이나 더 긴 컨텍스트를 제공할 여지가 생깁니다.
여기서 경쟁 구도도 바뀝니다. Nvidia는 여전히 AI 훈련과 추론의 중심이에요. 하지만 hyperscaler(대형 클라우드·플랫폼 회사)와 모델 회사들이 자체 칩을 갖추면, GPU는 유일한 길이 아니라 여러 선택지 중 하나가 됩니다. Broadcom 같은 맞춤형 칩 공급자는 이 흐름에서 더 중요해지고요. Ars Technica도 Broadcom이 AI 붐 속에서 대형 고객용 맞춤 칩 사업을 키우고 있다고 짚었습니다. 출처
정리하면 이렇습니다. 프론티어 모델 경쟁은 이제 논문과 데모만의 경쟁이 아니에요. 칩, 전력, 네트워크, 데이터센터, API 가격표까지 이어지는 수직 통합 경쟁입니다. 한국 스타트업이 칩을 만들 필요는 없어요. 하지만 제품 설계는 이 현실을 반영해야 합니다. 모델 호출이 곧 매출원가니까요.
다음 전개
앞으로 봐야 할 건 세 가지예요.
첫째, OpenAI가 공개할 기술 보고서입니다. 와트당 성능이 좋다는 말만으로는 부족해요. 어떤 모델에서, 어떤 지연시간 목표로, 어떤 토큰 처리량을 냈는지가 나와야 합니다.
둘째, 실제 배치 일정입니다. OpenAI는 2026년 말 데이터센터 배치를 말했지만, 대규모 칩은 생산·패키징·랙 통합·전력 확보가 모두 맞아야 해요. 한 단계만 밀려도 제품 가격이나 사용량 정책에 반영되는 시점은 늦어질 수 있습니다.
셋째, API 가격과 한도 변화입니다. Jalapeño가 성공하면 OpenAI는 특정 모델의 추론 비용을 낮추거나, 더 긴 작업을 더 싸게 제공할 수 있어요. 반대로 초기에는 내부 서비스 안정화에 먼저 쓰일 수도 있습니다. 그러니 당장 가격 인하를 기대하기보다는, 모델 공급자가 인프라까지 통제하는 시대가 온다는 쪽에 무게를 두는 게 좋겠습니다.
⚡ 빠른 소식
- Google DeepMind가 Gemini 3.5 Flash에 컴퓨터 사용 기능을 넣었어요 — 모델이 화면을 보고 클릭·입력 같은 작업을 수행하는 방향으로 확장됩니다. 출처
- OpenAI가 고급 AI 표준 작업 참여를 발표했어요 — Appia Foundation을 통해 평가 프레임워크와 안전 관행의 공통 기준을 만들겠다는 내용입니다. 출처
- OpenAI가 보안 제품군 Daybreak를 공개했어요 — Codex Security와 GPT-5.5-Cyber로 취약점 발견·검증·패치를 돕겠다는 방향입니다. 출처
- 기업들이 AI 예산 통제에 나서고 있어요 — 작은 업무에도 토큰 비용이 쌓이면서, 팀별 사용량 제한과 비용 관리가 중요해졌다는 보도입니다. 출처
- AI가 개발자 일자리를 줄인다는 통념과 다른 데이터가 나왔어요 — SignalFire 데이터에 따르면 엔지니어는 신규 채용에서 오히려 더 큰 비중을 차지하고 있습니다. 출처
- 카카오와 삼성 SSAFY가 AI 해커톤을 열었어요 — 사회문제 해결을 주제로 카카오테크 부트캠프와 삼성 청년 SW·AI 아카데미가 협업했습니다. 출처
❓ 자주 묻는 질문
OpenAI Jalapeño는 일반 사용자가 살 수 있는 칩인가요?
아니요. 현재 공개된 내용상 Jalapeño는 일반 판매용 PC 부품이 아니라 데이터센터용 AI 추론 칩입니다. OpenAI와 파트너들이 ChatGPT, Codex 같은 서비스를 대규모로 운영하기 위한 인프라에 배치하는 성격이에요.
Jalapeño가 나오면 OpenAI API 가격이 바로 내려가나요?
아직 확인된 가격 변화는 없습니다. OpenAI는 2026년 말 데이터센터 배치를 말했지만, API 가격 인하나 특정 모델의 한도 확대는 발표하지 않았어요. 기술 보고서와 실제 배치 이후 가격표를 봐야 합니다.
🇰🇷 그래서 지금 뭘 해야 하나
제품 기능별로 입력 토큰, 출력 토큰, 평균 응답 시간, 재시도율을 뽑아보세요. “GPT-5를 쓴다”가 아니라 “고객 상담 요약 1건에 얼마”로 봐야 합니다. Jalapeño 같은 추론 칩의 효과가 가격표에 반영될 때, 갈아탈 기능과 그대로 둘 기능을 바로 판단할 수 있어요.
- 이번 주에 모델별 원가 표를 다시 만드세요.
OpenAI, Gemini, Claude를 코드 곳곳에서 직접 부르지 마세요. 라우터를 하나 두고 모델명, 최대 토큰, 캐시 여부, 실패 시 대체 모델을 설정값으로 빼세요. 앞으로 특정 공급자의 추론 비용이 내려가면, 배포 없이 설정만 바꿔도 비용을 줄일 수 있어야 합니다.
- 모델 호출 계층을 분리하세요.
추론 전용 칩 경쟁은 결국 긴 작업의 단가를 낮추는 쪽으로 갈 가능성이 큽니다. 지금부터 분류, 검색, 초안, 검증을 분리해두면 좋아요. 나중에 저렴한 추론 모델이 나왔을 때 일부 단계만 바꿔도 원가가 내려갑니다.
- 긴 작업은 ‘고급 모델 1번’보다 ‘싼 모델 여러 단계’로 쪼개 보세요.
오늘의 한 줄: AI 제품의 승부는 모델 성능만이 아니라, 한 번의 답변을 얼마에 만들 수 있느냐로 옮겨가고 있다.
—
Korean AI Builder Brief · 매일 아침 한국 AI 빌더에게
관련해서 같이 읽을 글
Nvidia가 AI 데이터센터의 냉각수 사용을 거의 없앴다
Nvidia가 Rubin 데이터센터를 45°C 온수로 식히는 설계를 내놨어요.
Google DeepMind가 영화사 A24에 7,500만 달러를 투자했다
Google DeepMind가 영화사 A24에 7,500만 달러를 투자하고 AI 영화 제작 도구를 함께 만들어요.
미국이 Anthropic 최신 모델의 해외 사용을 막았다
미국 정부가 Anthropic의 최신 모델 두 개를 외국인이 쓰지 못하도록 막았어요.
매일 아침 이런 브리프를 받아보세요
한국 AI 빌더를 위한 일간 브리핑. 무료, 월~금 발행.