최근 게시물
1페이지 / 84페이지 · 1,007개 게시물
게시됨 22일 전
무라티의 Thinking Machines Lab 블로그에 글이 하나 올라왔는데, 어떤 기술을 만들고 있는지 꽤나 상세하게 서술하고 있다. 쉽게 이야기하면 AI를 실행할 때 마다 매번 결과가 조금씩 달라지는 현상을 고치려고 하며, 이는 원래는 'GPU가 동시에 많은 계산을 하다 보니 숫자 더하는 순서가 달라져서 그렇다'라고 설명되지만, 실제로는 서버 상황에 따라 묶이는 요청의 크기가 달라지고 그때마다 계산 방식이 달라지기 때문에 결과가 달라지는 것이라고…
게시됨 23일 전
나는 이 회사가 넥스트 테슬라일 가능성이 높다고 생각한다. 하사비스는 아직 구글에 가려서 제대로 주목을 받지 못하고 있다. 개인적으로 상장만 하면 가격 안따지고 사모을 회사 1순위. https://techcrunch.com/2025/03/31/alphabets-ai-drug-discovery-platform-isomorphic-labs-raises-600m-from-thrive/
게시됨 24일 전
Cash flow is transferring from hyperscalers to AI infrastructure 대한민국 만세 https://x.com/coatuemgmt/status/2053834958674751871/photo/1 https://drive.google.com/file/d/1Zp_KoGg0lIB2MpcB_labOI12dFc1Kfu4/view
게시됨 24일 전
오픈AI, Deployment Company 출범 : 기업들이 핵심 업무에 AI를 실제 운영 수준으로 구축·배포할 수 있도록 지원하는 별도 조직 ‘OpenAI Deployment Company’ 설립 : 오픈AI가 과반 지분과 경영권 보유. 연구·제품·배포 조직과 직접 연결된 구조 유지 : 초기 투자금 40억 달러 이상 확보. 추가 AI 배포 전문 기업 인수도 추진 예정 : 엔터프라이즈 AI 컨설팅·엔지니어링 기업 Tomoro 인수 합의. 약 150명의 FDE 및 배포 전문 인력 확보 : TPG, Bain Capital, Brookfield, SoftBank Corp, Goldman Sachs, McKinsey, Capgemini 등 투자사/컨설팅/SI 기업 참여 : 단순 모델/API 공급자를 넘어 ‘AI 기반 운영 전환 플랫폼’ 역할까지 확대하려는 움직임 https://openai.com/index/openai-launches-the-deployment-company/
게시됨 24일 전
지난 사이클은 GPU 였다면 지금 사이클은 메모리와 CPU가 메인
게시됨 24일 전
작년까지의 '답변 추론'과 올해부터 열린 '에이전트 추론'은 분명 구분할 필요가 있다. 컴퓨팅 스택의 우선순위들이 바뀌고 있기 때문이다. 즉, 에이전트 추론에서는 속도보다 기억, 상태, 문맥, 작업 이력, 데이터 접근성이 더욱 중요해지기 때문에 초고속 연산이 아니라 메모리 계층 구조를 얼마나 싸고 크게, 그리고 실용적으로 구성하느냐가 핵심이라는 이야기. "저는 이전 글인 'Agents Over Bubbles' 등을 통해 우리가 LLM 시대에서 세 가지 변곡점을 겪었다고 주장한 바 있습니다." - ChatGPT는 토큰 예측의 유용성을 증명했습니다. - o1은 더 많은 토큰이 더 나은 답변을 의미하는 추론(reasoning)의 개념을 도입했습니다. - Opus 4.5와 Claude Code는 추론 모델과 도구 사용, 작업 검증 등을 활용하는 구조(harness)의 결합을 통해, 실제로 작업을 수행할 수 있는 최초의 사용 가능한 에이전트를 선보였습니다. "이 모든 것은 '추론'이라는 범주에 속하지만, 단순한 답변을 제공하는 '답변 추론(answer inference)'과 실제 작업을 수행하는 '에이전트 추론(agentic inference)' 사이의 차이는 점점 더 명확해질 것이라 생각합니다. 세레브라스의 타겟 시장은 '답변 추론'입니다. 하지만 장기적으로 볼 때 '에이전트 추론'을 위한 아키텍처는 세레브라스의 방식뿐만 아니라 기존 GPU의 방식과도 크게 다를 것입니다." "앞서 코딩을 위한 빠른 추론이 일시적인 사용 사례라고 언급했습니다. 구체적으로, LLM을 활용한 코딩은 작업 루프에 인간이 개입해야 합니다. 코딩할 내용을 정의하고, 작업을 확인하고, 풀 리퀘스트를 커밋하는 주체는 인간입니다. 하지만 머지않아 이 모든 과정이 기계에 의해 완전히 처리되는 미래를 상상하는 것은 어렵지 않습니다. 이는 에이전트 작업 전반에 적용될 것입니다. 에이전트의 진정한 힘은 인간을 위해 일한다는 것이 아니라, 인간의 개입 없이 스스로 작업을 수행한다는 데 있을 것입니다." "이는 결국 에이전트 추론을 해결하기 위한 최선의 접근 방식이 답변 추론과 크게 다를 것임을 의미합니다. 답변 추론에서 가장 중요한 요소는 토큰 속도지만, 에이전트 추론에서 가장 중요한 요소는 메모리입니다. 에이전트는 컨텍스트, 상태, 그리고 기록을 필요로 합니다. 그중 일부는 활성 상태의 KV 캐시에, 일부는 호스트 메모리나 SSD에, 그리고 상당 부분은 데이터베이스, 로그, 임베딩, 객체 저장소에 저장될 것입니다. 중요한 점은 에이전트 추론이 단순한 질문에 답하는 GPU 연산보다 모델을 감싸고 있는 메모리 계층 구조(memory hierarchy)에 더 많이 의존하게 될 것이라는 사실입니다." "결정적으로, 에이전트 특화 메모리 계층 구조에 대한 이러한 패러다임은 용량을 확보하기 위해 속도를 필연적으로 희생해야 함을 암시합니다. 하지만 인간이 루프에 개입하지 않는다면 느린 속도는 생각보다 중요한 고려 사항이 아닙니다. 에이전트가 밤새 실행될 작업을 기다리고 있다면, 사용자 경험에 미치는 영향은 알지도 못하고 신경 쓰지도 않을 것입니다. 가장 중요한 것은 작업을 완수할 수 있는가 하는 점이며, 완전히 새로운 방식의 메모리를 통해 그것이 가능해진다면 약간의 지연은 문제가 되지 않습니다." "지연이 괜찮다면, 순수 컴퓨팅 성능과 고대역폭 메모리에만 집중하는 것은 상황에 맞지 않아 보입니다. 대기 시간(latency)이 최우선 순위가 아니라면, 기존의 DRAM과 같이 더 느리고 저렴한 메모리가 훨씬 더 합리적입니다. 전체 시스템이 대부분 메모리를 기다리는 상황이라면 칩 역시 최첨단으로 빠를 필요가 없습니다. 이는 미래 아키텍처의 근본적인 변화를 의미하지만, 그렇다고 현재 아키텍처가 사라진다는 뜻은 아닙니다." - 훈련은 계속해서 중요할 것이며, 고속 컴퓨팅, 대용량 고대역폭 메모리, 고속 네트워킹을 포함한 엔비디아의 현재 아키텍처는 앞으로도 시장을 지배할 가능성이 높습니다. - 답변 추론은 상대적으로 규모는 작겠지만 의미 있는 시장으로 남을 것이며, 세레브라스나 Groq 같은 칩의 속도는 매우 유용하게 쓰일 것입니다. - 에이전트 추론은 점진적으로 GPU의 기능을 해체(unbundle)할 것입니다. (프리필 과정 중) 고대역폭 메모리를 놀리거나 (디코드 과정 중) 컴퓨팅 자원을 방치하던 기존 GPU 방식에서 벗어나, 고용량 및 비교적 저비용 메모리 유형과 '적당히 쓸 만한' 컴퓨팅 성능으로 구성된 정교한 메모리 계층 구조로 전환될 것입니다. 실제로 도구 사용과 같은 작업에서는 GPU의 속도보다 CPU의 속도가 더 중요해질 것입니다. "이러한 범주들은 규모나 중요도 면에서 결코 동등하지 않을 것입니다. 구체적으로 말해 에이전트 추론 시장이 단연코 가장 큰 시장이 될 것입니다. 이 시장은 인간이나 시간에 얽매이지 않기 때문입니다. 오늘날의 에이전트는 기껏해야 화려한 수준의 답변 추론에 불과하지만, 미래의 진정한 에이전트 추론은 컴퓨터가 다른 컴퓨터가 내린 지시에 따라 수행하는 작업이 될 것이며, 시장의 규모는 인간이 아닌 연산 규모(compute)에 비례하여 확장될 것입니다." https://stratechery.com/2026/the-inference-shift/
게시됨 24일 전
메모리(6) : 업황 중간점검 및 목표가 현실화 https://m.blog.naver.com/cahier/224281852154
게시됨 25일 전
"대체 무슨 일이 일어나고 있는 걸까요? 한편엔 AGI가 있다는데, 다른 한편에선 이 중 어느 것도 제대로 작동하지 않고 이를 제대로 사용하는 기업도 없다니 말입니다. 도대체 무슨 일일까요?" "아주 간단합니다. 이러한 조직 내부에 존재하는 모든 맥락(context)들, 즉 인간이 일하는 방식과 우리 머릿속에 들어 있는 모든 지식과 맥락을 모델과 에이전트에게 전달하지 못한다면, 그들은 바보 같은 실수를 연발할 것이고 결국 무용지물이 될 것입니다. 그리고 그것이 바로 지금 일어나고 있는 일입니다. 모델이나 에이전트들은 조직 내에서 인간들이 가지고 있는 맥락을 가지고 있지 않습니다. 그래서 쓸모가 없는 겁니다. 그들은 우리가 아는 많은 것들을 모르기 때문에 멍청한 실수를 저지릅니다." "모든 회사에는 항상 "오, 그거 존(John)이나 제인(Jane)한테 가서 물어봐"라고 할 만한 직원이 한 명쯤 꼭 있습니다. 그 사람이 모든 걸 다 알고 있고, 모두가 그 사람에게 가서 의지하죠. 그 사람이 바로 회사에서 절대 잃어선 안 될 단 한 사람입니다. 그 사람을 잃으면 회사 전체가 무너질 정도죠." "그런 사람은 모든 회사의 모든 부서, 모든 조직에 존재합니다. 그리고 그 한 사람은 모든 맥락을 자신의 머릿속에 가지고 있습니다. 그런데 그 사람의 머릿속에 있는 것이 모델 안에는 없습니다. 그래서 모델이 작동하지 못하는 겁니다. 모델은 존이나 제인이 10년, 15년, 20년, 때로는 30년, 40년 동안 그 회사에 있으면서 축적한 많은 것들을 모릅니다. 여러분은 그 지식을 AI에 전송해야 합니다. 그렇지 않으면 설사 초인공지능을 손에 넣고 엄청나게 어려운 수학 문제를 풀 수 있게 된다 하더라도 아무런 소용이 없습니다. 만약 그 맥락을 AI에 넣을 수만 있다면 우리는 이미 AGI를 가지고 있는 셈이고, 그들은 이미 문제를 해결할 수 있습니다." "그래서 제가 여러분께 드리고 싶은 강한 권고는, 세상에 임팩트를 남기고 싶다면 어떻게 그 맥락을 AI에 집어넣을 수 있을지 고민하라는 것입니다. 조직 내부에서 구식의 비즈니스 방식을 어떻게 변화시킬지, 그리고 그 프로세스들을 어떻게 에이전트에게 이식할지 방법을 찾아내십시오. 우리는 이미 AGI를 가지고 있기 때문에 그렇게만 한다면 엄청난 임팩트를 낼 수 있을 것입니다. 그것이 바로 현재 상황에 대한 저의 답변입니다. AGI는 이미 여기에 있습니다. 뇌에 있는 지식을 실리콘(컴퓨터)으로 다운로드하고, 탄소(인간)가 실리콘과 대화하게 만들어야 합니다." https://www.youtube.com/watch?v=1-v5ODNx9fM
게시됨 29일 전
OpenAI가 새로운 네트워킹 프로토콜 MRC 공개. OpenAI 나름대로의 스케일아웃 네트워크를 구성한걸로 보인다. "프론티어 모델 학습은 GPU 간에 데이터를 빠르게 이동시킬 수 있는 안정적인 슈퍼컴퓨터 네트워크에 의존한다. 이를 더 빠르고 효율적으로 만들기 위해 OpenAI는 AMD, Broadcom, Intel, Microsoft, NVIDIA와 협력하여 MRC, 즉 Multipath Reliable Connection을 개발했다. MRC는 대규모 학습 클러스터에서 GPU 네트워킹 성능과 회복탄력성을 개선하는 새로운 프로토콜이다. 우리는 더 넓은 산업계가 이를 사용할 수 있도록 오늘 Open Compute Project, 즉 OCP를 통해 MRC를 공개했다." "MRC는 최신 800Gb/s 네트워크 인터페이스에 내장된 새로운 네트워크 프로토콜로, 단일 전송을 수백 개의 경로에 분산하고, 마이크로초 단위로 장애를 우회하며, 더 단순한 네트워크 제어 평면을 운영할 수 있게 해준다." "MRC는 하나의 전송을 하나의 경로에 할당하는 대신, MRC는 단일 전송의 패킷들을 가져와 우리의 네트워크 전반, 그리고 서로 다른 모든 평면에 걸친 수백 개의 경로로 분사한다. 패킷은 순서가 뒤바뀐 채 도착할 수 있지만, 모든 MRC 패킷에는 최종 메모리 주소가 포함되어 있기 때문에, 목적지는 패킷이 도착하는 대로 이를 메모리에 전달할 수 있다." -> "MRC는 궁극적으로 슈퍼컴퓨터를 확장할 때 세 가지 중요한 이점을 제공한다." "첫째, MRC는 단 두 계층의 이더넷 스위치만으로 10만 개 이상의 GPU를 갖춘 슈퍼컴퓨터용 다중 평면 고속 네트워크를 구축할 수 있게 해준다. 이는 동등한 세 계층 또는 네 계층 단일 평면 네트워크보다 적은 전력을 사용하면서도, 네트워크 장애를 견뎌낼 수 있는 충분한 중복성을 제공한다." "둘째, MRC의 적응형 패킷 스프레이는 부하를 충분히 잘 분산하여 네트워크 코어에서 사실상 혼잡이 발생하지 않게 한다. 이는 이상치 제거가 성능의 핵심인 동기식 학습에서 플로우 간 처리량 변동을 크게 줄인다. 또한 여러 작업이 클러스터를 공유할 때도 서로의 성능에 영향을 주지 않는다는 뜻이기도 하다." "마지막으로, MRC는 SRv6 소스 라우팅을 사용해 장애를 빠르게 우회하고, 작동 중인 경로로만 패킷을 보낸다. 이를 통해 우리는 단순한 정적 네트워크 제어 평면을 운영할 수 있고, 동적 라우팅 장애 동작의 전체 범주를 제거할 수 있다." https://openai.com/index/mrc-supercomputer-networking/
게시됨 29일 전
금융 섹터 내에서 앞으로 커질 분야를 알아보는게 박현주 회장의 특기라고 생각하는데, 그는 지금 토큰 증권에 꽂혔다. "(글로벌X 인수는 성공적인가) JP모건이랑 인수 경쟁이 붙었는데, 내가 급히 날아가서 창업자를 만나 경쟁자 가격 2배를 주겠다고 제안해서 인수에 성공했다. 투자 섹터별 ETF 투자가 대세가 될 것으로 봤기 때문에 글로벌X 인수가 꼭 필요했다. 인수 이후 운용자산이 10배 이상 불어날 정도로 효자 자회사가 됐다.” "(거래소 사업체를…
게시됨 29일 전
구글과 5GW에 해당하는 $200b 계약을 맺으며 부족한 컴퓨팅 파워를 채우고 있는 앤트로픽 https://www.theinformation.com/articles/anthropic-commits-spending-200-billion-googles-cloud-chips
게시됨 5월 2일
'전례없는 풍요로움의 시대가 찾아오고 있는데, 그렇다면 반대로 무엇이 희소해질까?' 지금 시점에 던져야할 중요한 질문 중 하나인데, 이 글은 한단계 더 들어가서 '위치적 희소성(Positional Scarcity)'에 대해 이야기한다. "어떤 특정한 것이 풍부하고 싸지면, 다른 특정한 것이 희소하고 가치 있게 됩니다." "다른 자산과의 관계 속에서 존재하고, 그 자산들의 상대적 풍요와 희소성이 변함에 따라 움직이는 또 다른 종류의 희소성이 있습니다. 이것들은 더 구체적입니다. 이것이 미시적 희소 자산입니다. 예를 들어, 인쇄기가 인쇄된 텍스트를 싸게 만들면, 손으로 쓴 텍스트가 더 가치 있게 됩니다." https://www.notboring.co/p/scarce-assets