TGTGInsighttelegram intelligenceLIVE / telegram public index
← [삼성 문준호의 반도체를 전하다]
[삼성 문준호의 반도체를 전하다] avatar

TGINSIGHT POST

Post #597

@globaltechmoon

[삼성 문준호의 반도체를 전하다]

조회수1,030게시물 조회수
게시됨10월 23일2024. 10. 23. AM 01:08
내용

게시물 내용

앤스로픽, 모델 업데이트 및 신규 기능 공개 - 기대하던 맛은 아니지만.. 안녕하세요 삼성증권 글로벌 SW 담당 이영진입니다. 앤스로픽이 새로운 무언가를 발표한다는 이야기가 나올 때 사람들은 '오픈AI o1과 유사한 추론 모델' or '범용 모델 분야를 평정할 Claude 3.5 Opus 버전업' or 'AI 에이전트 분야의 획기적 기술' 등을 기대했습니다. 하지만 전일 발표한 내용은 신규 기능 Computer Use와 모델 업데이트였습니다. 우선 가장 주목 받은 Computer Use 기능은 실제 사람과 같은 컴퓨터 제어 기능을 구현해 화면 보기, 이동, 버튼 클릭, 마우스 움직임, 텍스트 입력 등을 가능하게 합니다. 인간이 명령을 내리면 화면을 스크린샷으로 분석해 적정한 업무를 수행할 위치를 픽셀로 도출하고 커서를 움직여 업무를 수행하는 구조입니다. 컴퓨팅 업무 자동화는 향후 데이터 분석, 비쥬얼라이제이션 등과 결합되어 큰 폭의 효율성 향상을 기대할 수 있는 분야입니다. 기초적 컴퓨터 업무 수행이 가능하다면 적용될 수 있는 분야는 무궁무진하지요 하지만 아직 베타 테스팅 단계로 스크롤링, 드래그, 줌과 같은 기본적 업무 수행에 어려움을 겪을 수도 있으며, 순간적 알림이나 동작을 놓칠 수 있다는 단점도 언급했습니다. OSWorld 벤치마크(AI 에이전트의 컴퓨터 사용 능력 평가 지표)에서 14.9%를 기록하며 기존 모델 7.7% 대비 우수한 모습을 보여줬지만 인간 수준(70~75%)에는 미치지 못하는 점이 상황을 단적으로 보여줍니다. 모델 측면에서 Claude 3.5 Sonnet은 (New)라는 이름이 추가되었는데요. 당연히 기존 3.5 Sonnet 보다 개선된 성능을 보여주며 범용 모델 부문에서 GPT-4o나 Gemini 모델을 넘어섰습니다. 코딩 분야에서는 괴물 같은 성능으로 SWE-Bench 49%를 달성해 SOTA 지위를 가져갔습니다(o1 preview와 코딩 특화 모델도 상회) Claude 3.5 Haiku(소형 모델)는 3 Opus와 유사한 성능을 더 저렴한 가격으로 제공한다는 점을 강조했습니다. 3 Haiku와 유사 비용 및 속도를 통해 접근성을 유지했습니다. 이달 말 공개 예정입니다(초기는 텍스트 모드만 지원) 앤스로픽의 발표는 AI 분야에서 하나의 진보인 것은 분명합니다. 하지만 아직 초기 연구 단계로 체감되는 효용 자체가 크지 않습니다. 추가적 개선을 기다릴 필요가 있습니다. 엄청나게 빠른 속도의 AI 산업 발전에 익숙해진 우리의 도파민을 채우기에는 약간은 아쉬운 맛이었습니다. 앤스로픽의 턴이 지나가고 구글과 xAI에 이목이 쏠리고 있습니다(아니면 오픈AI의 재반격..?) 추가 업데이트해 드리겠습니다. (2024/10/23 공표자료)