작업자동화1 AI 모델의 장기 작업 수행 능력 측정: 기하급수적으로 발전하는 인공지능 인공지능 벤치마크에서 급속한 발전이 이루어지고 있지만, 이러한 벤치마크 성능이 실제 세계에서 어떤 의미를 갖는지는 아직 명확하지 않습니다. 우리는 매일 AI의 놀라운 발전을 목격하고 있지만, 그것이 인간의 능력과 비교해 어느 정도인지 직관적으로 이해하기 어렵습니다. 최근 METR의 연구자들이 AI 시스템의 능력을 인간의 능력과 비교하는 새로운 지표를 제안했는데, 바로 '50%-작업-완료 시간 지평선'입니다. 이는 AI 모델이 50% 성공률로 완료할 수 있는 작업에 대해 인간 전문가가 소요하는 시간을 의미합니다.AI의 시간 지평선: 7개월마다 2배씩 늘어나는 능력연구자들은 RE-Bench, HCAST 및 66개의 새로운 짧은 작업들을 결합하여 인간 전문가의 작업 완료 시간을 측정했습니다. 이 작업들에서 클.. 2025. 4. 1. 이전 1 다음