본문 바로가기
카테고리 없음

AI 모델의 장기 작업 수행 능력 측정: 기하급수적으로 발전하는 인공지능

by SidePlay 2025. 4. 1.
#AI능력측정 #시간지평선 #AI발전추세 #기계학습 #소프트웨어자동화 #AI예측 #작업자동화 #인공지능성능 #AI벤치마크 #프론티어A
AI 모델의 장기 작업 수행 능력 측정: 기하급수적으로 발전하는 인공지능

인공지능 벤치마크에서 급속한 발전이 이루어지고 있지만, 이러한 벤치마크 성능이 실제 세계에서 어떤 의미를 갖는지는 아직 명확하지 않습니다. 우리는 매일 AI의 놀라운 발전을 목격하고 있지만, 그것이 인간의 능력과 비교해 어느 정도인지 직관적으로 이해하기 어렵습니다. 최근 METR의 연구자들이 AI 시스템의 능력을 인간의 능력과 비교하는 새로운 지표를 제안했는데, 바로 '50%-작업-완료 시간 지평선'입니다. 이는 AI 모델이 50% 성공률로 완료할 수 있는 작업에 대해 인간 전문가가 소요하는 시간을 의미합니다.

AI의 시간 지평선: 7개월마다 2배씩 늘어나는 능력

연구자들은 RE-Bench, HCAST 및 66개의 새로운 짧은 작업들을 결합하여 인간 전문가의 작업 완료 시간을 측정했습니다. 이 작업들에서 클로드 3.7 소넷(Claude 3.7 Sonnet)과 같은 최신 프론티어 AI 모델은 약 59분 길이의 작업을 50% 성공률로 완료할 수 있었습니다. 이와 대비해서 애플리케이션 개발이나 데이터 분석과 같은 1시간 분량의 작업을 생각해보세요. 최신 AI는 이런 작업을 절반 정도의 확률로 성공적으로 완료할 수 있다는 의미입니다.

 

더욱 놀라운 점은 이러한 AI의 시간 지평선이 2019년부터 현재까지 약 7개월마다 2배씩 늘어났다는 점입니다. 2019년에 GPT-2는 고작 2초 정도의 작업만 50% 확률로 수행할 수 있었으나 불과 6년 만에 AI는 1시간에 가까운 복잡한 작업을 처리할 수 있게 된 것이란 이야기입니다. 그리고 이러한 추세는 지속해서 더욱 가속화될 것이라는 징후도 나타나고 있습니다.

"AI 능력의 발전 속도는 무어의 법칙을 능가하고 있습니다. 7개월마다 작업 복잡성이 2배로 증가한다는 것은 전례없는 기술적 진보입니다." 

AI 발전의 핵심 동인

이러한 AI 모델의 능력 향상은 주로 세 가지 요인에 의해 주도되고 있습니다:

  1. 향상된 신뢰성과 실수 적응 능력: 최신 모델들은 오류를 만났을 때 같은 실수를 반복하지 않고 대안적 접근법을 시도합니다.
  2. 논리적 추론 능력의 개선: 코드 생성과 문제 해결에서의 정확성이 크게 향상되었습니다.
  3. 도구 사용 능력의 향상: 모델들은 다양한 도구를 효과적으로 사용하고 환경과 상호작용하는 능력이 발전했습니다.

그러나 이러한 발전에도 불구하고 여전히 구조화되지 않은 "지저분한" 작업에서는 성능이 낮다는 한계가 있었습니다. 실제 현업에서 마주치는 모호하고 복잡한 문제들을 처리하는 데는 아직 개선의 여지가 남아있다는 점이죠. 

연구 방법론: 다양한 작업을 통한 AI 능력 측정

연구팀은 AI 모델이 얼마나 복잡한 작업을 수행할 수 있는지 측정하기 위해 다양한 난이도의 작업 세트를 구성했습니다. 이 작업들은 세 가지 주요 그룹으로 나뉩니다:

단순 작업 (SWAA)

가장 단순한 작업은 몇 초 안에 완료할 수 있는 파일 선택이나 코드 조각 완성과 같은 것이었습니다. 예를 들어:

  • "어떤 파일에 비밀번호가 포함되어 있을 가능성이 가장 큰가요?"
  • "주어진 함수의 누락된 부분을 완성하세요."

중간 난이도 작업 (HCAST)

중간 난이도 작업으로는 위키피디아에서 정보를 검색하거나 분자 역학 시뮬레이션 입력 파일의 버그를 수정하는 것이 포함되었습니다. 이러한 작업은 수 분에서 몇 시간이 소요됩니다:

  • "oxDNA 패키지를 사용하는 분자 역학 시뮬레이션 입력 파일의 버그 감지 및 수정"
  • "한 형식에서 다른 형식으로 JSON 데이터를 변환하는 Python 스크립트 작성"

고난도 작업 (RE-Bench)

가장 복잡한 작업으로는 CUDA 커널을 구현하여 Python 백테스팅 도구의 속도를 30배 향상시키는 것과 같은 8시간짜리 작업이 포함되었습니다:

  • "모든 기능을 유지하면서 맞춤 CUDA 커널을 구현하여 Python 백테스팅 도구 속도 30배 향상시키기"
  • "머신러닝 모델 훈련을 위한 최적화 작업"

연구팀은 세계 상위 100개 대학 출신의 숙련된 소프트웨어 엔지니어, 기계 학습 및 사이버 보안 전문가에게 각 작업을 완료하는 데 걸리는 시간을 측정하도록 했습니다. (평균적으로 이들은 약 5년 정도의 유관 경력을 가지고 있었습니다.) 동시에 GPT-2부터 클로드 3.7 소넷까지 13개의 프론티어 모델에 대해 같은 작업을 평가했습니다. 이를 통해 각 모델이 50% 성공률로 완료할 수 있는 작업의 시간 지평선을 계산한 결과입니다. 

작업 세트 난이도 작업 시간 작업 예시
SWAA 낮음 1초 - 30초 파일 선택, 코드 완성
HCAST 중간 1분 - 30시간 버그 수정, 데이터 변환
RE-Bench 높음 8시간 ML 연구 엔지니어링 작업

외부 유효성 검사: 실제 세계에서의 적용 가능성

연구팀은 결과의 외부 유효성을 검증하기 위해 세 가지 보완 실험을 수행했습니다:

1. SWE-bench Verified 적용

이 방법론을 산업 표준 벤치마크에 적용하여 유사한 기하급수적 추세를 발견했습니다. SWE-bench Verified는 자동으로 검증 가능한 실제 GitHub 이슈들로 구성된 벤치마크입니다.

2. "지저분함" 요소 분석

HCAST와 RE-Bench 작업을 16개의 "지저분함" 요소로 평가했습니다. 이 요소들은 실제 업무 환경에서 발생하는 요소들을 포함합니다:

  • 자원 제한 여부
  • 새로운 상황 처리
  • 동적 환경에서의 작업
  • 실제 상황에서 얻은 작업인지 여부

작업 길이를 통제할 때, 모델들은 "지저분함" 점수가 높은 작업에서 성능이 더 낮았습니다. 그러나 시간에 따른 AI 에이전트 성능 향상 추세는 "지저분함"이 낮은 작업과 높은 작업 모두에서 유사했습니다.

3. 내부 PR 실험

실제 METR 리포지토리에서 미해결 이슈 5개에 대한 AI 에이전트 성능을 측정했습니다. 연구팀은 계약 기반의 인간 기준자들이 리포지토리 관리자보다 작업을 완료하는 데 5-18배 더 많은 시간이 소요된다는 것을 발견했습니다. 또한 AI 에이전트 성능은 관리자 완료 시간보다는 계약 기반 완료 시간과 더 일관되었습니다. 이는 AI의 시간 지평선이 고맥락 인간보다는 저맥락 인간의 노동과 더 잘 대응할 수 있음을 시사합니다.

미래 전망: 곧 다가올 1개월 지평선 AI

이 추세가 계속된다면, AI는 2028년 말에서 2031년 초 사이에 1개월 이상의 시간 지평선(167 근무 시간)에 도달할 것으로 예측됩니다. 이는 AI가 현재 인간이 한 달이 걸리는 소프트웨어 작업을 자동화할 수 있게 되는 것을 의미하는 것이고요. 

미래 성장률에 영향을 미칠 요인들

연구팀은 세 가지 요인이 시간 지평선 성장률에 영향을 미칠 것으로 분석했습니다:

  1. 에이전시 훈련: 모델을 더 에이전트적으로 만들기 위한 후속 훈련은 성장률을 증가시킬 수 있습니다. 후속 훈련이 사전 훈련보다 지평선 길이 증가에 더 컴퓨팅 효율적일 수 있기 때문입니다.
  2. 컴퓨팅 스케일링: GPT-2와 현재 사이에 훈련에 사용된 컴퓨팅은 최소 10,000배 증가했습니다. 향후 5년 내에 훈련이나 추론 컴퓨팅을 더 많은 크기로 확장할 수 있는 용량이 있는지는 불분명합니다. 그러나 알고리즘 개선은 컴퓨팅 한계를 보완할 수 있습니다.
  3. AI R&D 자동화: 미래 AI 시스템이 인간 연구 엔지니어를 대체하거나 훈련의 컴퓨팅 효율성을 높일 수 있다면, AI 발전 속도가 증가할 것입니다. 프론티어 AI 시간 지평선이 수십 시간에 도달하면 상당한 R&D 자동화가 이루어질 것으로 예상됩니다.

결론 및 시사점

이 연구는 AI 능력의 진화를 정량화하는 새로운 방법을 제시하며, AI 시스템이 기하급수적인 속도로 더 복잡한 작업을 수행할 수 있게 되고 있음을 보여줍니다. 현재 추세가 계속된다면, 5년 이내에 AI 시스템이 현재 인간이 한 달 걸리는 많은 소프트웨어 작업을 자동화할 수 있게 될 것입니다.

 

이러한 발전은 기업과 사회에 큰 영향을 미칠 것입니다. 소프트웨어 개발과 연구 분야에서 AI가 인간 노동의 상당 부분을 대체하게 될 것이며, 이는 생산성 향상과 함께 노동 시장의 변화를 가져올 것입니다. 또한 AI 시스템의 자율성이 증가함에 따라 안전 가드레일의 중요성이 더욱 커질 것입니다. 연구자들은 이 연구가 AI 능력을 예측하고 준비하는 데 도움이 되기를 바라면서 글을 마무리했습니다. 그러나 세상에 완벽한 연구란 것은 없기에 실험 예측의 한계와 이러한 결과가 실제 세계 작업에 얼마나 일반화될 수 있는지에 대한 불확실성 역시 인정하고 있습니다만, "언젠가 곧"이란 예상은 어렵지 않게 할 수 있을 것 같네요.

출처: "Measuring AI Ability to Complete Long Tasks" - Thomas Kwa,et al. (2025)