오픈AI가 인간 지능을 뛰어넘는 초지능(Superintelligence)을 제어하기 위한 내부 초정렬(Superalignment) 팀의 첫번째 연구 결과를 발표했다. 인공일반지능(AGI) 제어에 대한 단서가 될 수도 있다는 설명이다.
테크크런치는 14일(현지시간) 오픈AI의 초정렬 팀이 덜 강력한 대형언어모델(LLM)로 더 강력한 LLM을 감독할 수 있는 기술을 발표하고, 이것이 인간이 초지능 시스템을 감독할 수 있는 방법을 알아내는 작은 단계일 수 있다고 설명한 내용을 보도했다.
이에 따르면 많은 전문가들은 기계가 인간의 지능을 능가하는 것은 커녕 과연 인간 수준의 지능을 가질 수 있는지조차 의문을 제기하지만, 오픈AI의 초정렬 팀은 기계의 궁극적인 우월성 획득을 당연한 것으로 받아들인다.
레오폴드 아센브레너 초정렬 팀 연구원은 "지난 몇년간 AI는 엄청난 속도로 발전했다"라며 "모든 벤치마크 기록을 깨뜨렸고, 그 추세는 줄어들지 않고 계속되고 있다"라고 지적했다. “우리는 우리보다 훨씬 더 똑똑한 초지능 모델을 갖게 될 것이다. 그리고 이는 근본적이고 새로운 기술적 과제를 제시한다”라고 전했다.
지난 7월 일리아 수츠케버 오픈AI 수석 과학자는 동료들과 이런 문제를 해결하기 위해 초정렬 팀을 구성했다. 수츠케버는 최근 샘 알트만 오픈AI CEO의 해고를 주도했다가 나중에 지원으로 돌아선 인물이다. 초정렬 팀 문제로 알트먼 CEO와 갈등을 일으켰던 것으로도 알려져 있다.
초정렬 팀의 목적은 인간보다 더 똑똑한 초인적 모델을 통제하거나 '정렬(Alignment)'하는 것이다. 정렬이란 인간이 원하는 작업을 AI가 수행하게 만들고, 원하지 않는 작업을 수행하지 않도록 하는 것을 의미한다. 초정렬은 이 아이디어를 초지능 모델에 적용하는 것이다.
기존 모델을 정렬하는 데 사용하는 가장 일반적인 기술은 '인간 피드백을 통한 강화학습(RLHF)'이다. 인간 테스터는 모델의 응답에 점수를 매겨 자신이 보고 싶은 행동에는 찬성 투표를 하고, 그렇지 않은 행동에는 반대 투표를 한다. 이 피드백은 인간 테스터가 좋아하는 종류의 응답만 생성하도록 모델을 훈련하는 데 사용된다. 이는 '챗GPT'를 매력적으로 만드는 데에도 사용된 기술이다.
여기에서 문제는 우선 인간이 무엇이 바람직한 행동이고 아닌지를 지시할 수 있어야 한다는 것이다. 그러나 초지능 모델은 인간이 이해할 수 없고 점수를 매길 수도 없는 일을 할 수도 있다. 심지어 인간에게 실제 행동을 숨기려고 할 수도 있다.
연구자들은 초지능 장치가 존재하지 않기 때문에, 이를 대체할 방식을 찾아냈다. 오픈AI가 5년 전에 출시한 모델인 'GPT-2'가 오픈AI의 가장 강력한 최신 모델인 'GPT-4'를 어떻게 감독할 수 있는지 살펴보는 방법이다. 마치 초등학생이 내놓은 답으로 대학생이 문제 풀이 방법을 배우는 것과 같다.
즉 GPT-2를 인간, 그보다 훨씬 뛰어난 GPT-4를 초지능 모델로 가정한 것이다. GPT-2의 눈에는 GPT-4가 초지능으로 보일 수 있다.
콜린 번스 초정렬 팀 연구원은 “만약 GPT-2가 GPT-4를 감독할 수 있다면, 유사한 방법으로 인간이 초지능 모델을 감독할 수 있다는 증거가 될 수 있다”라고 말했다.
즉 강력한 모델은 어느 정도 약한 모델의 의도를 따르게 할 수 있다는 말이다. 하지만 이로 인해 GPT-4가 너무 큰 성능 저하를 겪지 않도록 하는 것이 핵심이었다.
팀은 GPT-2로 22가지 일반적인 자연어 처리 테스트와 체스 퍼즐 등 몇가지 작업을 수행하도록 훈련했다. 그다음 GPT-2가 내놓은 응답을 사용, 동일한 작업을 수행하도록 GPT-4를 훈련했다.
결과는 엇갈렸다. 팀은 ▲GPT-2의 응답으로 훈련한 GPT-4와 ▲원래의 정답으로 훈련한 GPT-4 간의 성능 차이를 측정했다. GPT-2로 훈련된 GPT-4가 언어 작업에서는 GPT-2보다 20%~70% 더 나은 성능을 보였지만, 체스 퍼즐에서는 성능이 떨어지는 것으로 나타났다.
파벨 이즈마일로프 연구원은 “GPT-4가 선생(GPT-2)을 능가했다는 사실은 인상적”이라며 "이것은 정말 놀랍고 긍정적인 결과지만, 그 자체로 할 수 있는 것에 비해 많이 부족했다”라고 평했다. 즉 이 접근 방식이 유망하지만, 앞으로 더 많은 작업이 필요하다는 결론이다.
독일 슈투트가르트 대학교에서 정렬을 담당하는 틸로 하겐도르프 AI 연구원은 "흥미로운 아이디어지만, GPT-2가 좋은 교사가 되기에는 너무 멍청할 수도 있다고 생각한다. GPT-2는 약간 복잡하거나 추론이 필요한 작업에 무의미한 반응을 보이는 경향이 있다”라며 “대신 GPT-3를 사용하면 어떤 일이 일어날지 알고 싶다”라고 지적했다.
오픈AI는 이 분야 연구를 지원하기 위해 1000만달러(약 130억원)의 보조금 프로그램을 발표했다. 또 고급 AI 모델을 감독하기 위한 다른 접근 방식을 탐색하는 연구 프로젝트를 지원할 예정이다.
출처 : AI타임스(https://www.aitimes.com)