[Paper Review] GPT가 못 푸는 문제, “카멜레온”은 풀 수 있다?!

텐투플레이가 업계의 흥미로운 최신 논문을 소개해드립니다. 이번에는 GPT나 사람도 해결하기 힘든 더욱 복잡한 실생활 질문에도 답할 수 있다고 주장하고 있는 Chameleon LLM(Large Language Model, 대규모 언어 모델)에 대해 알아봅니다.

Paper Review: 텐투플레이가 AI/게임/IT 관련 산업 분야의 흥미로운 최신 논문을 소개해드립니다. 이번에는 특정 작업에서 기존의 LLM은 물론이고 사람을 능가하는 성능을 보여준 새로운 언어 모델, 카멜레온 LLM에 대해 알아봅니다.

카멜레온에 대해 알아보기 전에…

카멜레온LLM이 무엇이며 어떤 능력이 있는지 알아보기 전에, 우선 왼쪽에 문제를 하나 보여드리겠습니다. “Earthzy 종이접시는 Sirra Club의 인증마크를 받았습니다”라는 문구가 적힌 광고 이미지와 함께, 이 광고에 사용된 설득법이 무엇인지 묻고 있습니다. 보기의 (A)감성(Pathos), (B)인성(Ethos), (C)이성(Logos) 중에 골라야 하는데, 단번에 답을 고를 수 있는 문제는 아닌 것 같습니다. 광고 이미지도 해석해야 하고 Pathos·Ethos·Logos가 뭔지도 알아봐야 하고, 이 정보들을 종합해 어떤 답이 적합할지 고민도 해야 하기 때문입니다.

다양한 툴을 활용하는 카멜레온LLM

이런 복잡한 문제를 인간처럼 (혹은 인간보다 더 잘) 해결할 수 있는 LLM이 등장했습니다. 지난 4월 UCLA와 마이크로소프트 연구진이 개발한 “카멜레온 LLM”이라고 하는 플러그앤플레이 구성의 추론 프레임워크인데요. 기존 LLM은 최신정보에 대한 접근이나 세밀한 수학적 추론이 불가능해 복잡한 실생활 쿼리(질문)을 수행하는 데 한계가 있었습니다. 이를 보완하고자 카멜레온LLM은 GPT-4, HuggingFace, GitHub, Python, 마이크로소프트 검색엔진 Bing과 같이 다양한 툴을 자동으로 활용해 쿼리를 수행합니다.
_{※ LLM : Large Language Model, 거대 언어 모델로 대규모의 텍스트 데이터를 기반으로 학습할 수 있는 인공지능 툴. OpenAI의 GPT 시리즈와 구글의 Bert 등이 있다.}

다시 종이접시 광고 문제로 돌아가 보겠습니다. 이 문제는 카멜레온LLM 논문에 소개된 사례들 중 하나로, 카멜레온이 이 문제를 어떻게 해결하는지 한번 살펴보시죠. 카멜레온은 GitHub의 Text Detector로 광고 속 텍스트를 감지하고, GPT-4를 통해 질문과 보기의 정보를 파악해 솔루션을 생성합니다. “Sierra Club의 신뢰도와 명성에 기대어 어필하고 있기 때문에, 인성(Ethos)의 사례로 볼 수 있다”고 말입니다. 복잡한 맥락 속에서 정답을 도출해내는 능력, 놀랍지 않으신가요?

이미지 해석 툴(HuggingFace) 활용한 쿼리 수행

논문 속 또 다른 예시에서는 이미지를 해석하는 HuggingFace 툴도 활용합니다. 사진과 함께 질문을 던지면 카멜레온은 HuggingFace를 활용해 “북극곰이 눈밭에 서 있다”고 이미지를 해석합니다. GPT-4로 “추운 환경에 적합한 동물의 피부”라는 질문을 뽑아내고 검색엔진 Bing으로는 서치도 해 봅니다. GPT-4가 다시 이 정보들을 바탕으로 문제의 맥락을 파악해 솔루션을 도출해 냅니다. 문맥 속에서 가장 그럴 듯한 답은 더 추운 지역에 서식하는 “(A)유라시안스라소니”라고 말이죠.

표 해석과 수학적 추론도 가능

다양한 툴을 활용할 수 있으니, 표를 해석하는 쿼리도 카멜레온에겐 문제 없습니다. 완다가 매일 하이킹한 거리(마일)를 표로 제시하며, 중간값(median)을 찾으라는 질문입니다. 카멜레온은 GPT-4를 활용해 지식을 검색하고 (중간값이란 무엇인가?) 표를 언어로 해석해봅니다(표에 어떤 내용이 들어있나?). 얻어낸 정보를 바탕으로 표의 값을 단순화하고 파이선 코드로 계산해, 카멜레온은 9를 정답으로 도출해냈습니다.

인간보다 정확한 카멜레온LLM

카멜레온 연구자들은 다양한 추론능력을 요구하는 복잡한 쿼리도 카멜레온 하나로 수행해낼 수 있기에 유연성과 효율성 측면에서 다른 LLM과 구별된다고 주장합니다. 과학적 질의응답(ScienceQA)과 표 형태의 수학 문제 해결(TabMWP) 두 가지 태스크를 통해 이 부분을 증명했는데요. GPT-4를 활용한 카멜레온은 ScienceQA와 TabMWP 태스크 모두에서 다른 모델들보다 나은 결과를 보여줬고, 특히 TabMWP 태스크에서는 사람(점선으로 표시)보다 8.56%p 더 나은 성적을 보이기도 했다고 논문은 주장하고 있습니다.

‍

카멜레온의 능력은 어디까지?

카멜레온LLM은 현재 연구와 비상업적인 목적으로만 활용 가능하지만, 이미 많은 이들이 관심을 가지고 지켜보고 있는 기술입니다. 복잡한 쿼리를 수행할 수 있는 LLM을 직접 개발하려면 시간과 비용이 만만치 않을 텐데, 플러그 앤 플레이 방식으로 바로 사용할 수 있는 LLM이 등장했으니 산업계에서도 환영할만한 이슈라고 생각합니다. 향후 LLM과 같은 여러 가지 툴이 발전을 거듭할수록 카멜레온도 훨씬 더 복잡하고 다양한 과제를 수행할 수 있겠죠. 이러한 잠재력을 생각한다면, 앞으로 구독자 여러분도 두 눈 크게 뜨고 지켜봐야 할 기술이 아닐까 합니다.

텐투플레이도 LLM 모델을 제품에 접목하기 위한 연구를 꾸준히 진행하고 있습니다. 게임 유저 개인화 분석 툴 텐투플레이는, LLM을 비롯한 AI기술 연구를 통해 다양한 행동 패턴의 유저들을 발견하여 맞춤형 이벤트를 진행하는데 활용할 수 있도록 노력하고 있습니다. AI기술의 발전과 함께 여러분의 게임에 더욱 깊은 인사이트를 제공할 텐투플레이의 행보를 지켜봐주세요!

_<Reference>
_{Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao, "Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models", arXiv preprint arXiv:2304.09842(2023).}

‍