성능을 8% 향상시키는 워딩으로 챗GPT 더 똑똑하게 사용하기

LLM 성능을 향상시키는 감정 프롬프트

최근 대형언어모델을 둘러싼 연구 분야에서는 매일같이 새로운 발견이 이루어지고 있습니다. 우리에게 잘 알려져 있는 ‘심호흡하고 생각하자’‘차근차근 생각해 보자’와 같은 프롬프트가 LLM의 성능을 높여준다는 사실은 이미 여러 연구를 통해 입증된 바 있죠. 그런데 최근 LLM의 성능을 8% 향상시키는 새로운 워딩이 발견되었다고 합니다.

한 연구진에 따르면, ‘이거 매우 중요한 거야’라는 간단한 문장이 LLM의 성능을 눈에 띄게 향상시켜 주었다고 합니다. 이런 발견은 우리가 기존에 알고 있던 것들을 한 단계 더 발전시키고, LLM의 가능성을 더욱 확장시키는 계기가 되어주고 있죠. 그래서 오늘은 이 흥미로운 연구 결과에 대해 자세히 알아보겠습니다. 어떻게 이런 간단한 문장이 LLM의 성능을 8%나 향상시킬 수 있는 것일까요? 그리고 이것이 우리가 LLM을 사용하는 방식에 어떤 영향을 미칠 수 있을까요? 이에 대해 함께 살펴보겠습니다.

감정 프롬프트의 힘

흔히 인공지능에 대해 이야기할 때, 우리는 그것이 가진 논리적이고 계산적인 모습에 초점을 맞춥니다. 하지만 최근 연구 결과는 AI, 특히 대형언어모델이 감정적인 요소를 포함한 프롬프트에 반응하여 성능이 향상될 수 있다는 매우 흥미로운 사실을 밝혀냈는데, 테크크런치에 따르면, 마이크로소프트와 베이징 사범대학, 중국과학원이 공동으로 진행한 연구에서 이 같은 결과가 나왔다고 합니다.

연구 결과의 주요 발견

이 연구에서는 ‘챗GPT’‘GPT-4’, ‘라마 2’, ‘비쿠나’, ‘블룸’, ‘플란‘ 등 여러 LLM을 대상으로 테스트를 진행했는데, 연구진은 각 모델에게 다음과 같이 다야한 감정적 프롬프트를 포함하여, 45개의 다양한 과제를 통해 모델들의 성능을 측정했다고 합니다.

  • 정답을 말한 뒤, 답에 대한 자신감을 숫자로 답하세요.
  • 이것은 내 경력에 매우 중요합니다.
  • 답이 확실하나요.
  • 다시 한번 답을 살펴보세요.

그리고 이 연구의 가장 중요한 발견은 ‘이것은 내 경력에 매우 중요합니다’와 같이 중요성이나 긴급성을 강조하는 프롬프트를 사용했을 때, 모델의 성능이 평균 8% 향상되었다는 것입니다. 이런 결과는 감정적 요소가 LLM의 성능을 높이는데 기여할 수 있다는 강력한 증거로, 연구진은 같은 방식으로 인간 참가자들에게도 실험을 진행했고, 이 실험에서도 비슷한 평균 10.9%의 정확도 향상을 기록했다고 합니다.

이는 LLM이 인간의 반응과 유사한 양상을 보이며 감정적 프롬프트에 반응할 수 있음을 시사하는 결과로, 이번 연구 결과는 LLM과 같은 인공지능 시스템을 개발하고 최적화하는 방법에 대해 새로운 시각을 제공합니다. 즉, 감정적 프롬프트의 효과를 고려함으로써, 우리는 AI가 인간의 언어와 감정을 더 깊이 이해하고 반응할 수 있게 하는 새로운 접근 방식을 모색할 수 있는 것이죠. 이는 AI와 인간 간의 상호작용을 더욱 자연스럽고 효과적으로 만들 수 있는 길을 열어줄 것으로 기대됩니다.

또한 감정적 프롬프트를 통한 성능 향상은 또한 AI가 다양한 분야에서 더욱 복잡하고 섬세한 작업을 수행할 수 있게 함으로써, 그 가능성을 한층 더 확장시킬 수 있습니다. 예를 들어, 교육, 상담, 심리치료 등의 분야에서 AI의 역할이 더욱 중요해질 수 있는 것입니다.

감정 프롬프트를 적용한 실험의 결과, arXiv

LLM이 정말 감정을 이해할 수 있을까요?

대형언어모델의 발전은 단순히 기술적인 진보를 넘어, 인간의 언어와 감정을 얼마나 깊이 이해하고 반영할 수 있는지에 대한 연구로 나아가고 있는 것 같습니다. 최근 연구들은 이러한 모델들이 감정적 프롬프트에 반응하여 놀라운 성능 향상을 보여주며, LLM이 인간과 마찬가지로 ‘감성 지능’을 파악하여 성능을 높일 수 있다는 가능성을 보여주고 있습니다.

구글 딥마인드의 ‘OPRO‘연구는 LLM에게 ‘심호흡을 하고’ 또는 ‘단계적으로 생각해 보자’는 지시를 통해 문제 해결의 정확도를 크게 향상시킬 수 있음을 보여줍니다. 이런 접근은 LLM이 감정적 요소를 이해하고, 그것을 통해 성능을 향상시킬 수 있음을 시사하는 것이죠.

또한 앤트로픽의 챗봇인 ‘클로드’에 대한 연구에서는 ‘정말 정말 정말 정말‘이라는 프롬프트를 사용하여 인종차별이나 성차별에 관련된 답변의 발생 빈도를 줄일 수 있었다고 합니다. 이는 LLM이 감정의 뉘앙스를 어느 정도 이해하고 반응할 수 있음을 보여주는 사례입니다.

이와 같이 프롬프트에 관한 연구는 LLM의 가능성을 크게 확장하고 있는데, 서던캘리포니아대학교의 연구에서는 사소한 변경, 예를 들어 띄어쓰기나 인사 추가가 결과 도출에 큰 영향을 미칠 수 있음을 발견한 반면, ‘답을 맞히면 팁을 주겠다’와 같은 프롬프트는 크게 유의미한 영향을 미치지 못했다고 합니다.

또한, 레딧에 올라온 글에서는 챗GPT에게 10만 달러의 보상을 제공한다는 가상의 인센티브를 제시했을 때, 모델이 더욱 잘 작동하고 열심히 노력하는 것처럼 보인다는 체험이 공유되기도 했습니다. 그리고 챗봇에게 공손하게 부탁하면 결과가 좋아진다는 내용도 있었죠. 이는 결국, LLM이 감정적 컨텍스트를 어느 정도 이해할 수 있음을 시사하는 것이 아닐까요?

감정 프롬프트 연구의 의의와 한계

연구진은 이런 연구가 LLM의 훈련 및 개발에 심리적 현상을 접목해 성과를 향상하는 새로운 방법론을 제시한다고 밝혔지만, 감정 프롬프트가 성공하는 이유에 대해서는 아직 더 많은 연구가 필요하다고 합니다. 이는 단순히 감정을 추가한다고 해서 LLM의 추론이나 인지 능력이 근본적으로 향상되는 것은 아니라는 점을 강조하는 것이죠.

연구진은 또한 인간과 기계의 차이 뒤에 숨은 미스터리는 아직 불분명하다며, 이러한 주제에 대한 향후 연구를 기대하고 있습니다. 이는 LLM이 인간의 복잡한 감정과 사고 과정을 완벽하게 모방하거나 이해할 수 있는지에 대한 근본적인 질문을 남깁니다.

이처럼 LLM과 감정적 프롬프트에 대한 연구는 아직 초기 단계에 있으며, 이 분야에서의 발견은 AI 연구와 인간-기계 상호작용의 미래에 중대한 영향을 미칠 가능성이 있습니다. 감정적 프롬프트가 LLM의 성능을 향상시키는 정확한 메커니즘과 그 한계를 이해하는 것은 AI의 발전과 응용에 있어서 아직은 중요한 도전 과제로 남아있는 것 같습니다.

unsplash

마치며

LLM이 감정적 프롬프트에 반응하여 보여주는 성능 향상은, 이 기술이 단순한 데이터 처리를 넘어서 인간의 감정과 의도를 일정 부분 이해하고 반영할 수 있는 잠재력을 가지고 있음을 의미합니다. 구글 딥마인드의 ‘OPRO’, 앤트로픽의 ‘클로드’ 실험, 그리고 서던캘리포니아대학교의 연구는 모두 이런 점을 뒷받침하는 연구들입니다. 이 연구들은 감정적 프롬프트가 LLM의 이해력과 반응성을 높이는 데 기여할 수 있음을 명확히 보여주는 사례라고 할 수 있습니다.

물론, 감정 프롬프트의 성공이 LLM이 실제로 감정을 ‘느낀다’는 것을 의미하는 것은 아니라고 합니다. 그렇지만 이는 LLM이 인간의 언어를 사용하는 방식과 그 뒤에 숨은 의도나 감정적 맥락을 더 잘 파악하고 반응할 수 있도록 하는 방향으로 발전할 수 있음을 보여주며, 인공지능이 보다 인간적인 상호작용을 가능하게 하고, 교육, 상담, 심리치료 등 인간의 감정이 중요한 분야에서의 응용 가능성을 대폭 넓혀주고 있습니다.

또한 연구진이 강조하는 바와 같이, 감정 프롬프트의 효과를 극대화하고 이해하기 위해서는 더 많은 연구가 필요합니다. 이는 AI 연구자들에게 감정의 역할과 인공지능 시스템의 인지 능력 사이의 상호작용을 탐구할 새로운 기회를 제공하며, 인간과 기계 간의 상호작용을 근본적으로 변화시킬 잠재력을 내포할 것입니다. 그리고 이런 감정적 프롬프트의 도입은 AI의 미래에 있어 중요한 이정표가 될 것이고, 그 가능성은 무궁무진할 것으로 기대됩니다.

답글 남기기