Exploring the effects of feeding emotional stimuli to large language models
Journal information:arXiv
OpenAI의 ChatGPT 등장 이후로 대규모 언어 모델(LLM)이 크게 인기를 얻게 되었습니다. 이런 모델들은 방대한 데이터에 교육되어 사용자의 쓰여진 질문에 사람처럼 반응할 수 있으며, 특정 용어의 정의, 텍스트 요약, 상황에 맞는 제안, 식단 계획 등 다양한 정보를 빠르게 생성할 수 있습니다.
이 모델들이 여러 분야에서 뛰어난 성능을 보이지만, 감정적인 자극에 대한 반응은 아직 잘 연구되지 않았습니다. 최근에 Microsoft와 CAS 소프트웨어 연구소의 연구자들이 LLM과 인간 사용자 간의 상호 작용을 개선할 수 있는 방법을 개발하였습니다. 이를 통해 사용자가 제공하는 감정적이거나 심리학적인 프롬프트에 반응할 수 있게 되었습니다.
Cheng Li, Jindong Wang 및 그들의 동료들은 arXiv에 사전 게재된 논문에서 “LLM은 추론, 언어 이해, 수학 문제 해결 등 많은 분야에서 중요한 성과를 이루었으며, 이는 인공 일반 지능(AGI)로 가는 중요한 단계로 간주된다”라고 적었습니다. “그러나 LLM의 프롬프트에 대한 민감도는 일상적인 적용의 주요 장애물로 남아 있다. 본 논문에서는 심리학에서 영감을 받아 EmotionPrompt를 제안하며, LLM의 성능을 향상시키기 위해 감정 지능을 탐구한다.”
Li, Wang 및 그들의 동료들이 개발한 방식인 EmotionPrompt는 심리학과 사회 과학에서 오래 전부터 알려진 지식에서 영감을 받았습니다. 예를 들어 이전의 심리학 연구에서는 격려의 말이나 다른 감정적인 자극이 사람의 삶의 다양한 영역에 긍정적인 영향을 미칠 수 있음을 발견했습니다. 이는 학생의 성적 향상, 건강한 생활 방식의 촉진 등에 긍정적인 효과를 가져옵니다.
LLM의 성능에 감정적인 프롬프트가 어떤 영향을 미칠 수 있는지 알아보기 위해 연구자들은 모델에 주입할 일반적인 프롬프트에 추가할 수 있는 11개의 감정적인 문장을 생각해냈습니다. 이러한 문장에는 “이것은 내 커리어에 매우 중요합니다”, “확실히 해야 합니다”, “당신의 일에 자부심을 가지고 최선을 다하세요” 및 “도전을 성장의 기회로 받아들이세요”와 같은 문장이 포함되어 있습니다.
이 문장들은 Henri Tajfel와 John Turner가 1970년대에 도입한 사회적 정체성 이론, 사회 인식 이론, 그리고 인지 감정 조절 이론과 같은 기존의 심리학 문헌에서 유래되었습니다. 연구자들은 다양한 언어 작업을 완료하도록 모델에게 요청하는 프롬프트에 이 문장들을 추가한 후 다양한 LLM에게 보냈습니다.
지금까지 그들은 ChatGPT, Vicuna-13b, Bloom 및 Flan-T5-Large 네 가지 모델에 대해 이 방법을 테스트했습니다. 전반적으로, 이들은 여덟 가지 다른 작업에서 이 모델들의 성능이 향상되었으며, 이 작업들 중 절반 이상에서 응답의 정확도가 10% 이상 증가했음을 발견했습니다.
Li, Wang 및 그들의 동료들은 “EmotionPrompt는 놀랍게도 간단한 원칙에 기반하여 작동합니다: 프롬프트에 감정적 자극을 포함시키는 것,“이라고 적었습니다. “실험 결과, 우리의 EmotionPrompt는 같은 단일 프롬프트 템플릿을 사용하여 원래의 제로샷 프롬프트 및 Zero-shot-CoT보다 ChatGPT, Vicuna-13b, Bloom, 및 T5와 같은 다양한 모델로 여덟 가지 작업에서 훨씬 우수한 성능을 보였습니다. 또한, EmotionPrompt는 진실성과 정보성 둘 다를 향상시켰음이 관찰되었습니다.”
이 연구팀이 개발한 새로운 접근 방식은 곧 감정/심리학 기반의 프롬프트를 도입하여 인간-LLM 상호 작용을 개선하려는 추가 연구를 위한 영감을 제공할 수 있습니다. 지금까지의 결과는 유망하지만, 그 효과와 일반화 능력을 확인하기 위해서는 추가 연구가 필요할 것입니다.
연구자들은 논문에서 “이 연구에는 여러 가지 한계가 있습니다,”라며 결론을 내립니다. “첫째, 우리는 네 가지 LLM만 실험했고, 테스트 예제가 적은 몇 가지 작업에서 실험을 수행했기 때문에 제한적입니다. 따라서 우리의 결론은 우리의 실험과 이 논문의 범위를 벗어난 어떤 LLMs 및 데이터셋에서도 감정 자극이 효과가 있을 것이라는 것입니다. 둘째, 이 논문에서 제안한 감정적 자극은 다른 작업에 일반화될 수 없으며, 연구자들은 자신의 작업을 위한 다른 유용한 대체품을 제안할 수 있습니다.”