[논문]대규모 언어 모델에서의 추론을 유도하는 사고의 연쇄(Chain-of-Thought) 프롬프팅

체인 오브 써트 프롬프팅은 복잡한 문제를 중간 단계로 분해하고 각 단계를 해결함으로써 문제의 최종 답변을 도출하는 사람의 생각 과정을 모방하는 기법이다. 이 연구에서는, 체인 오브 써트 프롬프팅이 언어 모델의 연산 능력을 향상시키며, 모델이 제공하는 답변의 행동을 해석하는 창을 제공한다는 것을 보여준다. 특히, 큰 언어 모델에서는 체인 오브 써트 프롬프팅이 성능을 크게 향상시키며, 일부 벤치마크에서는 최신 기술을 초월하는 성과를 달성한다.

Read More

생각의 뼈대(Skeleton-of-Thought): 새로운 프롬프트 엔지니어링 기법 탐색

생각의 뼈대(Skeleton-of-Thought, SoT)는 대화형 AI 응용 프로그램에서 질문에 대한 응답을 속도 높게 생성하기 위한 새로운 프롬프트 엔지니어링 방식입니다. SoT는 먼저 대답의 뼈대나 개요를 생성한 다음, 이 개요에 따라 자세한 내용을 병렬적으로 확장합니다. 이 방법은 특히 복잡하고 다양한 질문에 대한 응답을 구성할 때 시간을 절약할 수 있으며, 여러 테스트 케이스에서 효과적이라는 것이 연구에서 밝혀졌습니다.

Read More

[논문]Vicuna: GPT-4를 90%* ChatGPT 품질로 감동시키는 오픈소스 챗봇

Vicuna-13B는 사용자가 공유한 대화를 통해 LLaMA 모델을 미세조정하여 개발된 오픈 소스 챗봇입니다. 초기 평가에서는 GPT-4를 기준으로 Vicuna-13B가 OpenAI ChatGPT와 Google Bard의 품질의 90% 이상을 달성하며, 다른 모델들보다 90% 이상의 경우에서 더 나은 성능을 보였습니다. Vicuna의 훈련 비용은 대략 $300입니다.

Read More

LLMs의 기이한 세계에 대해 알아보기

Catching up on the weird world of LLMs 일요일에 North Bay Python에서 나는 ChatGPT, Google Bard, Llama 2와 같은 도구의 기반이 되는 기술인 거대 언어 모델(Large Language Models, LLMs)의 최근 몇 년 동안의 발전을 요약하려고 노력했습니다. 내 목표는 이 분야에 완전히 푹 빠져 있지 않은 사람들이 무슨 일이 일어나고 있는지 알 수 있도록 도와주는 것이었습니다….

Read More

[논문]EmotionPrompt: LLM의 성능 향상을 위한 감정적 프롬프트의 연구

연구자들은 대규모 언어 모델(LLM)의 성능 향상을 위해 감정적인 자극을 프롬프트에 포함시키는 EmotionPrompt 방식을 개발했습니다. 이 방식은 심리학에서 영감을 받아, 감정적 문장을 프롬프트에 추가하여 모델의 반응을 향상시켰습니다. 연구 결과, 네 가지 다른 LLM에서 여덟 가지 작업의 성능이 10% 이상 향상되었습니다. 이 연구는 인간-LLM 상호 작용을 향상시키기 위한 새로운 접근법을 제시하지만, 일반화와 효과성에 대한 추가 연구가 필요하다.

Read More

[논문]LLMs의 도구 창조 능력 강화: CREATOR 프레임워크

대규모 언어 모델(LLMs)의 도구 사용 능력은 현재의 API와 암시적 추론의 제한에 의해 제한됩니다. 이를 해결하기 위해 CREATOR라는 새로운 프레임워크가 제안되었으며, 이는 LLMs가 자체 도구를 창조하게 함으로써 성능을 향상시킵니다. CREATOR는 기존 벤치마크에서 뛰어난 성능을 보여주며, 새로운 데이터셋인 Creation Challenge를 통해 LLMs의 도구 창조 능력의 중요성을 강조합니다. 이 연구는 LLMs의 잠재력을 극대화하고 AI 시스템을 발전시키는 방향으로 나아가는 것을 보여줍니다.

Read More

ChatGPT 4의 사용자 지정 지침: 향상된 개인화와 상호작용의 미래

OpenAI의 ChatGPT 4는 사용자 지정 지침 기능을 통해 개인과 기업에게 특별하고 맞춤화된 결과를 제공합니다. 이 기능의 원리를 정확히 이해하고 적절한 팁을 활용함으로써 사용자는 AI와의 상호작용을 크게 개선할 수 있습니다. 이는 일상의 업무를 더 높은 정확도와 편의성으로 지원하는 데 큰 도움이 됩니다.

Read More

Transformer 아키텍처 및 Transformer 모델의 동작 원리

트랜스포머 아키텍처는 주로 어텐션 메커니즘을 활용하여 시퀀스 데이터를 처리합니다. 이 모델은 인코더와 디코더로 구성되어 있으며, 각각은 여러 개의 층으로 이루어져 있습니다. 어텐션 메커니즘을 통해 입력 시퀀스의 중요한 부분에 더 많은 집중을 하여, 문제에 따라 다양한 NLP 작업에 효과적으로 적용될 수 있습니다.

Read More