*Large Language Models as Tax Attorneys: This AI Paper Explores LLM Capabilities in Applying Tax Law
인공지능(AI) 분야에서는 지속적인 발전이 이루어지고 있고, 특히 거대 언어 모델(Large Language Models, LLMs) 분야에서 빠른 진전이 일어나고 있습니다. 최신 LLMs는 도구를 활용하고, 계획을 수립하며, 표준화된 평가를 통과할 수 있는 능력을 보입니다.
그러나, LLMs를 개발한 연구자들조차도, 이 모델들이 어떻게 내부적으로 ‘생각’하는지에 대해선 잘 알지 못하며, 새로운 상황에서 LLMs가 어떤 반응을 보일지 예측하는 것은 매우 어렵습니다.
LLMs를 연구 환경을 벗어나 실제 환경에 적용하기 전에는, 일련의 벤치마크 테스트를 통해 LLMs의 성능을 평가하는 것이 바람직한 행동 방식입니다. 하지만 이 벤치마크들은 종종 실제 세계의 중요한 활동을 반영하거나, LLM이 학습 과정에서 ‘기억’할 수 있는 정보를 담고 있어야 합니다. 이러한 성능 평가를 위해 필요한 데이터는 대개 LLM 학습에 사용되는 데이터셋에 포함되어 있고, 이 데이터셋들은 주로 인터넷에서 다운로드 받게 됩니다.
LLMs와 같은 인공지능의 학습 데이터셋과 성능 평가 데이터셋에 중복이 있는 경우, 인공지능이 데이터를 단순히 ‘인식’하는 것인데도, 마치 ‘이해’하고 있는 것처럼 보일 수 있습니다. 예를 들어, 어떤 법률적 문장을 학습 과정에서 본 적이 있는 AI는 그것을 ‘인식’할 수 있지만, 실제로 그것이 무슨 뜻인지 ‘이해’하고 있는 것은 아닙니다.
그래서, 연구자들은 LLMs의 법률 분석 능력에 특히 집중합니다. 첫번째 이유는, LLMs가 법률을 얼마나 잘 이해하는지 파악하는 것이 AI의 일반적인 규제에 도움이 되기 때문입니다. 예를 들어, ‘법에 기반한 AI’ 전략은 AI에게 법의 정신을 가르쳐, AI가 알 수 없는 새로운 상황에서도 적절한 판단을 내릴 수 있게 하려는 것입니다.
두번째 이유는, LLMs가 법률 서비스를 더 빠르고 효과적으로 제공하는 도구로 활용될 수 있기 때문입니다. 예를 들어, LLMs가 법률을 잘 이해한다면, 사건 예측에서 계약 분석까지 다양한 법률 활동을 돕는데 활용될 수 있습니다. 이렇게 되면, 법률에 대한 이해가 어려운 일반 사람들도 비용과 복잡성을 줄이면서 법률 서비스를 이용할 수 있게 됩니다.
법률 업무의 민감성을 고려할 때, 이러한 모델들이 구현될 때 특정 보호 조치가 도입되어야 합니다. 이는 데이터 개인 정보 보호를 강화하고, 편향을 줄이며, 이 모델들의 선택에 대한 책임을 지키고, 특정 사용 사례에 대한 LLMs의 적용 가능성을 평가하는 것을 포함합니다. 따라서 체계적인 평가가 필요합니다.
세 번째 이유로는, LLMs가 충분한 법률 지식을 갖추고 있다면, 정부, 사람들, 그리고 학자들이 법률적 모순을 발견하는 데 활용할 수 있습니다. LLMs는 정부의 전반적인 효율성과 투명성을 향상시킬 수 있습니다. 예를 들어, LLMs는 복잡한 규칙과 규정을 명확하고 이해하기 쉽게 설명할 수 있는 능력을 종종 보여줍니다.
미래에는 LLMs가 새로운 법률이나 정책의 예상 가능한 효과를 예측할 수 있게 될 것입니다. LLMs는 대량의 법률 언어와 그에 따른 시행 사항을 스캔함으로써, 다른 비슷한 사례에서 입법부나 규제 기관이 지침을 제공하는 상황에서 법이 고려하지 않는 상황이나 “구시대적”인 법률을 식별할 수 있을 수 있습니다.
이 연구에서는 스탠포드 대학교, 미시간 대학교, 워싱턴 대학교, 남부 캘리포니아 대학교, 북서부 프리츠커 법학교, 그리고 SimPPL의 연구자들이 미국 코드(연방 법률 모음)와 미국 연방 규정 코드(CFR)의 텍스트를 사용하여 LLMs의 검색-증가 생성을 조사했습니다. 그들은 일련의 LLMs의 세법 이해도를 평가했습니다. 그들은 네 가지 요소를 고려하여 세법을 선택했습니다.
세법의 법적 권한은 대부분 두 가지 출처, 즉 미국 연방 규정(CFR) 하의 재무 규정과 미국 법률 제26편(일반적으로 내부 수입법이라고 알려져 있음)에 포함되어 있습니다. 이는 여러 판례에서 정제된 여러 법률 영역과는 대조적입니다. 이를 통해 우리는 아마도 관련성 있는 문서들의 미리 정의된 세계를 사용하여 LLM의 검색을 보충할 수 있습니다.
두 번째로, 많은 세법이 질문에 대한 결정적인 답변을 허용합니다. 이를 통해 우리는 일관성 있는 자동 검증 워크플로우를 설정할 수 있습니다.
세 번째로, 특정 사례에 대한 세법 질문에 답하는 것은 일반적으로 관련 법적 권한을 읽는 것 이상을 필요로 합니다. 따라서, 실세계의 실무에 적용되는 방식으로 LLM의 역량을 평가할 수 있습니다.
네 번째로, 세법은 거의 모든 시민과 회사의 일상적인 경제 활동에 상당한 영향을 미칩니다. LLM만의 사용, LLM과 기본 법률 텍스트의 통합, 그리고 다양한 검색 기법의 사용(다른 검색 방법들 간의 비교 포함) 등 여러 실험적인 설정을 활용하여, 우리는 수천 개의 세법 문의에 대한 LLMs가 제공하는 답변의 정확성을 평가합니다.
우리는 가장 작고 약한 모델부터 최대의 현대 모델인 OpenAI의 GPT-4에 이르는 다양한 LLMs에 대해 이러한 테스트를 진행합니다. 우리가 조사한 각 LLM은 처음으로 사용 가능해졌을 때에는 최첨단 기술이었습니다.
그들은 점점 더 큰 모델들을 분석함으로써 각 모델 릴리즈를 통해 향상된 LLMs의 법률 이해 능력을 발전시키는 증거를 발견합니다. 기술이 계속 빠르게 성장한다면, 그들은 곧 초인적인 AI 법률 능력의 발전을 목격할 수 있을 것입니다.
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence
Check out the Paper.
요약
대규모 언어 모델(LLMs)의 법률 분석 능력에 대한 더 나은 이해는 법률 서비스의 효율성을 향상시키고, 인공지능을 통제하고, LLMs를 활용해 법률에서의 모순을 식별하는 데 기여할 수 있습니다. 이 논문에서는 세법을 적용하는 데 있어 LLMs의 능력을 탐구합니다. 수천 개의 예시에 걸쳐 자동 검증 파이프라인을 설정할 수 있는 구조를 가지고 있고, 논리적 추론과 수학적 기술을 요구하며, 시민과 기업의 실세계 경제 생활에 관련된 방식으로 LLMs의 능력을 테스트할 수 있게 해주기 때문에 이 법률 영역을 선택했습니다. 우리의 실험은 이어지는 OpenAI 모델 출시를 통해 향상된 성능과 함께 법률 이해 능력이 나타나는 것을 보여줍니다. 우리는 관련 법률 권한을 검색하고 활용하여 LLMs에게 추가적인 법률 맥락을 제공하는 것이 어떤 영향을 미치는지 평가하기 위해 실험을 합니다. 질문-답변 쌍의 예시를 제시하는 few-shot 프롬프팅도 가장 진보된 모델인 GPT-4의 성능을 크게 향상시키는 것으로 나타났습니다. 이러한 발견은 LLMs가 특히 프롬프팅 향상과 올바른 법률 텍스트와 결합할 때 높은 수준의 정확성을 가질 수 있지만, 아직은 전문 세무 변호사 수준에는 이르지 못함을 나타냅니다. LLMs가 계속 발전함에 따라, 법률에 대해 자동으로 추론하는 능력은 법률 전문가와 AI 통제에 중요한 영향을 미칠 수 있습니다.
서론
AI 능력은 계속 발전하고 있습니다. 대규모 언어 모델(LLMs)은 이러한 빠른 발전의 중심입니다. 최첨단 LLMs는 표준화된 시험을 통과하고, 계획을 세우며, 추론하고, 도구를 활용할 수 있습니다. 그러나, LLMs는 그들의 개발자들에게도 기본적으로 블랙박스입니다. 우리는 그들의 내부 작동에 대해 거의 이해할 수 없으며, 새로운 작업에 대한 LLM의 행동에 대한 보장이 없습니다. 연구 환경을 넘어서 모델이 배포되기 전에는, 보통 벤치마크들을 통해 LLM의 성능을 측정하는 것이 최선의 방법입니다. 그러나 이러한 벤치마크들은 종종 우리가 신경쓰는 실세계의 작업이 아니거나, 훈련 중에 LLM에 의해 외워질 수 있습니다. 이런 현상은 대개 LLM 훈련에 사용되는 데이터셋들, 종종 인터넷에서 가져오는 것들이 성능 평가에 사용되는 동일한 데이터를 포함할 때 발생합니다. 이 중복은 모델의 성능 추정치를 부풀릴 수 있으며, 이는 기본적인 인식일 뿐인데 이해라는 착각을 줄 수 있습니다.
우리는 세 가지 이유로 LLMs의 법률 분석 능력에 특히 평가 노력을 집중합니다. 첫째, LLMs가 법률을 어느 정도 이해하는지 평가하는 것은 일반적으로 LLMs와 자동화된 시스템을 관리하는 데 기여할 수 있습니다. 한 가지 정책 관련 접근법은 민주적 과정과 법제정에 의해 결정된 사회적 가치에 부합하는 “법률적으로 통제된 AI”를 위해 LLMs 내의 규제적 추론과 법적 추론을 활용하려고 합니다. 이 “법률이 코드를 지배한다”라는 접근법은 반복적인 논쟁과 소송을 통해 적응적인 법적 표준인 신탁 의무와 같은 것을 창출하는 민주적 과정의 효과성에 기반을 두고 있습니다. 이 주장의 전제는 법의 정신을 배우는 것이 AI 시스템이 새로운 시나리오에서 합리적인 선택을 하는 데 도움이 될 수 있다는 것입니다. 예를 들어, LLMs는 신탁 의무가 위반될 때를 예측하는 초기 능력을 보여주며, 이 능력은 LLM이 사람의 원칙을 섬기는 시스템을 통해 안전한 AI 배포를 가능하게 할 수 있습니다.
둘째, LLMs는 사람들이 법률 서비스를 더 효율적이고 효과적으로 제공하는 도구로 사용될 수 있습니다. 이는 스스로 서비스를 제공하든 전문 변호사를 통해 이루어지든 상관없습니다. 이러한 모델들이 법률을 더 잘 이해하면, 그들은 더 신뢰할 수 있고, 결국 더 유용할 수 있습니다. LLMs는 계약 분석에서부터 사건 예측에 이르는 다양한 작업을 돕고, 이를 통해 법률 조언에 대한 접근을 민주화하고, 법률 시스템을 이해하는 데 어려움을 겪을 수 있는 사람들에게 비용과 복잡성을 줄일 수 있습니다. 법률 업무의 민감한 성격을 감안할 때, 이러한 모델들이 배포되면서 엄격한 안전장치가 마련되어야 합니다. 이에는 데이터 프라이버시를 높이고, 편향을 최소화하며, 이러한 모델의 도움을 받아 내린 결정에 대한 책임을 유지하고, 주어진 사용 사례에 대한 LLMs의 적합성을 평가하는 것이 포함됩니다. 따라서 체계적인 평가의 필요성이 강조됩니다.
셋째, LLMs가 법률을 충분히 잘 이해하면, 정부, 시민, 연구자들이 기존 법률의 모순을 식별하는 데에 사용될 수 있습니다. LLMs는 보다 광범위하게 정부의 효율성과 투명성을 향상시킬 수 있습니다. 예를 들어, LLMs는 종종 복잡한 법률과 규정을 명확하고 이해하기 쉽게 설명할 수 있습니다. 결국, LLMs는 새로운 법률이나 정책의 가능한 영향을 예측하는데 도움이 될 수 있습니다. LLMs는 대량의 법률 텍스트와 관련 실행을 스캔하여, 법률이 “시대에 뒤떨어진” 것이거나, 다른 유사한 상황에서 입법자나 규제 기관이 지침을 제공하는 경우에 법률이 침묵하는 영역을 식별할 수 있습니다.
이 논문에서는 미국 연방 규제 코드(CFR)와 미국 코드(연방 법률의 모음)의 텍스트를 활용한 대형 언어 모델(LLMs)의 검색-증대 생성을 연구합니다. 우리는 세트로 구성된 LLMs가 세법을 이해하는 능력을 테스트합니다.
세법을 선택한 이유는 네 가지입니다. 첫째, 원칙이 수많은 판례에서 추출되는 일부 법률 주제와 달리, 세법의 법률 권한은 주로 두 곳에 집중되어 있습니다: CFR 하의 재무부 규정과 미국 코드의 제26장(내부 수입 코드라고도 함). 이를 통해 LLM의 검색 증대를 위한 고정된 관련 문서 세계를 사용할 수 있습니다. 둘째, 많은 세법은 문의에 대해 확정적인 답변을 허용합니다. 이를 통해 일관되고 자동화된 검증 파이프라인을 설정할 수 있습니다. 셋째, 특정 시나리오에 대한 세법 질문에 답하는 것은 관련 법률 권한을 단순히 읽는 것 이상의 논리적 추론 능력과 심지어 수학 능력을 필요로 하므로, 이를 통해 실제 세계의 실천과 관련된 방식으로 LLM의 능력을 테스트할 수 있습니다. 넷째, 세법은 거의 모든 시민과 회사의 경제 생활에 매우 중요합니다.
우리는 여러 실험 설정에서 수천 건의 세법 질문에 대해 LLMs가 생성하는 응답의 정확성을 평가합니다: LLM만을 사용하는 것과 기본 법률 텍스트와 LLM을 통합하는 것, 그리고 다양한 검색 기법(다양한 검색 방법 간의 비교를 통해)을 사용합니다. 우리는 이러한 실험을 LLMs 전반에 걸쳐 수행하며, 이는 작고 약한 모델부터 가장 크고 최신의 모델인 OpenAI의 GPT-4에 이르기까지 다양합니다. 우리가 테스트한 각 LLM은 원래 출시될 때 최첨단이었습니다. 점점 더 큰 모델에 걸쳐 결과를 검토함으로써, 우리는 LLMs의 법률 이해 능력이 점차 나타나는 증거를 발견하였고, 이는 각 모델 출시와 함께 향상됩니다. 이는 최첨단 기술이 빠르게 발전함에 따라 초인적인 AI 법률 기술의 출현을 볼 수 있을 것이라는 것을 시사합니다.
LLM 법률 이해력 검증 접근법
우리는 LLM이 법률을 “이해”하는 능력을 시험합니다. 특정 상황에 대해 관련성 있고 정확한 법률 조언을 제공하는 작업은 법률 출처에 대한 정확한 지식과 상황 분석을 위한 추론(때때로 수학) 능력을 결합하는 작업입니다.
우리는 각각 질문과 잠재적인 답변 세트(정확한 답변은 하나만 있음)로 구성된 객관식 문제를 생성합니다. 각 문제에 대한 사실, 이름, 숫자는 Python 코드로 무작위로 생성됩니다. 따라서, 우리의 합성 검증 세트는 인터넷에 존재하지 않는, 새로운 문제들만으로 구성되며, 어떤 LLM의 훈련 세트에 포함되지 않을 수 있습니다. 이는 우리의 검증을 다른 많은 LLM 벤치마킹 작업과 구분하는 중요한 차이점입니다. 많은 경우에, 평가되는 LLM(인터넷 대부분으로 훈련된)은 검증 데이터 자체에 훈련되었을 수 있습니다.
일부 질문은 단지 정성적인 이해만을 필요로 하지만(예: “체크-박스” 질문, 더 자세한 내용은 부록 참조), 다른 일부는 산술 연산을 더 많이 포함합니다(예: 기초 금액을 결정하기 위한 계산). 주어진 문제의 해결책은 CFR이나 미국 코드를 참조할 수 있습니다. 특정 질문 유형의 문제를 생성하려면, 우리는 Python 코드를 호출하여 객관식 문제의 대량 컬렉션을 생성합니다. 각 생성된 문제에는: (1) LLM이 선택할 수 있는 답변 옵션이 있는 법률 질문; (2) 정확한 옵션; (3) 그 옵션이 정확한 이유에 대한 설명; 그리고 (4) 질문의 답변을 결정할 수 있는 법의 특정 부분에 대한 인용이 포함됩니다.
우리는 CFR과 미국 코드에 기반한 두 가지 종합 객관식 시험을 생성하여 평가하며, CFR과 미국 코드 시험은 각각 세 가지와 네 가지 섹션으로 구성되어 있으며, 각 100문제 섹션은 특정 세법 질문 유형에 관련되어 있습니다. 세법 범주에 걸친 이러한 일곱 가지 질문 유형에 대한 자세한 내용은 부록을 참조하십시오. 각 질문에 대해, 우리는 LLM에게 객관식 답변 중 하나를 선택하도록 요청하고, 그것이 올바른 답변을 선택하는지 여부에 따라 LLM의 성능을 평가합니다. 모든 실험에 걸친 28,000개 이상의 질문을 수동으로 채점하는 것은 실현 가능하지 않으며, 모델들이 항상 우리가 일관되게 파싱하고 실제 답변과 직접 비교할 수 있는 일관된 형식으로 출력을 생성하지 않기 때문에, 우리는 가장 강력한 LLM인 GPT-4를 사용하여 실제 답변과 출력된 답변을 비교합니다. GPT-4는 주어진 질문에 대한 실제 답변 선택지와 예측된 답변 선택지를 비교하여 예측된 답변 선택지의 정확성을 채점하도록 지시받습니다.
LLM 프롬프트 및 검색-보강 생성에 대한 접근 방법
우리는 각각의 프롬프트 템플릿이 LLM에 다른 지원 컨텍스트를 제공하는, 검색 방법들 간의 결과를 비교합니다. 프롬프트 템플릿의 전체 예시는 부록을 참고하십시오. 모델에 지원 컨텍스트를 제공할 때, 컨텍스트 윈도우가 작은 모델들에게는 검색된 컨텍스트를 윈도우 안에 맞추기 위해 때때로 컨텍스트를 자르기도 했습니다. LLM은 다음과 같은 컨텍스트 윈도우를 가지고 있습니다: davinci는 2049 토큰; text-davinci-002와 gpt-3.5-turbo는 4097 토큰; gpt-4는 8192 토큰입니다.
첫 번째 실험 설정인 “bypass_retrieval“은 검색과 LLM 지식의 영향을 테스트하기 위한 기준선을 만듭니다. 이 경우, 우리는 단지 객관식 질문과 답변 옵션을 LLM에 제공하고, 추가적으로 명시적으로 제공되는 법적 컨텍스트는 없습니다. 이 방법은 LLM이 그것의 “내부 지식 기반”만으로 세법 질문에 답변하는 능력을 평가합니다.
두 번째 검색 실험 설정인 “similarity_search“에서는, 우리는 잠재적으로 관련성 있는 법적 텍스트를 프롬프트에 주입합니다. 평가를 실행하기 전에, 우리는 미국 코드의 제 26조와 CFR 재무 규정에서 법률의 원천과 관련된 부분별로 별도의 문서를 추출합니다. 이러한 별도의 부분별 문서는 평균적으로 CFR 벡터 데이터베이스에 대해 약 130 토큰, 미국 코드 벡터 데이터베이스에 대해 약 250 토큰입니다. 우리는 오픈 소스 “Facebook AI Similarity Search” 라이브러리를 이용하여 별도의 부분을 768차원의 임베딩으로 매핑하는 벡터 데이터베이스를 생성하며, 이는 최신 기술인 GTR-large 모델을 통해 계산됩니다. GTR-large는 생물의학과 과학 텍스트를 포함한 다양한 도메인에서의 대량의 검색 데이터에 대해 학습되지만, 법적 텍스트는 포함되지 않습니다; 따라서, 우리의 검색 사용 사례는 임베딩 모델에 대해 “도메인 외부”에 해당합니다.
질문이 입력으로 제시되면, 우리의 시스템은 문서와 질문 간의 코사인 유사도를 기반으로 추정된 관련성에 따라 벡터 저장소에서 가장 “관련성 있는” 네 개의 문서를 검색합니다. 이러한 문서들은 원래의 질문과 함께 프롬프트에 컨텍스트로 주입되며, LLM은 또한 그것의 답변에서 어떤 법적 원천 부분을 참조했는지에 대한 메타데이터를 반환하도록 지시받습니다.
세 번째 실험 설정인 “gold_truth“는 벡터 데이터베이스나 유사성 검색에 의존하지 않고 LLM에 추가적인 컨텍스트를 제공합니다. 대신, 우리는 각 주어진 질문의 법률의 특정 부분에 대한 인용을 참조하여 얻은 정확한 원천 자료를 컨텍스트로 직접 제공합니다. 이 방법을 실험 설계에 포함시키는 것은 이론적으로 최상의 검색의 영향을 추정하는 데 도움이 됩니다. 이 설계를 보는 다른 방법은 “유사성 검색” 방법에서 부정확한 검색에 의해 발생하는 LLM의 추론 오류를 고립시키는 것입니다.
네 번째 검색 방법인 “lecture_notes“에서는, 강의 노트(이 논문의 공동 저자이며 Northwestern의 법학 교수인 Sarah Lawsky가 작성)를 컨텍스트로 제공하며, 이 강의 노트는 주어진 질문 유형과 관련이 있습니다.
또 다른 실험 변수는 “chain-of-thought”(CoT) 프롬프트를 사용하는지 여부였는데, 이는 LLM에게 그것의 응답을 단계별로 생각하도록 요청합니다.
마지막으로, 우리는 few-shot 프롬프팅을 실험했습니다. 여기서는 질문이 던져진 것과 함께 LLM에게 세 개의 다른 질문-답변 쌍 예시를 제공합니다. 우리는 주어진 문제에 대한 질문 유형과 일치하도록 쌍을 변형하였고, 질문-답변 쌍이 평가에 사용된 질문 중 어느 것도 아니라는 것을 확인했습니다. few-shot 프롬프팅의 개념은 질문에 어떻게 답변하는 방법의 예시를 관찰함으로써 LLM이 주어진 질문에 어떻게 답변해야 하는지를 안내하는 것입니다. 우리는 이를 모든 LLM에 대해 컨텍스트 소스 문서나 강의 노트를 제공하지 않고 수행하였습니다.
The LLMs
우리의 실험에서 변하는 주요 요소는 LLM 자체입니다. 우리는 과거 3 년 동안 OpenAI에 의해 출시된 점점 발전하는 네 개의 LLM에 대해 실험 설계를 수행합니다. 우리가 사용하는 가장 약한 모델인 ‘davinci’, “가장 능력이 뛰어난 GPT-3 모델입니다.” ‘text-davinci-002’는 “강화 학습이 아닌 감독 fine-tuning으로 훈련된 GPT-3.5의 초기 버전입니다.” ‘gpt-3.5-turbo’는 “가장 능력이 뛰어난 GPT-3.5 모델입니다.” 가장 능력 있는 모델인 ‘gpt-4’는 “모든 GPT-3.5 모델보다 더 능력이 있어 더 복잡한 작업을 수행할 수 있습니다.”
모든 모델에 대해 모든 실험에서, 우리는 프롬프트에 대한 응답을 생성할 때 온도를 0으로 설정합니다. 온도는 모델 출력의 “무작위성”을 제어하는 매개변수입니다. 이런 LLM들에 대해, 낮은 온도는 출력을 더 결정론적으로 만듭니다.
마지막으로, 모든 요소에 대해 실험 설계를 실행한 후, 우리는 마지막 설정인 “mega_run”을 실행합니다. 이는 “gold_truth” 검색 방법, few-shot 프롬프트, 그리고 GPT-4의 CoT 프롬프트를 결합한 것입니다. 즉, 가장 강력한 기술과 가장 강력한 모델의 조합입니다. 이를 통해 이러한 기술로 가능한 최대 성능을 평가할 수 있습니다. 우리는 더 발전된 프롬프팅을 관련 작업과 다음 단계 섹션에서 논의하며 이것은 성능을 더욱 향상시킬 것으로 예상됩니다.
우리의 전체 실험 샘플은 28,700개의 답변을 포함하고 있습니다. 아래의 그림 1은 프로세스와 실험적인 요소(빨간색)를 시각화합니다.
Figure 1: Our experimental pipeline compares performance on multiple-choice tax law exams
across different LLMs, document retrieval techniques, and prompting techniques.
결과
우리가 먼저 답하고자 했던 질문은 CoT가 모든 (또는 대부분의) 모델과 모든 (또는 대부분의) 검색 방법에 대해 결과를 일관되게 개선하는지 여부였습니다. 이에 대한 답변은 아니오로, 그림 2의 차트에서 실선과 점선 사이의 차이를 통해 확인할 수 있습니다. 그러나 CoT는 GPT-4의 성능을 향상시킵니다. 이는 LLM이 추가적인 추론을 통해 성능을 향상시키기 위해선 특정한 능력 수준을 가져야 할 수도 있음을 제안합니다. CoT로 프롬프트된 GPT-4의 두 가지 응답은 우리의 평가 데이터가 어떤 모습인지 감을 줍니다 (예시 1과 2).