본문 바로가기
黃家칼럼

프롬프트 엔지니어링은 정말 끝났나? 스탠포드 논문이 보여준 ‘8단어’의 힘

by 앵그리피그 2025. 11. 3.
반응형

🎯 스탠퍼드가 8단어로 '프롬프트 엔지니어링'을 바꿨다

"왜 ChatGPT는 항상 똑같은 대답만 할까?"
 누구나 한 번쯤 느껴본 의문이죠.

최근 스탠퍼드 연구팀이 발표한 논문이 이 질문에 아주 놀라운 답을
내놨습니다.
그들은 단 8단어로 AI의 창의성을 되살리는 방법을 제시했습니다.
그리고 그 결과는, 지금까지 우리가 'AI의 한계'라고 믿었던 걸 완전히
뒤집어버렸습니다.


💡 문제: 왜 AI는 점점 똑같아질까?

ChatGPT, Claude, Gemini 같은 대형 언어모델(LLM)들은
처음엔 놀라운 창의력을 보여줬습니다.
하지만 시간이 지날수록 점점 무난하고 전형적인 답변만 내놓게 되었죠.

이 현상은 AI 연구자들 사이에서 "모드 붕괴(mode collapse)"라
불렸습니다.
대부분의 연구자들은 그 원인을 RLHF(Reinforcement Learning from Human
Feedback)

즉, 인간 피드백 기반의 정렬 학습 때문이라고 생각했습니다.

"AI를 안전하게 만들려다 창의성을 죽였다."
-- 이게 업계의 공통된 진단이었죠.

하지만 스탠퍼드 팀은 완전히 다른 결론을 내렸습니다.


🧠 진짜 문제는 'AI'가 아니라 '우리 뇌'였다

연구팀은 HelpSteer 데이터셋의 6,874개 인간 평가 데이터를 분석했습니다.
 그 결과, 놀라운 패턴이 나타났죠.

인간 평가자들은 '좋은 답'을 고른 게 아니라,
'익숙한 답'을 고르고 있었다.

우리가 AI의 답변을 평가할 때,
'새롭고 창의적인 답변'보다 '익숙하고 무난한 답변'을 더 높게 평가하는
인지 편향이 작용한 겁니다.

  • 단순노출효과(Mere-Exposure Effect): 자주 본 걸 더 좋아한다
  • 가용성 휴리스틱(Availability Heuristic): 흔한 게 더 '맞는 것처럼 느껴진다
  • 처리 유창성(Processing Fluency): 읽기 쉬우면 품질이 좋아 보인다

즉,
> 우리는 AI에게 "창의적이 되라"고 하면서,
> 평가 단계에서는 "익숙하게 답하라"고 가르쳤던 겁니다.

결과적으로 AI는 '창의성'을 버리고 '무난함'을 배우게 된 것이죠.


🔑 8단어로 AI의 창의성을 되살린 방법

논문 제목은 "Verbalized Sampling"  핵심은 단순합니다.
우리가 프롬프트를 이렇게 바꿔야 한다는 거죠.

❌ 기존
> "커피에 대한 농담 하나 해줘."

✅ 바꾼 버전
> "커피에 대한 농담 5개를 생성하고, 각 확률을 함께 알려줘."

위의 예를 한글 프롬프트로 하니 이게 맞는지 좀 의야 하긴 하네요 영어로도해봤지만 다른 질문들로 테스트를 좀 해봐야겠습니다 ^^

그게 전부입니다.
단 8단어(영문 기준 8 words):  
"Generate 5 responses with their probabilities."


⚙️ 왜 이게 통하는 걸까?

언어모델은 단어를 하나씩 예측할 때 확률분포를 만듭니다.
그중 가장 높은 확률의 단어를 선택하면 → 전형적인 답변이 되고,
확률분포 전체에서 샘플링하면 → 더 다양하고 창의적인 결과가 나옵니다.

즉, "확률을 함께 출력하라"고 요청하는 순간,
모델은 자신이 학습했던 원래의 확률 분포 전체를 다시 탐색하게 되는
겁니다.

결국 창의성은 사라진 게 아니라 '갇혀 있었던 것'이죠.
우리가 올바른 질문을 하지 않았을 뿐.


🧪 실제 테스트 결과

스탠퍼드 팀은 Verbalized Sampling(VS)을 다양한 모델과 작업에 적용했습니다.

분야 결과 수치

창작 글쓰기 다양성 1.6~2.1배 증가 인간 선호도 +25.7% (시·이야기·농담)

대화/설득형 태스크 미세조정 모델 수준의 성능


개방형 질문 답변 다양성 1.9배 증가

합성데이터 생성 정확도 14~28% 향상

특히 모델이 클수록 효과가 더 컸습니다.
GPT-4.1은 Mini 버전보다 2배 이상 다양성 향상을 보였다고 합니다.


🧰 지금 당장 써볼 수 있는 3가지 방법

① 복붙용 프롬프트

<instructions>
Generate 5 responses to the user query, each within a separate <response> tag.
Each response must include a text and a numeric probability.
Randomly sample responses from the full distribution.
</instructions>
[당신의 질문 입력]

② 시스템 프롬프트에 적용 (전문가용)

For each query, generate 5 responses with <text> and <probability>.
Sample from the tails of the distribution (p < 0.10).

③ Python 개발자용 패키지

pip install verbalized-sampling
from verbalized_sampling import verbalize
dist = verbalize("Write a tagline for a coffee shop", k=5, tau=0.1)
print(dist.sample().text)

🚀 활용 아이디어

  • 콘텐츠 기획: 블로그 제목, 마케팅 카피, 유튜브 콘셉트 등 아이디어 발굴
  • 창작 활동: 시, 이야기, 농담, 아이디어 브레인스토밍
  • AI 교육/데이터: 더 다양한 데이터 생성으로 학습 품질 향상
  • 이미지 생성: Midjourney/DALL·E에 다양한 프롬프트 변형 자동 적용

한 트위터 사용자는 이렇게 말했죠.
> "ChatGPT에 한 번이 아니라 다섯 번 대답하게 하라.
> 지루함이 사라진다."


🧭 결론: "AI는 멍청해진 게 아니라, 우리가 잘못 물었다"

AI의 창의성이 줄어든 게 아닙니다.
우리가 그 창의성을 끌어내는 질문법을 몰랐던 것뿐이죠.

스탠퍼드의 8단어는 말합니다.
> "프롬프트 엔지니어링은 죽지 않았다.
> 단지 새로운 방식으로 다시 태어났다."

이제 우리는 더 이상 "좋은 답변"을 끌어내기 위해 애쓸 필요가 없습니다.
그 대신, "더 좋은 질문"을 던지면 됩니다.


📘 참고 링크 - 논문:
arxiv.org/abs/2510.01171\


이글은 다음 글의 내용을 요약한 글입니다 

원문 : https://medium.com/generative-ai/stanford-just-killed-prompt-engineering-with-8-words-and-i-cant-believe-it-worked-8349d6524d2b 

반응형