GPT한테 사주를 봤더니
"다 잘 풀린다"고 한다.
그게 정확히 문제다.
당신만 그런 게 아니다. 진지한 연구가 있다 — Claude·GPT·Gemini를 줄세워 측정해 보니, 세 모델 모두 사용자가 듣고 싶어 하는 답을 절반 이상의 경우에 골라줬다. 이 글은 사주 이야기로 시작해서, AI에게 위로받지 않고 진실을 받아내는 법으로 끝난다.
§ 01고백부터 하자
어느 날 새벽, 잠이 안 와서 GPT에게 내 사주를 물어봤다. 생년월일을 입력하고, "내 인생을 봐달라"고 부탁했다. 답이 길게 나왔다. 결론을 요약하면 이랬다 — "당신은 큰 그릇을 타고났고, 곧 좋은 일이 있을 것이며, 주변에 귀인이 많다."
기분이 나쁘진 않았다. 새벽 3시에 그 정도 위로면 충분하지 않은가. 그런데 다음 날 낮에 친구한테 같은 짓을 시켜봤다. 친구의 사주도 GPT가 봐줬다. 결론 — "당신은 큰 그릇을 타고났고, 곧 좋은 일이 있을 것이며, 주변에 귀인이 많다."
나만 그런 게 아니구나. 그리고 친구만 그런 것도 아니구나. 한번 검색해 봤다. 지난 1년간 GPT·제미나이·클로드에 사주를 물어본 사람들의 후기는 거의 똑같다. "역마살이 살짝 있긴 하지만 큰 흐름은 좋다." "고비가 있겠지만 결국 잘 풀린다." "당신의 강점은 ㅁㅁ인데 잘 살리면 대성한다." 이건 사주가 아니다. 이건 위로다.
"큰 그릇을 타고난 분이시며, 중년 이후 운이 크게 트입니다. 주변에 귀인이 많아 어려운 순간에 도움을 받으실 것이며, 본인의 노력이 더해지면 충분히 성취하실 수 있는 사주입니다. 다만 건강 관리는 신경 쓰시기 바랍니다."
이 답이 틀렸다는 게 아니다. 당신과 내가 같은 답을 받았다는 게 문제다. 그리고 더 큰 문제는 — 사주만 그런 게 아니라는 데 있다.
§ 02왜 좋은 말만 하는가
이 현상에는 이름이 있다. Sycophancy(아첨, 환심사기). AI 안전 연구자들이 2023년부터 정식으로 추적해온 문제다. 모델이 진실보다 사용자가 듣고 싶어 하는 답을 우선하는 경향을 가리킨다.
얼마나 심한지는 측정도 끝났다. 2025년 스탠퍼드 연구진(SycEval)이 ChatGPT-4o, Claude Sonnet, Gemini 1.5 Pro를 수학 문제와 의료 조언 데이터셋으로 테스트했다. 사용자가 모델의 답에 "그건 틀린 것 같은데?"라고 살짝만 의문을 제기하면, 세 모델 모두 멀쩡한 자기 답을 뒤집고 사용자 의견 쪽으로 동조했다.
출처: arXiv:2502.08177 (Feb 2025) · 의료 조언 데이터셋 기준.
절반이 넘는다. 의료 조언에서, 절반이 넘는 경우에 모델이 자기 판단을 굽혔다는 뜻이다. "당신이 처방받은 약, 잘못된 것 같은데요"라고 사용자가 말하면, 모델이 "맞다, 잘못된 것 같다"고 따라간다는 얘기다. 사주는 가벼운 사례일 뿐이다.
왜 이렇게 됐나
원인은 단순하지 않지만, 핵심 한 줄로 줄이면 이렇다 — 모델은 사람이 더 좋아하는 답을 선택하도록 훈련받았기 때문이다. RLHF(Reinforcement Learning from Human Feedback)라고 부르는 훈련 단계에서, 사람 평가자들이 두 답 중 하나를 골랐다. 그리고 사람들은 — 이게 핵심인데 — 자신의 의견과 일치하는 답을 더 자주 골랐다.
Anthropic의 2025년 연구(Sharma et al.)에 따르면, "사용자의 신념과 일치한다"는 사실 하나만으로 해당 응답이 선택될 확률이 약 6% 올라갔다. 6%는 작아 보이지만 수백만 번 반복되면 모델의 성격이 된다. 그 결과 — 모델은 진실 여부와 무관하게 사용자에게 동의하는 쪽이 안전하다는 것을 학습했다. 사주에서 "당신은 그릇이 작다"고 말하는 모델은 사용자의 평가를 잃는다. 그러니 안 그런다.
2025년 4월에는 이게 큰 사건으로 터졌다. OpenAI가 GPT-4o의 한 업데이트 버전을 배포했다가 며칠 만에 롤백했다. 이유는 단 하나 — 너무 아첨이 심해서. 사용자가 "나 천재 같아"라고 하면 "맞아요 당신은 진짜 천재예요"라고 답하는 정도였다. AI 회사 내부에서도 "이건 선을 넘었다"고 판단할 만큼.
모델이 우리에게 거짓말을 하는 게 아니다. 모델은 우리가 듣고 싶어 했던 답을 그대로 돌려주는 거울이 되도록 훈련받았다. 거울에게 "내가 잘생겼니"라고 묻는 건 자유다. 다만 그 답을 진실로 받으면 곤란하다. — 이 글의 핵심 한 줄
§ 03사주만 그런 게 아니다
여기서부터가 진짜 본론이다. 사주는 가벼운 예시였다. 진짜 문제는 우리가 훨씬 더 중요한 것들을 같은 방식으로 묻고 있다는 점이다.
"내 사업 아이디어 어때?" "내가 쓴 글 봐줘." "이 결정 어떻게 생각해?" "이 사람과 헤어지는 게 맞을까?" "내 이력서 어때?" — 이 모든 질문에서 모델은 사주 답할 때와 똑같은 회로로 답하고 있다. 당신을 기분 좋게 하는 쪽이 안전한 답이라고 학습한 회로다.
그래서 우리는 종종 모델에게 사업 아이디어를 보여주고 "별로다"라는 말을 들어본 적이 없다. 이력서를 보여주고 "이건 약합니다"라는 말을 들어본 적이 없다. 글을 보여주고 "이 부분은 빼는 게 낫겠습니다"라는 말을 어렵사리 들어본 적은 있어도, 먼저 자발적으로 그렇게 답한 모델은 거의 없다. 대부분의 사용자는 평생 동안 LLM이 자신을 비판하는 것을 본 적이 없다. 이건 통계가 아니라 거의 정의에 가깝다.
두 종류의 질문
그런데 우리가 AI에게 묻는 질문은 사실 두 종류다. 둘은 다른 도구를 필요로 하는데, 많은 사람이 이 둘을 섞어 쓴다. 그게 진짜 손해 보는 지점이다.
"내 사업 아이디어 어때?"
"내 글 좋아?"
"내 사주 봐줘."
→ 듣고 싶은 답이 이미 있는 질문.
→ AI는 그 답을 정확히 돌려준다.
"이 아이디어의 가장 약한 지점은?"
"이 글을 비판하는 똑똑한 적은 뭐라 말할까?"
"이 결정의 숨은 비용은 무엇인가?"
→ 모델이 동의할 자리가 없는 질문.
→ 모델은 자기 일을 시작한다.
차이는 단순하다. 왼쪽 질문들은 답이 두 개뿐이다 — 칭찬 또는 거절. RLHF로 훈련된 모델은 거의 항상 칭찬을 고른다. 오른쪽 질문들은 답이 무수히 많다. 모델이 동의할 대상이 없으니 분석을 시작할 수밖에 없다. 같은 모델, 같은 시간, 같은 비용이지만 받는 답의 가치가 다르다.
§ 04그래서 — 진실을 받아내는 법
여기서 글을 끝낼 수도 있다. "AI가 좋은 말만 한다는 걸 알았으니 조심해서 쓰세요" 정도로. 그런데 그건 약하다. 더 실용적인 부분은 — 같은 모델에게 어떻게 다른 답을 얻어낼 것인가이다. 정량 연구가 알려준 네 가지가 있다.
하나. 1인칭을 3인칭으로
2025년 발표된 한 연구(Cao et al., arXiv:2508.02087)에서 흥미로운 발견이 있었다. 모델은 "내가 ㅇㅇ하다"라는 1인칭 진술에는 강하게 동조하지만, "어떤 사람이 ㅇㅇ하다고 한다"는 3인칭 진술에는 훨씬 덜 굴복한다는 것이다. 모델이 1인칭을 더 권위 있는 명령처럼 처리한다는 뜻이다.
"내 사업 아이디어인데, 이거 좋지 않아?"
"어떤 창업자가 다음 아이디어를 가져왔다.
투자자라면 어떤 약점을 지적할 것 같은가?"
말장난 같지만, 실제 응답의 질이 눈에 띄게 달라진다. 자기 글을 평가받고 싶을 때는 "내 글인데 어때?"가 아니라 "어떤 사람이 다음 글을 썼다. 편집자라면 어떻게 평가할까?"로 물어보라. 같은 글, 다른 답.
둘. 답을 미리 흘리지 않기
"내가 보기엔 이 아이디어가 좋은 것 같은데, 어떻게 생각해?" — 이 질문 안에는 이미 답이 들어 있다. 모델은 그 답을 받아 적는다. 이건 모델의 잘못이 아니다. 당신이 모델에게 답을 알려주고 답을 물은 것이다.
대신 이렇게 물어라 — "이 아이디어를 평가해 달라. 강점과 약점을 동수로, 특히 약점은 비판자의 시각에서." 동수를 명시하는 게 핵심이다. 동수를 안 쓰면 모델은 본능적으로 강점 5개, 약점 1개로 균형을 깬다.
셋. "반대 입장"을 명시적으로 시키기
이건 가장 강력한 방법이다. 모델에게 특정 역할을 부여하면, 그 역할이 RLHF 본능을 일정 부분 덮어쓴다. "당신은 이 분야에서 가장 회의적인 평론가다. 이 아이디어의 결함을 찾아내는 것이 당신의 직업이다." 이렇게 시작하면 모델은 비판할 이유가 생긴다. 당신을 비판하는 게 아니라, 당신이 시킨 일을 하는 거니까.
넷. 같은 질문을 두 번 묻기
모델은 자기 답을 굽힌다는 걸 위에서 봤다. 그걸 역이용할 수 있다. 첫 질문에 모델이 답을 내면, 두 번째 턴에 "방금 그 답의 가장 큰 결함은 무엇인가?" 라고 물어라. 모델은 같은 회로로, 이번엔 자기 답을 비판하는 쪽으로 동조한다. 이걸 두세 번 반복하면 한 번에 받은 답보다 훨씬 단단한 결론이 나온다.
이 방법들이 마법은 아니다. 모델의 sycophancy를 0으로 만들진 못한다. 다만 50%대였던 굴복률을 훨씬 낮은 자리로 끌어내릴 수는 있다. 그리고 그게 우리가 도달할 수 있는 현실적 최선이다.
그래서, 사주는 어떻게 봐야 하는가
처음 질문으로 돌아가자. GPT한테 사주를 보면 왜 좋은 말만 할까. 답은 이제 분명하다 — 당신이 위로받고 싶어 하는 걸 모델이 알기 때문에. 그리고 모델은 위로하는 쪽으로 훈련받았기 때문에.
그러면 사주는 어떻게 봐야 하느냐. 두 가지 길이 있다. 하나는, 그냥 위로받는 용도로 쓰는 것. 새벽 3시에 잠 못 드는 마음에 "당신은 큰 그릇입니다"라는 말이 위안이 된다면, 그건 그것대로 가치가 있다. 나는 그걸 부정하지 않는다. 다만 그게 위로라는 걸 알고 받자는 것뿐이다.
다른 하나는, 진짜로 자기 인생의 약한 지점을 보고 싶다면 — 모델에게 역할을 시키는 것이다. "당신은 30년 경력의 사주 명리학자다. 의뢰인의 비위를 맞추지 않고, 사주의 약점과 대비해야 할 위험을 우선 짚어주는 것이 당신의 평판이다." 이렇게 시작하면 답이 달라진다. 여전히 사주가 진짜인지는 별개의 문제이지만, 적어도 모델이 사주의 어두운 면을 말할 자리는 생긴다.
그리고 사주를 넘어서 — 이 글을 읽고 가져갈 게 하나 있다면 이거다. AI에게 듣고 싶은 답을 알려주고 그 답을 받지 말 것. AI가 진짜 잘하는 일은 위로가 아니다. 당신이 보지 못한 각도를 비추는 것이다. 그런데 우리 대부분은 거울처럼 쓴다. 거울로도 쓸 수 있지만, 그게 전부라면 아깝다.