23 수능 국어 상위 5%에 도달한 인공지능
게시글 주소: https://m.orbi.kr/00064160457
안녕하세요, 오르비 여러분.
오픈소스 한국어 문서 기반 질의응답 AI 시스템을 탐구하는 프로젝트 팀 NomaDamas입니다.
23 수능 국어에서 상위 5%를 인공지능으로 달성하여 뉴스 기사가 나왔습니다!
수험생시절 오르비에서 도움을 많이 받았던 기억이 나
혹시 저희 프로젝트가 수험생 여러분들께 조금이나마 도움이 될까 싶어 공유합니다!
세 줄 요약
- 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상시켰습니다.
- 문제 유형에 특화된 프롬프트를 사용하면 1등급(96점, 상위4%)까지 달성할 수 있습니다.
- 사용한 프롬프트 전문과 소스코드, 수능 국어 데이터셋을 오픈소스로 공개했습니다.
1. 프롬프트 엔지니어링?
긴 글을 시작하기에 앞서, 많은 분들의 이해를 돕기 위해 저희가 사용한 프롬프트 엔지니어링에 대한 간단히 설명 드리겠습니다.
프롬프트 엔지니어링은 대화형 인공지능 (예: Chat-GPT)에 들어가는 입력 프롬프트를 신중하게 작성하고 개선하여, 원하는 고품질의 응답을 생성하는 과정입니다.
간단히, 어떻게 인공지능에 ‘잘’ 질문 하는지 연구하는 것입니다.
‘수험공부를 하면서 얻은 나름의 노하우들을 프롬프트에 적용하면, 인공지능의 수능 점수가 어디까지 올라갈까?’ 라는 의문이 들었고, 프롬프트 엔지니어링을 통해 적용해 보았습니다.
2. 사용한 프롬프트
어떤 프롬프트를 사용했는지 궁금하시죠?
핵심부터 말씀 드리자면, 지문 속에서 정답과 관련이 있는 문장을 찾도록 한 것입니다.
수험생 시절에 지문에서 ‘1+1=3’ 이라고 한다면 그냥 받아들이고 풀겠다는 마음가짐으로
지문 속에서 근거를 찾는 연습을 하며 기출 문제 분석을 많이 했었는데요,
그 경험을 프롬프트에 반영해 보았습니다.
그 결과 인공지능의 점수가 8점 상승하여 94점이 되었습니다.
지문에서 근거를 찾는 능력의 중요성을 다시 한번 느낄 수 있었고, 수험생분들에게도 공유하고 싶었습니다.
[실제 사용 프롬프트]
위의 프롬프트는 <보기> 가 없는 경우에 사용한 프롬프트 입니다.
저희는 <보기>가 있는 경우와, 없는 경우를 구분하여 프롬프트를 사용하였습니다.
본문이 너무 길어질 것 같아 <보기>가 있을 때 프롬프트는 더 궁금하신 분들이 참고하실 수 있도록
자세한 설명이 있는 링크를 함께 달아두겠습니다 :)
3. 빈출 유형 대응 프롬프트
위의 프롬프트로는 13번, 15번, 40번 문제를 제외하고 모두 풀 수 있었습니다.
GPT-4가 ‘동음이의어’, ‘다의어’ 관련 문제를 못 푸는 것을 확인했습니다.
이에 수험생들이 기출문제로 문제 해결의 방향을 잡는 것처럼,
인공지능에게도 문제를 푸는 방법을 알려주는 13번 문제 맞춤 프롬프트를 제작하기로 했습니다.
[실제 사용한 13번 전용 프롬프트]
(프롬프트에 사용된 표현이 정확한 표현인지는 잘 모르겠습니다..)
제가 이 문제를 실제 시험장에서 만났다면 다음 프롬프트와 같이 행동했을 것이라고 생각하고 작성해보았는데요,
저의 수험생활경험으로 만들어진, 13번 유형의 문제들만 해결할 수 있는 맞춤형 프롬프트 입니다.
오직 ‘지문 속 근거가 된 문장’만으로는 인공지능이 해결하기 어렵다고 판단하여 맞춤형 프롬프트를 제작하였고,
그리하여 13번 문제까지 정답을 맞춰 96점, 1등급에 도달할 수 있었습니다.
하지만 이 프롬프트는 같은 유형의 문제가 나왔을 때에만 재사용 가능한 프롬프트라는 점에 있어서,
완벽한 1등급에는 도달하지 못했습니다.
오지랖일지는 모르겠지만,,,
그래도 인공지능처럼 많은 수험생분들이 시험장에서 만나게 될 다양한 예상 문제들에 대해 나름의 ‘행동 매뉴얼’을 만들어 시험장에 들어가시면,
훨씬 빠르고 정확하게 문제를 해결할 수 있다는 것을 증명한 사례라고 생각하여 가져와 보았습니다 :)
4. 실제 예시
- 17번 문제 (오답률 84.9%)
5. 오답 풀이
23 수능 국어(화법과 작문)에서 15번(비문학)과 40번(화법과 작문) 문제를 GPT-4가 풀지 못했습니다.
왜 오답을 뱉어냈는지 나름대로 설명 해보는 섹션입니다.
- 15번
- 15번 문제의 핵심은 지문으로부터 '100^0.75'와 '1^0.75'를 유도해 무엇이 더 큰지를 구해야 합니다. 이는 GPT-4의 수학 능력 부족으로 두 숫자 중 더 큰 수 찾기를 힘들어 합니다.
- 또한, 지문만 보고 해당 식을 유도하는 것 조차도 힘들어 합니다. 수학적 수식을 이해하고 그것을 선택지에 응용하는 능력이 떨어지기 때문입니다.
- 비슷한 문제로, 문제의 19년도 수능 31번 문제도 '만유인력 공식'을 이해하고 활용해야 풀 수 있는데, 해당 문제 역시 GPT-4는 못 풀었습니다.
- 40번
- 40번에서는 학생 1과 학생 3 '모두' 상대의 발화 내용을 잘못 이해했는지 파악하는 것이 핵심입니다.
- 실제로 해당 부분에서 학생 1은 상대의 발화 내용을 잘못 이해하고 있으나, 학생 3은 그렇지 않습니다.
- 그래서 3번 선지를 정답으로 골랐어야 했지만,
GPT-4는 학생 1이 상대의 발화를 잘못 이해했다고 잘 파악하였으나,
학생 3은 상대의 발화 내용을 이해하고 있다고 파악하여 오답을 고르게 되었습니다. - 비교적 수험생분들에게는 익숙할 수 있는 평가원의 함정 입니다만, 아직 평가원의 함정을 수월하게 빠져나가지 못하는 인공지능입니다
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
많은 학생들이 풀컬러 손해설 언제 올려줄거냐 했는데 ㅜㅜ 9모 끝나자마자 바삐...
-
많은 수험생들에게 당혹감을 안겨준 9월 모의고사가 끝났습니다. 분명히 킬러 문제가...
-
「정연중의 문학 FeedBack」 (#지각한 이유) 15
우선... 약속 드렸던 9/12일 화요일로부터 131분 지각한 이유를...
-
EBS FINAL 전과목 선별을 완성했습니다. 수특, 수완을 최소한으로 선별하여...
-
안녕하세요. 피램 김민재입니다. 2024학년도 9월 모의평가 국어 영역 해설지 편...
-
압축이 아닌 압착적 인문논술 출제의도에 딱 맞춰 (답안지에) 직격탄을 날린다는...
-
고려대학교 수학과 / 기대모의고사 9년차 저자 대학재학시절 수능(평가원) 현장응시...
-
하고 싶은 말은 파일에 다 적어놨습니다. 한동안은 마지막 파일이 될 수도 있을 것 같네요.
-
[공지] 1. 아래 말씀드리는 논술원서 학과선택 전략은 문과와 이과 모두에 해당되니...
-
다음은 9평 화작의 데이터베이스화입니다.
-
오르비에서 처음 인사 드립니다! (#9평 비문학 분석자료) 32
오르비에서는 처음 인사 드리네요.수능 국어를 가르치고 있는 강사 정연중입니다!...
-
안녕하세요 :) 디올러 (디올 연구실) 입니다. 9평 생1 주요 문항에 대한 디올식...
-
34번은 오류가 아닙니다. 109
현재 논란이 되고 있는 34번의 정답 포인트는 사실 이전에 많이 기출되었던...
-
9월 모의고사 손해설 & 파급효과 영어 새로운 멤버 소개 2
9월 모의고사가 마무리되었습니다. 여러분들이 바로 복습할 수 있도록 한 손해설을...
-
2024 이동훈 기출 https://atom.ac/books/10552/...
-
이번 9평 수특. 수완 연계 내역입니다. 주요 연계 [3등급] 1문항 10. 다항...
-
클러스터 [24학년도 9평 물리학1] 손글씨 해설 12
진짜 손글씨라 죄송합니다. (악필 죄송합니다.) 특징 1. 2번 2개를 각각 따로...
-
안녕하세요 수학강사 이대은입니다. 원래 당일 새벽에 올리려 했는데 수업이 많아서...
-
고려대학교 수학과 / 기대모의고사 9년차 저자 대학재학시절 수능(평가원) 현장응시...
-
에 대해서 고민해봅시다!! 제 사고를 꼭 가져가세요. Y-문학편, E-문학편 혹은...
-
9모 국어 총평과 짧게 말씀드리는 대처방안 (feat. 무료특강) 12
정말 고생많으셨습니다.이해국어 오늘 추천 글에도 "ㅇㅅㅇ"모의고사라는 표현이...
-
결론만 말씀드리면 간단 결론: 아래 2개 작업으로 47점이 확보된다! (1) 바나나...
-
오늘 강의 신청해주신 300여명의 학생들 고맙습니다. 당일 라이브라 여러모로...
-
9평 디올 적중 5
안녕하세요 :) 디올러 (디올 연구실) 입니다. 디올 N제와 배포 모의고사 내 대표...
-
하이 가이즈, 션티입니다. 시험 치르느라 고생 많으셨습니다 :) 풀어보고 살짝...
-
9모 문학 적중은 90
궁금해하실 것 같아 올립니다. 일단, 6모때는 이렇게 A++로 했던 작품들 모두가...
-
시험 보느라 대단히 고생 많았습니다. 파급 수학 팀의 익성T에요 :) 24학년도...
-
2024학년도 9월 모의고사 국어 총평 및 학습 방향 35
최대한 스스로 분석해보신 후, 정독하시면 분명 도움이 될 거예요. [ 한줄 요약 ]...
-
[고병훈] 2024수능 09월 모의평가 수학 손글씨 풀이 10
안녕하세요~~ 수학 고병훈T입니다. 너무 오랜만이죠??? 제가 한동안 몸과 마음에...
-
안녕하세요 피램 김민재입니다. 9월 모의평가 국어 영역 총평입니다. [시험 전체...
-
안녕하세요. 저도 오늘 아침에 해설강의를 준비하며 아침에 올라온 9평을 풀고...
-
2024학년도 9월 평가원 모의고사 공통문항 해설(4점 전문항) 0
2024학년도 9월 평가원 모의고사 공통문항 해설 해설입니다. 단원별로 나누어 4점...
-
9평 적중 자료 배포 39
안녕하세요 :) 디올러 (디올 연구실) 입니다. 내일 9월 평가원 점심 시간에...
-
안녕하세요. 저번 글에서 말씀드렸듯 9평 당일 라이브 강의를 진행합니다. 저녁...
-
[9월 문학 대비 실전 Tip1]미니 모의고사 무료 제공 6
안녕하세요 오르비 클래스에서 수능 국어를 가르치고 있는 윤응식T입니다. 오늘은 9월...
-
지1 파이널 강의 최진영T X RuleBreakers 4
안녕하세요 최진영T입니다. 9월 모의고사가 정말 코앞까지 다가왔네요 중요한...
-
[Cluster] 8월 클러스터 모의고사 [물리학1 ,화학1] (2회) 시행 18
[배포] 2024학년도 8월 클러스터 모의고사 (화학1은 재업로드 입니다.)...
-
안녕하세요. 드디어 화작 마지막 시리즈입니다. 가볍게 남은 기간 화작을 어떻게...
-
고려대학교 수학과 / 기대모의고사 9년차 저자 대학재학시절 수능(평가원) 현장응시...
-
같은 대학 중에서도 논술 최저가 높은 학과가 있어요. 예를 들어, 성균관대...
-
안녕하세요. 이번엔 화작 두번째 페이지에 대한 분석으로 돌아왔습니다. 간단한 소개는...
-
화작의 데이터베이스화 64
안녕하세요. 거의 한달 만에 다시 오르비에 돌아왔네요. 목디스크가 너무 심해져서...
-
안녕하세요. 이번에 새로 나오는 물리학 컨텐츠 의 집필진 TEAM...
-
6논술이 위험하다고? 34
“6논술은 다 떨어진대요~” “6논술은 너무 위험해요~” 이나라가 아직은 살만한...
-
여러분의 공부와 건강은 안녕하신가요? 여러분 이제 9월 모의고사 얼마 남지...
-
2024학년도 9월 모의평가 대비 지인선 모의고사 66
구성 1) 문제지(미적분, 기하, 확통 포함 총 46문항) 2) 정답, 주요 문항...
-
도약의 시작 40
안녕하세요 :) 디올러 (디올 연구실) 입니다. 2024 Schema.Zip [생1...
-
주간 KISS 분할 판매! / 키센스 표지 투표! 70
기존 주간 KISS와의 조화를 생각하면 1번인데.. 댓글로 이유도 적어주시면...
-
고려대학교 수학과 / 기대모의고사 9년차 저자 대학재학시절 수능(평가원) 현장응시...
-
안녕하세요. 피램 김민재입니다. 생각의 전개 교재를 출판하고 나면, 매년 아쉬움이...
우와… 너무 신기해요…
휴 ai 이겼다
이건 제작자가 천재다