정부 문서를 기반으로 생성된 LLM모델을 위한 AI학습용 데이터입니다.
보도자료, 연설문, 발간사, 정책보고서, 회의/행사 계획 공문서를 활용하여 구축된 말뭉치 학습 데이터 및 질의응답, 재구성, 요약을 위한 목적형 태스크 학습 데이터로 구성되어 있습니다.
주요 특징으로는 다음과 같은 특징을 가지고 있습니다.
● 멀티모달 LLM 대응과 복잡한 표를 가진 문서에 대한 LLM의 이해도 향상을 위해 말뭉치에 표(html)와 그림(별도 저장후 경로 표기)이 포함됩니다.
● LLM을 지시에 따르도록 파인튜닝하기 위해 활용될 수 있는 Q&A, 요약, 재작성용 태스크 데이터셋이 포함됩니다.