정부 문서를 기반으로 생성된 LLM모델을 위한 AI학습용 데이터입니다.
보도자료, 연설문, 발간사, 정책보고서, 회의/행사 계획 공문서를 활용하여 구축된 말뭉치 학습 데이터 및 질의응답, 재구성, 요약을 위한 목적형 태스크 학습 데이터로 구성되어 있습니다.
주요 특징으로는 다음과 같은 특징을 가지고 있습니다.
● 멀티모달 LLM 대응과 복잡한 표를 가진 문서에 대한 LLM의 이해도 향상을 위해 말뭉치에 표(html)와 그림(별도 저장후 경로 표기)이 포함됩니다.
● LLM을 지시에 따르도록 파인튜닝하기 위해 활용될 수 있는 Q&A, 요약, 재작성용 태스크 데이터셋이 포함됩니다.
정부 공문서 중, 보도자료 유형을 기반으로 생성한 LLM 학습 데이터를 조회하는 서비스입니다. 기본 메타정보로 보도자료 내 제목, 보도일자, 보도시점, 발행부처, 발행부서, 담당자 정보를 확인할 수 있습니다. 보도자료 내용 기반의 말뭉치 데이터와, 말뭉치 데이터 기반 Q&A, Rewrite, Summarization 데이터가 함께 제공됩니다.
활용승인 절차
개발단계 :
자동승인
/ 운영단계 :
신청가능 트래픽
개발계정 : 10,000
/ 운영계정 : 활용사례 등록시 신청하면 트래픽 증가 가능