Search
Duplicate

정신건강치료에 한국어 AI 자연어처리 모델 활용검토

Created
2023/07/11 01:09
Tags
2023 Q1
Research Date
2023/01/31

튜닙 참고

카카오의 AI 전문 자회사 카카오브레인 출신의 NLP 엔지니어들이 설립한 회사이고, GPT-3를 이용해서 자연어처리(NLP) 산업에서 주목받고 있는 기업입니다.
자연어처리 기술 기업으로 네이버 D2SF등으로부터 초기 투자를 받았고, 현재 카카오톡 채널에서 ‘DearMate 코코’, ‘DearMate 마스’로 친구추가하면 누구든 이용할 수 있는 챗봇이 있습니다.
개인적으로 관심이 있어서 현재 2번째 베타테스트를 하고 있는데, 가끔 원하는 답을 얘기해주지 못할 때도 있지만 전체적으로 상당히 대화가 괜찮은 것 같습니다.
영어의 자연어처리는 매우 놀라울 정도로 대화가 자연스러운 반면 한국어는 아직 데이터를 쌓아나가고 있는 단계이지만 데이터가 쌓이는 만큼 개선되는 속도가 빠른 것 같습니다.

하이퍼클로바를 활용한 AI개발 검토

네이버의 초대규모 AI로 코드없이 AI를 개발할 수 있는 도구로 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했다고 합니다.
이를 위해 네이버는 560B 토큰(token·말뭉치)의 한국어 대용량 데이터를 구축했다. 한국어 위키피디아의 2900배, 뉴스 50년치, 블로그 9년치에 달하는 규모다. 학습에는 300B 토큰을 사용했다. 이 같은 초거대 AI를 개발하기 위해 네이버는 지난해 10월 700페타플롭(PF) 성능 슈퍼컴퓨터를 도입한 바 있다.
하이퍼클로바는 네이버가 가진 ‘자료’에 뿌리를 두고 있다. 뉴스부터 블로그·지식인·카페·웹문서가 대상이었다.
국립국어원의 ‘모두의 말뭉치’처럼 신뢰할 수 있는 출처에서 공유하는 자료들은 고품질로 분류해 데이터에 추가했다.
또, 전문지식을 더해 정보 다양성을 확보했고 문서 내용이 유사하면 중복 제거를 진행했다. 문서 내용·구조를 하나의 문서로 재구조화해 유의미한 흐름으로 구성되도록 손봤다.
문서 내용에 더해 메타정보도 추가했다. 정보성·신뢰성 있고 이용자들이 즐겨 찾는 공식사이트·출처 등은 상위 품질에 포함되도록 설계했다.
이 가운데서도 정보가치와 유용성에 따라 데이터를 선별하는 작업 등을 진행했다. 이 같은 ‘골라내기’ 작업으로 최종적으로는 1.96테라바이트(TB)의 데이터셋을 구축했다.
이용 안내
CLOVA Studio 이용 요금은 이용 엔진, 용도에 따라 상이하며, 이용 토큰수에 따라 과금됩니다.
플레이그라운드(프롬프트, 테스트앱, 서비스앱), 익스플로러(도구)
엔진
기준
요금
LK-B
토큰
0.0025원
LE-C
토큰
0.015원
LK-C
토큰
0.015원
LK-D
토큰
0.040원
튜닝(학습)
엔진
기준
요금
LK-B
토큰
0.02원
LK-C
토큰
0.03원
LK-D
토큰
0.04원
튜닝(테스트앱, 서비스앱)
엔진
기준
요금
LK-B
토큰
0.0075원
LK-C
토큰
0.045원
LK-D
토큰
0.12원

직접 개발

2021년 5월 17일 소개된 NVIDIA의 자연어처리 모델훈련을 위한 프레임워크 Megatron
자연어처리 모델 학습을 위한 하드웨어 구성 참고