튜닙 참고
•
카카오의 AI 전문 자회사 카카오브레인 출신의 NLP 엔지니어들이 설립한 회사이고, GPT-3를 이용해서 자연어처리(NLP) 산업에서 주목받고 있는 기업입니다.
•
자연어처리 기술 기업으로 네이버 D2SF등으로부터 초기 투자를 받았고, 현재 카카오톡 채널에서 ‘DearMate 코코’, ‘DearMate 마스’로 친구추가하면 누구든 이용할 수 있는 챗봇이 있습니다.
•
개인적으로 관심이 있어서 현재 2번째 베타테스트를 하고 있는데, 가끔 원하는 답을 얘기해주지 못할 때도 있지만 전체적으로 상당히 대화가 괜찮은 것 같습니다.
•
영어의 자연어처리는 매우 놀라울 정도로 대화가 자연스러운 반면 한국어는 아직 데이터를 쌓아나가고 있는 단계이지만 데이터가 쌓이는 만큼 개선되는 속도가 빠른 것 같습니다.
하이퍼클로바를 활용한 AI개발 검토
•
네이버의 초대규모 AI로 코드없이 AI를 개발할 수 있는 도구로 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했다고 합니다.
◦
이를 위해 네이버는 560B 토큰(token·말뭉치)의 한국어 대용량 데이터를 구축했다. 한국어 위키피디아의 2900배, 뉴스 50년치, 블로그 9년치에 달하는 규모다. 학습에는 300B 토큰을 사용했다. 이 같은 초거대 AI를 개발하기 위해 네이버는 지난해 10월 700페타플롭(PF) 성능 슈퍼컴퓨터를 도입한 바 있다.
◦
하이퍼클로바는 네이버가 가진 ‘자료’에 뿌리를 두고 있다. 뉴스부터 블로그·지식인·카페·웹문서가 대상이었다.
◦
국립국어원의 ‘모두의 말뭉치’처럼 신뢰할 수 있는 출처에서 공유하는 자료들은 고품질로 분류해 데이터에 추가했다.
◦
또, 전문지식을 더해 정보 다양성을 확보했고 문서 내용이 유사하면 중복 제거를 진행했다. 문서 내용·구조를 하나의 문서로 재구조화해 유의미한 흐름으로 구성되도록 손봤다.
◦
문서 내용에 더해 메타정보도 추가했다. 정보성·신뢰성 있고 이용자들이 즐겨 찾는 공식사이트·출처 등은 상위 품질에 포함되도록 설계했다.
◦
이 가운데서도 정보가치와 유용성에 따라 데이터를 선별하는 작업 등을 진행했다. 이 같은 ‘골라내기’ 작업으로 최종적으로는 1.96테라바이트(TB)의 데이터셋을 구축했다.
•
이용 안내
◦
CLOVA Studio 이용 요금은 이용 엔진, 용도에 따라 상이하며, 이용 토큰수에 따라 과금됩니다.
◦
플레이그라운드(프롬프트, 테스트앱, 서비스앱), 익스플로러(도구)
엔진 | 기준 | 요금 |
LK-B | 토큰 | 0.0025원 |
LE-C | 토큰 | 0.015원 |
LK-C | 토큰 | 0.015원 |
LK-D | 토큰 | 0.040원 |
◦
튜닝(학습)
엔진 | 기준 | 요금 |
LK-B | 토큰 | 0.02원 |
LK-C | 토큰 | 0.03원 |
LK-D | 토큰 | 0.04원 |
◦
튜닝(테스트앱, 서비스앱)
엔진 | 기준 | 요금 |
LK-B | 토큰 | 0.0075원 |
LK-C | 토큰 | 0.045원 |
LK-D | 토큰 | 0.12원 |
직접 개발
•
2021년 5월 17일 소개된 NVIDIA의 자연어처리 모델훈련을 위한 프레임워크 Megatron
•
자연어처리 모델 학습을 위한 하드웨어 구성 참고