정신건강치료에 한국어 AI 자연어처리 모델 활용검토

Created

2023/07/11 01:09

튜닙 참고

•

카카오의 AI 전문 자회사 카카오브레인 출신의 NLP 엔지니어들이 설립한 회사이고, GPT-3를 이용해서 자연어처리(NLP) 산업에서 주목받고 있는 기업입니다.

•

자연어처리 기술 기업으로 네이버 D2SF등으로부터 초기 투자를 받았고, 현재 카카오톡 채널에서 ‘DearMate 코코’, ‘DearMate 마스’로 친구추가하면 누구든 이용할 수 있는 챗봇이 있습니다.

•

개인적으로 관심이 있어서 현재 2번째 베타테스트를 하고 있는데, 가끔 원하는 답을 얘기해주지 못할 때도 있지만 전체적으로 상당히 대화가 괜찮은 것 같습니다.

•

영어의 자연어처리는 매우 놀라울 정도로 대화가 자연스러운 반면 한국어는 아직 데이터를 쌓아나가고 있는 단계이지만 데이터가 쌓이는 만큼 개선되는 속도가 빠른 것 같습니다.

하이퍼클로바를 활용한 AI개발 검토

NAVER CLOUD PLATFORM

Has cloud computing service for enterprises, IaaS, PaaS, SaaS, and global region and security technology authentications

https://www.ncloud.com/product/aiService/clovaStudio

•

네이버의 초대규모 AI로 코드없이 AI를 개발할 수 있는 도구로 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했다고 합니다.

◦

이를 위해 네이버는 560B 토큰(token·말뭉치)의 한국어 대용량 데이터를 구축했다. 한국어 위키피디아의 2900배, 뉴스 50년치, 블로그 9년치에 달하는 규모다. 학습에는 300B 토큰을 사용했다. 이 같은 초거대 AI를 개발하기 위해 네이버는 지난해 10월 700페타플롭(PF) 성능 슈퍼컴퓨터를 도입한 바 있다.

◦

하이퍼클로바는 네이버가 가진 ‘자료’에 뿌리를 두고 있다. 뉴스부터 블로그·지식인·카페·웹문서가 대상이었다.

◦

국립국어원의 ‘모두의 말뭉치’처럼 신뢰할 수 있는 출처에서 공유하는 자료들은 고품질로 분류해 데이터에 추가했다.

◦

또, 전문지식을 더해 정보 다양성을 확보했고 문서 내용이 유사하면 중복 제거를 진행했다. 문서 내용·구조를 하나의 문서로 재구조화해 유의미한 흐름으로 구성되도록 손봤다.

◦

문서 내용에 더해 메타정보도 추가했다. 정보성·신뢰성 있고 이용자들이 즐겨 찾는 공식사이트·출처 등은 상위 품질에 포함되도록 설계했다.

◦

이 가운데서도 정보가치와 유용성에 따라 데이터를 선별하는 작업 등을 진행했다. 이 같은 ‘골라내기’ 작업으로 최종적으로는 1.96테라바이트(TB)의 데이터셋을 구축했다.

네이버 초거대 AI '하이퍼클로바', 뭐가 다를까

"우리말을 가장 잘 이해하고 구사하는 최초의 초대형 한국어 인공지능입니다." 네이버가 국내 기업 최초의 '초대규모 AI'인 '하이퍼클로바(HyperCLOVA)'를 공개했다. 세계 최대 한국어 언어모델 하이퍼클로바를 통해 글로벌 시장에서 기술 주도권을 잡겠다는 포부다.

https://www.bloter.net/newsView/blt202105250016

•

이용 안내

◦

CLOVA Studio 이용 요금은 이용 엔진, 용도에 따라 상이하며, 이용 토큰수에 따라 과금됩니다.

◦

플레이그라운드(프롬프트, 테스트앱, 서비스앱), 익스플로러(도구)

엔진	기준	요금
LK-B	토큰	0.0025원
LE-C	토큰	0.015원
LK-C	토큰	0.015원
LK-D	토큰	0.040원

◦

튜닝(학습)

엔진	기준	요금
LK-B	토큰	0.02원
LK-C	토큰	0.03원
LK-D	토큰	0.04원

◦

튜닝(테스트앱, 서비스앱)

엔진	기준	요금
LK-B	토큰	0.0075원
LK-C	토큰	0.045원
LK-D	토큰	0.12원

직접 개발

•

직접 개발한다면 AI 연구단체 오픈AI의 언어모델인 GPT-3에 기반으로 개발을 해야하고 데이터를 계속 수집하고 넣어줘야 하는 장기적인 플랜이 필요할 것 같습니다.

OpenAI API

Copywriting Summarization Parsing unstructured text Classification Translation Create promo copy for the FamilyTime mobile application. It allows unlimited uploading, special filters and makes it easy to create albums of photos and videos. It runs on iOS and Android: FamilyTime is the perfect app to share and create memories with your family.

https://openai.com/api/

•

2021년 5월 17일 소개된 NVIDIA의 자연어처리 모델훈련을 위한 프레임워크 Megatron

•

2022년 10월 12일 소개된 NVIDIA Triton

◦

한가지 예로 어느 소규모 의료 업체에서는 이를 이용해 약처방을 다시 제공받고 싶어하는 환자들의 요청을 분석

'AI 에스페란토' 대규모 언어 모델의 지평을 넓히는 NVIDIA Triton | NVIDIA Blog

줄리안 살리나스(Julien Salinas)에게는 여러 직업이 있습니다. 그는 기업가이자 소프트웨어 개발자이고, 최근까지는 프랑스 남동부의 기술 중심지인 그르노블(Grenoble)에서 차로 한 시간 떨어진 산골 마을에서 소방대원으로 자원봉사를 했죠. 세워진 지 2년차로 이미 수익성이 좋은 스타트업 NLP 클라우드(NLP Cloud)를 키워 나가면서 약 12명의 직원을 둔 살리나스는 전 세계 고객에게 서비스를 제공합니다.

https://blogs.nvidia.co.kr/2022/10/12/ai-large-language-models-triton/

•

자연어처리 모델 학습을 위한 하드웨어 구성 참고