현재 위치 :뉴스

    “챗GPT보다 3배 공부했다”…전문화 AI ‘LG 엑사원 2.0’(종합)

    출처:bada    편집 :编辑部    발표:2023/07/19 17:33:22

    엑사원 유니버스·디스커버리·아틀리에

    “AI로 신소재·신물질·신약 개발 뚝딱”

    19일 서울 마곡 LG사이언스파크 컨버전스홀에서 열린 LG AI 토크 콘서트에서 배경훈 LG AI연구원장이 발표하고 있다. [제공=LG]

    19일 서울 마곡 LG사이언스파크 컨버전스홀에서 열린 LG AI 토크 콘서트에서 배경훈 LG AI연구원장이 발표하고 있다. [제공=LG]



    LG AI연구원이 전문 분야에 특화된 초거대 멀티모달(Multimodal) 인공지능(AI) ‘엑사원(EXAONE) 2.0’을 공개했다. 엑사원 2.0은 기존 엑사원의 업그레이드 버전이다. 논문 등 전문 분야 머신러닝 데이터를 기반으로 화학, 바이오, 제약, 의료, 금융, 특허 등 전문성이 요구되는 분야에 대한 보다 전문적인 솔루션 전달을 목표로 한다.




    ‘LG AI 토크 콘서트 2023’ 개최…엑사원 2.0 공개

    19일 LG AI연구원은 서울 강서구 마곡에 있는 LG사이언스파크 컨버전스홀에서 ‘LG AI 토크 콘서트 2023’을 개최했다. 이날 토크 콘서트에서 LG AI연구원은 2021년 처음 공개된 엑사원의 차기작인 엑사원 2.0을 소개했다.


    배경훈 LG AI연구원장 [제공=LG]

    배경훈 LG AI연구원장 [제공=LG]

    이날 행사에 연사로 나선 배경훈 LG AI연구원장은 “LG는 국내에서 유일하게 이중 언어 모델과 양방향 멀티모달 모델을 모두 상용화한 기업으로, 세상의 지식을 이해하고 발견하는 상위 1%의 전문가 AI를 개발 중”이라며 “국내외 파트너사와의 협력을 통해 실질적인 성공 사례를 만들어가며 ‘다른 생성형 AI들과는 차별화된 고객 가치’를 창출하는 글로벌 경쟁력을 갖춘 AI 기업으로 발전해 나갈 것”이라고 자신했다.


    엑사원 2.0은 파트너십으로 확보한 특허, 논문 등 약 4500만 건의 전문 문헌과 3억5000만 장의 이미지를 학습했다. 이는 오픈AI 챗GPT의 초기 학습양의 약 2~3배에 달하는 양이다. LG AI연구원은 “챗GPT가 일반 정보 등을 주로 학습했던 점을 고려하면 양도 2~3배 많지만, 논문 등의 전문 정보를 학습한 점을 생각하면 훨씬 더 많은 양을 학습했다고 보면 된다”고 설명했다.


    엑사원 2.0의 강점은 이중 언어(Bilingual) 모델이라는 점이다. 현존하는 전문 지식 데이터 상당수가 영어로 돼 있는 점을 고려하고, 한국어와 영어를 동시에 이해하고 답변할 수 있도록 하기 위해서다. 학습 데이터 양도 기존 모델 대비 4배 이상 늘렸다.


    초거대 AI의 고비용 이슈를 해결하기 위해 대규모 언어 모델(LLM)과 멀티모달 모델의 경량화, 최적화 신기술에 상당한 자원을 투입했다. 언어 모델은 기존 모델과 같은 성능을 유지하면서도 추론(Inference) 처리 시간은 25% 단축했다. 메모리 사용량은 70% 줄여 비용을 약 78% 절감했다. 언어와 이미지 간의 양방향 생성이 가능한 멀티모달 모델은 이미지 생성 품질을 높이기 위해 기존 모델 대비 메모리 사용량을 2배 늘렸고, 추론 처리 시간을 83% 단축해 약 66%의 비용 절감을 이뤄냈다.




    배경훈 LG AI연구원장 [제공=LG]

    배경훈 LG AI연구원장 [제공=LG]



    엑사원 2.0 3가지 플랫폼 제공…“연구개발 혁신”

    엑사원 2.0은 크게 3가지 플랫폼을 통해 솔루션을 전달한다. ▲엑사원 유니버스 ▲엑사원 디스커버리 ▲엑사원 아틀리에 등이다.


    엑사원 유니버스는 전문가용 대화형 AI 플랫폼으로 전문성이 요구되는 분야의 질문에 대해 근거를 기반으로 정확한 답변을 도출한다. 유니버스는 △질의응답·대화 △텍스트 분류·요약 △키워드 추출·생성 △번역 등 기존 기능별 메뉴 분류 방식에서 전문가용 대화형 AI 플랫폼으로 바뀐 점이 두드러진다.


    특히 각 분야 전문가가 믿고 정보를 탐색하며 인사이트를 찾을 수 있는 플랫폼으로 만들기 위해 전문성과 신뢰성을 높이는 데 주력했다. 사전 학습한 데이터는 물론 도메인별 최신 전문 데이터까지 포함해 근거를 찾아내며 추론한 답변을 생성한다. 또 질문에 대한 답변과, 화면 좌측과 우측에 각각 질문 연관성이 가장 높은 전문 문헌들과 AI가 답변하는 과정에서 활용한 단락을 표시한다.


    LG AI연구원은 LG 계열사와 국내외 파트너사들이 ‘엑사원’으로 보다 빠르고 편리하게 각 분야에 특화된 전문가 AI를 사용할 수 있도록 연구개발을 계속하고 있다. AI/머신러닝 분야부터 화학, 바이오, 제약, 의료, 금융, 특허 등 특화 분야별 시스템 구축도 진행 중이다.


    엑사원 디스커버리를 통해 화학 및 바이오 분야의 발전도 앞당긴다. 엑사원 디스커버리는 세상에 없던 새로운 지식을 발견하는 플랫폼이다. 논문과 특허 등 전문 문헌의 텍스트뿐만 아니라 분자 구조, 수식, 차트, 테이블, 이미지 등 非텍스트 정보까지 AI가 읽고 학습할 수 있는 형태로 데이터베이스화하는 심층 문서 이해(DDU, Deep Document Understanding) 기술을 적용했다. 신소재, 신물질, 신약 관련 탐색에 활용 중이다.


    LG AI연구원은 “엑사원 디스커버리를 통해 1만회가 넘었던 합성 시행착오를 수십회로 줄이고, 연구개발 소요 시간은 40개월에서 5개월로 단축할 수 있을 것”이라며 “올해 4분기 그룹 내 화학 및 바이오 분야 연구진들을 대상으로 엑사원 디스커버리 서비스를 제공해 신소재·신물질·신약 관련 연구개발에 혁신을 불러올 것”이라고 기대했다.


    언어와 이미지를 유연하게 활용하는 엑사원 아틀리에를 통해 창의적 영감과 아이디어 제공도 꾀한다. 엑사원 아틀리에는 저작권 확보 이미지-텍스트가 짝을 이룬 페어(Pair) 데이터 3.5억 장을 학습한 엑사원 2.0을 기반으로 이미지 생성과 이미지 이해에 특화된 기능을 제공한다. 아틀리에는 올해 3분기 그룹 내외부 전문 디자이너를 대상으로 서비스를 시행한다.


    지난 6월 셔터스톡(Shutterstock)과 함께 상용화한 ‘캡셔닝 AI’ 기능도 엑사원 아틀리에에 탑재했다. 캡셔닝 AI는 처음 보는 이미지까지 자연어로 설명할 수 있으며, 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등의 메타 데이터를 생성한다.


    LG AI연구원은 “인간과 AI가 상호작용을 통해 디자인을 완성해가는 ‘디자인 싱킹 프로세스(Design Thinking Process)’를 엑사원 아틀리에에 접목하기 위해 미국 파슨스 디자인 스쿨과의 공동 연구개발을 이어가고 있다”고 설명했다.