본문 바로가기
- 배움이 있는 삶/- AI | Big data

Meta AI - 초거대 인공지능 언어모델 오픈소스 공개

by story of interesting 2022. 5. 17.
반응형

출처: https://ai.facebook.com/

 

Meta AI

PAPAYA: PRACTICAL, PRIVATE, AND SCALABLE FEDERATED LEARNING John Nguyen, Anthony Shoumikhin, Ashkan Yousefpour, Carole-Jean Wu, Dzmitry Huba, Harish Srinivas, Hongyuan Zhan, Jesik Min, Kaikai Wang, Kshitiz Malik, Mani Malek, Mike Rabbat, Pavel Ustinov, Rui

ai.facebook.com

http://www.aitimes.kr/news/articleView.html?idxno=25025 

 

[AI 리뷰] 메타 AI, 초거대 인공지능 언어모델 ...1750억개 매개변수의 'OPT-175B' 오픈소스로 공개 - 인

1,000억개 이상의 매개변수가 있는 자연어처리(NLP) 시스템인 대형 언어 모델은 지난 몇 년부터 현재까지 자연어처리 및 인공지능(AI) 연구와 애플리케이션을 혁신시키고 있다.방대한 양의 다양한

www.aitimes.kr

[AI 리뷰] 메타 AI, 초거대 인공지능 언어모델 ...1750억개 매개변수의 'OPT-175B' 오픈소스로 공개

 

연구자들 이 규모의 효과로 다양한 분야에서 연구할 수 있도록 동일한 데이터 세트에서 사전 훈련되고 OPT-175B와 유사한 설정을 사용하는 소규모 기준 모델도 세트로 공개했다. 이러한 소규모 모델의 매개 변수는 1억2천5백만, 3억5천만, 13억, 27억, 67억, 130 억 및 300억(곧 출시 될 660억)을 포함

메타 AI, 1750억개 매개변수의 초거대 인공지능 언어모델 'OPT-175B' 오픈소스로 공개

1,000억개 이상의 매개변수가 있는 자연어처리(NLP) 시스템인 대형 언어 모델은 지난 몇 년부터 현재까지 자연어처리 및 인공지능(AI) 연구와 애플리케이션을 혁신시키고 있다.

방대한 양의 다양한 텍스트에 대해 학습을 시킨 그들은 창의적인 텍스트를 생성하고, 기본적인 수학 문제를 해결하고, 독해력 문제에 답하는 등 놀라운 능력을 보여주고 있다. 그러나, 오픈AI의 GPT-3 등과 같이 유료 API를 통해 이러한 모델과 상호 작용할 수 있지만 대부분의 모델 이용은 리소스가 풍부한 소수의 개발자 또는 기업, 기관으로 제한되어있다.

여기에, 메타 인공지능 연구소(Meta AI AI Research. 이하, 메타AI)는 더 많은 개발 및 연구 커뮤니티가 공개적으로 사용 가능한 데이터 세트에 대해 훈련된 1,750억 개의 매개변수의 인공지능 언어 모델인 'Open Pretrained Transformer(이하, OPT-175B)'를 오픈소스로 공개했다.

특히, 이 규모의 비편향적 언어시스템으로는 세계 최초로 사전 훈련된 모델과 이를 훈련하고 사용하는 데 필요한 코드가 모두 포함되어 있다.

이미지:메타AI

메타 AI는 이 모델에 대한 무결성 유지와 오용을 방지하고 연구사용 사례에 집중하기 위해 비상업적 라이선스 모델로 먼저, 전 세계 기업·기관 연구소와 정부, 시민·사회·학계 및 단체와 관련된 개발자 및 연구자들에게 사용이 허용됐다.

이 모델을 공개하면서 메타 AI는 인공지능의 문제점으로 지적된 인종 및 성별 편향 등 윤리적 취약성 및 오용을 해결하기 위해서는 협업이 필요하다고 강조하며 학술 연구자, 시민 사회, 정책 입안자 및 산업계 등 전체 AI 커뮤니티가 책임 있는 대규모 언어 모델에 대한 명확한 지침으로 윤리적 고려사항을 정의하고 서로 협력해야 한다고 밝혔다.

메타 AI의 OPT-175B는 16개의 엔비디아 V100 GPU을 사용하여 모델을 훈련하고 배포하는 데 사용되는 코드와 함께, 개발 및 연구자 등에 연구 목적으로 이러한 모델의 접근성을 높이고 공통 공유모델에 대한 정량화가 가능한 측정 기준에 뿌리를 둔 잠재적 피해를 분석할 수 있는 기반을 제공한다.

동시에, 메타 AI는 연구자들 이 규모의 효과로 다양한 분야에서 연구할 수 있도록 동일한 데이터 세트에서 사전 훈련되고 OPT-175B와 유사한 설정을 사용하는 소규모 기준 모델도 세트로 공개했다. 이러한 소규모 모델의 매개 변수는 1억2천5백만, 3억5천만, 13억, 27억, 67억, 130 억 및 300억(곧 출시 될 660억)을 포함한다.

특히, 메타 AI는 GPT-3가 직간접적으로 발생시키는 온실 가스의 총량인 탄소 발자국(Carbon Footprint)의 1/7만 사용하여 이 크기의 모델을 성공적으로 훈련시킴으로써 에너지 효율성을 염두에 두고 OPT-175B를 개발했다고 밝혔다.

한편, 이 모델에 대한 연구 논문은 30페이지 분량으로 'OPT: 사전 훈련된 트랜스포머 언어 모델 오픈(OPT: Open Pre-trained Transformer Language Models-다운)'란 제목으로 아카이브를 통해 지난 5일 공개됐다. 현재, 오픈 소스 코드 및 소규모 사전 교육 모델은 깃허브(다운)를 통해 다운받을 수 있으며, OPT-175B에 대한 무료 사용은 라이선스()에 따르며, 메타 AI에 요청하면 된다

 

논문 다운로드 : https://arxiv.org/pdf/2205.01068.pdf?fbclid=IwAR0sOTN79M_GH2ecBdPcrB-z8p06R18QgsNP4Wc_Ya45d4DU3Dn88GgQhck 

 

 

-----------------------

 

국내 기업들도 초거애 AI를 만들기 위해 도전하고 있지만, 글로벌 쟁쟁한 기업들을 따라 갈 수 있을까?

그렇지 못하다고 본다

결국, AI 에서는 몇몇 기업만이 살아 남지 않을까 생각된다. 

 

그리고 나머지 들이 되지 않을까 한다. 현재 스마트폰 산업 처럼..

 

생각해 보면, 굳이 성능도 안 되는 AI 모델들을 사용할 필요가 없다. META 처럼 초거대 AI들이 오픈소스로 공개하고 있는 마당에, 

 

국내에서 준비하고 있는 기업들은 아마 허탈 할 듯 하다 

반응형