OpenAI의 새로운 챗지피티 플래그십 모델인 GPT-4o를 소개합니다. 이 모델은 오디오, 비전, 텍스트를 실시간으로 처리할 수 있는 능력을 갖추고 있습니다.
GPT-4o란?
GPT-4o(“o”는 “omni”의 약자)는 보다 자연스러운 인간-컴퓨터 상호작용을 위한 한 걸음 더 나아간 모델입니다. 이 모델은 텍스트, 오디오, 이미지를 입력으로 받아들이고, 이를 기반으로 텍스트, 오디오, 이미지 출력으로 생성할 수 있습니다. GPT-4o는 오디오 입력에 대해 최소 232밀리초, 평균 320밀리초 만에 응답할 수 있어 인간의 대화 응답 시간과 유사합니다.
또한, 영어 텍스트와 코드 처리에서는 chatGPT-4 Turbo와 비슷한 성능을 제공하면서도, 비영어 텍스트 처리에서 크게 향상되었습니다. 더불어, 속도는 훨씬 빠르고 API 사용 비용은 50% 저렴합니다. GPT-4o는 특히 비전과 오디오 이해 능력에서 기존 모델보다 뛰어납니다.
모델 기능
이전에 GPT-4o가 나오기 전에는 Voice Mode를 통해 ChatGPT와 대화할 수 있었지만, 평균 지연 시간은 GPT-3.5에서 2.8초, GPT-4에서 5.4초였습니다. 이 방식은 세 개의 별도 모델로 구성된 파이프라인을 사용하여, 하나의 모델이 오디오를 텍스트로 전사하고, GPT-3.5 또는 GPT-4가 텍스트를 처리한 후, 세 번째 모델이 그 텍스트를 다시 오디오로 변환하는 방식이었습니다. 이 과정에서 GPT-4는 음색, 여러 화자, 배경 소음 등을 직접 관찰하지 못하고, 웃음, 노래, 감정 표현 등을 출력할 수 없었습니다.
GPT-4o는 텍스트, 비전, 오디오 전반에 걸쳐 하나의 새로운 모델을 엔드 투 엔드로 훈련시켰습니다. 이는 모든 입력과 출력을 동일한 신경망이 처리함을 의미합니다. GPT-4o는 이러한 모든 모달리티를 결합한 첫 모델이기 때문에, 모델의 가능성과 한계를 탐구하는 초기 단계에 있습니다.
언어 토크나이제이션
새로운 토크나이저의 압축을 다양한 언어군에 걸쳐 평가한 결과, 20개의 대표적인 언어가 선택되었습니다. 특히 우리말 한글 개선도 포함입니다.
- 한국어: 토큰 수 1.7배 감소 (45에서 27로)
- 예시: "안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!"
모델 안전성과 한계
GPT-4o는 학습 데이터 필터링과 모델 행동 정제를 통해 모든 모달리티에서 안전성을 내장하고 있습니다. OpenAI는 또한 음성 출력에 대한 안전 장치를 제공하기 위해 새로운 안전 시스템을 만들었습니다.
GPT-4o는 OpenAI의 준비 프레임워크에 따라 평가되었으며, 자발적인 약속과 일치합니다. 사이버 보안, CBRN, 설득력, 모델 자율성에 대한 평가 결과, GPT-4o는 어떤 범주에서도 중간 이상의 위험을 나타내지 않았습니다. 이러한 평가에는 모델 훈련 과정 전반에 걸쳐 자동화된 평가와 인간 평가가 포함되었습니다. OpenAI는 모델의 능력을 더 잘 이끌어내기 위해 사용자 정의 미세 조정과 프롬프트를 사용하여 안전 완화 전후 버전을 테스트했습니다.
GPT-4o는 또한 사회 심리학, 편향과 공정성, 잘못된 정보 등 분야의 70명 이상의 외부 전문가와 함께 광범위한 외부 검증을 거쳤습니다. 이를 통해 새로운 모달리티가 도입되거나 증폭되는 위험을 식별하고, 모델과의 상호작용 안전성을 개선하기 위해 안전 개입을 구축했습니다. OpenAI는 새로운 위험이 발견됨에 따라 계속해서 이를 완화할 것입니다.
모델 가용성
GPT-4o는 이번에 실용성을 중심으로 딥러닝의 한계를 확장하는 최신 단계입니다. OpenAI는 지난 2년 동안 모든 계층에서 효율성 개선을 위해 많은 노력을 기울였습니다. 이러한 연구의 첫 결과로, GPT-4 수준의 모델을 훨씬 더 널리 사용할 수 있게 되었습니다. GPT-4o의 기능은 점진적으로 롤아웃될 예정이며, 오늘부터 확장된 레드 팀 액세스가 시작됩니다.
GPT-4o의 텍스트와 이미지 기능은 오늘부터 ChatGPT에서 사용 가능하며, 무료 티어와 최대 5배 높은 메시지 제한이 있는 Plus 사용자에게 제공됩니다. 또한, 향후 몇 주 안에 ChatGPT Plus에서 GPT-4o를 사용한 새로운 버전의 Voice Mode를 알파 테스트로 롤아웃할 예정입니다.
개발자들도 이제 GPT-4o를 텍스트 및 비전 모델로 API에서 접근할 수 있습니다. GPT-4o는 GPT-4 Turbo에 비해 2배 빠르고, 가격은 절반이며, 5배 높은 속도 제한을 가지고 있습니다. OpenAI는 향후 몇 주 동안 신뢰할 수 있는 소규모 파트너 그룹에 GPT-4o의 새로운 오디오 및 비디오 기능 지원을 출시할 계획입니다.
Apple 아이패드 개러지밴드 음악을 위한 최고의 가이드북
오늘부터 프로듀서!
아이패드로 나만의 음악 만들기 with 개러지밴드
악기 연주, 녹음, 믹싱, ChatGPT AI 활용까지, 취미로 시작하는 오렌지노의 작곡 입문
YES24에서 보기 tinyurl.com/aimusicbookyes
교보문고에서 보기 tinyurl.com/aimusicbookkb
아이패드 AI 작곡 강의 등 섭외 및 제휴 문의 ipad@kakao.com 070-7954-1690 카톡ID: oranjino
애플 공식 홈페이지로 이동하기
오렌지노 아이패드 개러지밴드 연주 강의 뿐 아니라 클래스101 모든 강의 연간 구독 크리에이터 초대 링크로 할인받기
아이패드 개러지밴드 음악 14년차 강사 오렌지노
그 밖의 각종 방송 출연, 기사, 정기 기고, 공연, 강의, 강좌 활동 다수
'굿서비스상자' 카테고리의 다른 글
스포티파이 무료 재생 서비스 출시, 유료 버전과 다른 점은? (0) | 2024.10.15 |
---|---|
생성형 AI 음악 작곡 믹스오디오를 반드시 써봐야 하는 이유 (0) | 2024.07.08 |
맥용 chatGPT 4o 앱 사용해보니 (0) | 2024.05.28 |
중국 등에서 VPN 한국으로 설정하기, 노드vpn 추천 (할인중) (0) | 2023.11.15 |
트위터와 일론 머스크 X 사랑은 로고 변경으로 (0) | 2023.07.24 |
스레드 이용 후기. 트위터 잡을 수 있을까? (0) | 2023.07.07 |
chatGPT 플러그인 사용 방법 (0) | 2023.05.17 |
출첵 한번에 약 3백원씩 쌓는 지식 커뮤니티 아하 추천인 코드 P35UWF (0) | 2023.02.17 |
유튜브 쇼츠 PC 업로드 방법 (2) | 2022.01.04 |
카카오뷰 시작! 오렌지노 iPad GarageBand 개러지밴드 채널 (0) | 2021.08.07 |