Llama 대형 모델 지원하는 무료 AI 챗봇
<온라인에서도 사용 가능> |
OpenAI 호환 API 무료 제공 | GroqCloud
GroqCloud는 사용자가 AI 모델을 실행하고 관리할 수 있는 환경을 무료로 제공하는 Groq의 고성능 AI 추론 플랫폼이다. 쉽게 말해 이전에 소개한 LLM(대형 언어 모델) 도구처럼 (한도량 안에서) 무료로 AI 챗봇을 사용할 수 있다는 것. LLM뿐만 아니라 Whisper 같은 자동 음성 인식(ASR) 모델도 지원한다(「그 밖의 무료 오프라인 챗봇」).
현재 GroqCloud가 지원하는 AI 모델은 Llama 3.1 8B, Llama 3.1 70B, Llama 3 8B, Llama 3 70B, Mixtral 8x7B, Gemma 7B, Gemma 2 9B, Whisper Large V3 등등
GroqCloud 플랫폼은 온라인에서도 사용할 수 있지만, GroqCloud의 장점은 ‘Cloud’라는 명칭에서 알 수 있듯 로컬 PC에서 사용할 수 있는 (OpenAI 호환) API를 무료로 제공한다는 것. 사용자는 ‘GPT4All’ 같은 LLM 클라이언트를 사용해 PC에서 GroqCloud가 제공하는 API를 이용할 수 있다.
GroqCloud 특징
• 고성능 추론: GroqCloud는 AI 추론에 특화된 Groq의 칩 기술을 활용하여 뛰어난 성능을 제공합니다. 이는 특히 대규모 데이터 처리와 복잡한 AI 모델의 빠른 실행을 가능하게 합니다.
• 확장성: GroqCloud는 클라우드 기반 서비스로, 사용자의 필요에 따라 쉽게 확장할 수 있습니다. 이는 AI 모델의 실시간 추론 작업이나 대량의 데이터 처리 작업에 적합합니다.
• 유연한 통합: 다양한 AI 프레임워크와 모델을 지원하여, 개발자들이 기존의 AI 워크플로우를 GroqCloud에 통합하기 쉽게 만들어 줍니다. 이는 AI 모델의 배포와 관리에서 유연성을 제공합니다.
• 효율적인 리소스 사용: Groq의 아키텍처는 에너지 효율성과 비용 효율성을 고려하여 설계되었습니다. 이는 클라우드 기반 서비스에서 중요한 요소로, 운영 비용을 절감하는 데 도움을 줍니다.
• 보안 및 관리: GroqCloud는 데이터 보안을 중요시하며, 사용자의 데이터를 안전하게 보호할 수 있는 다양한 보안 기능을 제공합니다. 또한, 직관적인 관리 도구를 통해 사용자가 클라우드 리소스를 쉽게 관리할 수 있습니다.
• 사용자: 36만 명 이상의 개발자 지원 및 다양한 AI 애플리케이션 개발을 지원합니다.
• 최근 발전 사항: 6억 4천만 달러의 Series D 투자 유치, 10만 개 이상의 추가 LPU 배포 계획, 지속적인 플랫폼 확장 및 기능 개선 등등.
GroqCloud API 이용하기
console.groq.com에 가입 후, [API Keys] 탭으로 이동해 [Create API Key] 버튼을 클릭해 새 API를 발급받는다.
API 이름은 적당히 지어주면 되는데, 일단 오늘 테스트에 사용할 모델 이름을 따서 간단하게 ‘llama-3.3-70b-versatile’로 설정했다.
[Submit]을 클릭하면 API Key를 받을 수 있는데, 좀 있다 바로 사용할 것이니 메모장 같은 곳에 복사해 놓자.
이제 OpenAI API와 호환되는 LLM 클라이언트에서 앞서 발급받은 GroqCloud API를 사용할 수 있는데, 일단 내가 즐겨 사용하는 LM Studio는 API 형식으로 모델을 추가하는 것이 안 되는 같아 GPT4All 클라이언트를 사용했다.
GPT4All 실행 후 [Models]에 있는 모델 목록을 뒤지면, [OpenAI-compatible] 형식으로 모델을 추가할 수 있는 것을 알 수 있다. 위에서부터 순서대로 API Key, API 주소, 모델 이름을 입력하고 [Install] 버튼을 클릭하면 모델이 등록된다.
API URL: https://api.groq.com/openai/v1
Model List and Limits: https://console.groq.com/settings/limits
llama-3.3-70b-versatile 간단 테스트
테스트 삼아 GPT4All의 [LocalDocs](로컬 문서를 불러오는 기능)으로 린훙원의 책 『TSMC, 세계 1위의 비밀』의 리뷰를 작성하게 했다. GPT-4o가 작성한 리뷰와 비교하면 llama-3.3-70b-versatile의 한국어 문서 요약 및 정리 능력은 많이 뒤떨어지는 것을 알 수 있다.
책 한 권에 대한 리뷰를 작성하게 한 다음, 추가 질문을 하자 TPM(tokens per minute) 오류가 떴다. Metrics 탭에서 토큰 사용량 모니터링을 확인해 보니 토큰 제한을 훌쩍 넘은 것을 알 수 있다.
마무리
예전에 램 20GB 사용할 땐 모델 크기가 19GB짜린 당연히 사용 불능으로 표시되었지만, 최근에 램 업그레이드 후 총 메모리가 36GB 되고 나서부터는 사용할 수 있게 된 것으로 보아 llama-3.3-70b 등급의 모델을 오프라인으로 사용하려면 PC 메모리가 최소 32GB 이상은 되어야 할 것 같다. AI 때문에 램 가격이 오른다는 말이 괜히 나온 것은 아니니라.
아무튼, GroqCloud를 이용하면 PC나 태블릿 등 인터넷이 연결된 기기의 OpenAI API를 지원하는 앱에서 AI 추론을 빠르게, 그것도 무료로 이용할 수 있다.
무료 계정 API의 경우 일일 토큰 사용량 제한이 있지만, 현재 API 사용량 제한은 ‘각각의 모델이 사용한 토큰 사용량의 총합‘으로서가 아니라 모델별로 설정되어 있어, 여러 모델을 병용하면 무료 사용자도 넉넉하게 이용할 수 있다(A라는 모델의 일일 사용량을 다 소진했다면 B 모델, C 모델, D 모델 등을 사용해 API를 계속 활용할 수 있음).
비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요