2024/12/07

,

무료 AI 이미지 설명 | Moondream

무료 AI 이미지 설명 | Moondream

오픈 소스 AI 비전-언어 모델(VLM) | Moondream

비전-언어 모델(Vision-Language Mode)에 대해 한마디로 설명하면 AI가 세상을 시각적으로 어떻게 보는 가를 이해하는 것이다. 비전-언어 모델을 사용하면 사진 같은 시각적 콘텐츠를 텍스트 기반으로 분석할 수 있다. 그런 VLM 중 하나가 Moondream이다.

Python 기반의 오픈 소스인 Moondream 프로젝트는 현재 CPU 추론만 지원한다. CUDA 등의 GPU 가속은 추후 구현될 예정이라고 한다. 이왕이면 내장 GPU 사용자를 위해 DirectML(Direct Machine Learning)이나 Vulkan 같은 범용성 있는 API도 지원해 주었으면 좋겠다.

Moondream 특징

• 모델 크기 및 성능: Moondream은 Moondream 2B와 Moondream 0.5B와 같은 양자화된 모델을 제공하며, 각각 1GB와 800MB의 메모리를 요구합니다. 이 모델들은 작은 크기에도 불구하고 대형 모델에 필적할 정도로 뛰어난 성능을 자랑합니다.
• 양자화 인식 훈련: Quantized Aware Training을 지원하여 모델의 효율성을 높입니다.
• 라이선스 및 접근성: Apache 2.0 라이선스 하에 제공되어, 누구나 자유롭게 사용할 수 있습니다.
• 기능: 인간과 유사한 답변 생성, 세부적인 이미지 설명 생성, 객체 탐지 및 위치 식별과 같은 다양한 기능을 갖추고 있습니다.
• 성능 및 인기: Moondream은 속도와 성능 면에서 높은 평가를 받으며, 600만 건 이상의 다운로드를 기록했습니다. 지속적으로 새로운 기능과 개선 사항이 추가되고 있습니다.

Moondream 다운로드

github으로부터 설치: 링크

오프라인 버전: 다운로드 1 / 다운로드 2
┗ 오프라인 버전 출처: jian27.com


사진 출처: Pixabay, 원신, 「화조추월야 – 달빛연가(花朝秋月夜)

Moondream 사용해 보기

Moondream WebUI

오프라인 버전 압축해제 후 启动web页面.bat을 실행하고 웹브라우저를 통해 127.0.0.1:7860로 접속하면 Moondream WebUI를 사용할 수 있다.

Moondream WebUI

[Input Prompt]에 질문을 입력하고(예: Describe this image, 한국어 인식 못 함), [Sumbit]을 클릭하면 AI가 사진에 관한 질문에 답변해 준다.

Ryzen 3 5300U에서 70초 정도 걸렸다.

Moondream 테스트

게임 원신의 페이몬

질문: Describe this image.

답변: The image depicts a character from a video game, with a serene expression, set against a night sky backdrop. The character is wearing a white outfit adorned with a blue and orange design, and a red headband. The game interface includes a dialogue box with Korean text, and a "Pause" button at the top left. The character's name is displayed in Korean at the bottom of the screen.

노트북 램 장착

질문: Describe this image.

답변: The image shows the internal components of a laptop, focusing on a RAM module with a label and a connector.

노트북 DDR4 메모리

질문: Describe this image.

답변: The image shows a close-up of a circuit board with various electronic components, including memory chips and transistors.

자동차 앞에 있는 여자 사진

질문: Describe this image.

답변: A woman with braided hair and sunglasses is posing next to a vintage green Volkswagen Beetle with a red Coca Cola cooler on its roof, set against a beach backdrop.

그리스의 어느 마을 사진

질문: Describe this image. And guess which country the village in the photo is.

답변: The image depicts a picturesque village perched on a hillside, with a cluster of buildings featuring a mix of architectural styles and colors. The village is situated in a Mediterranean region, as suggested by thepresence of a church tower and the overall aesthetic of the scene.

남자 3, 여자 2명이 함게 있는 사진

질문: How many men and women? And how many are black(남자와 여자는 몇 명입니까? 그리고 흑인은 몇 명입니까)?

답변: There are five people in the image: three men and two women. Two of the men are black(이미지에는 다섯 명의 사람이 있습니다. 남자 세 명과 여자 두 명입니다. 남자 중 두 명은 흑인이다).

중국 드라마 사진

질문: Guess the historical background.

답변: The image features four people dressed in traditional Asian clothing, standing in front of a temple. The attire suggests that they might be from a historical period or region where such clothing is still worn. The presence of a temple in the background further supports the idea that the scene takes place in an Asian country or region with a rich cultural heritage.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요