
minimax-image-understanding使用多模态大模型理解图片内容,生成业务含义描述。支持多种模型:(1) MiniMax VLM (2) OpenAI GPT-4V (3) Claude Vision。用于理解截图、图表、文档照片等,生成精准的文字描述。
multimedia-to-obsidian将任意多媒体文档导入 Obsidian 知识库。支持 PPT、PDF、DOCX、图片等格式,自动提取每一页/每一张图片,使用多模态模型理解内容,生成文字描述后存入 OB。适用于:(1) 整理培训课件 (2) 迁移笔记到 OB (3) 将图片资料转为结构化知识。