需求人群
Pixtral 12B 适合需要进行复杂图像和文本处理的用户,如数据分析师、研究人员和开发人员。它的多模态能力使其成为处理图表、文档和图像的理想选择,同时保持了文本处理的高性能,适合需要在文本和图像之间进行复杂交互的场景。
使用场景
使用 Pixtral 12B 分析图表和图形,以理解数据趋势。通过上传文档,回答有关文档内容的复杂问题。结合多张图像信息,生成详细的报告或总结。
产品特色
原生多模态,通过交错图像和文本数据进行训练。在多模态任务上表现出色,特别是在指令遵循方面。在文本基准测试中保持最先进性能。支持可变图像尺寸和宽高比。能够在长上下文窗口中处理多张图像。新的视觉编码器,支持原生可变图像尺寸。多模态 Transformer 解码器,能够处理任意数量的图像。
使用教程
1通过 Mistral AI 的平台或 Le Chat 界面尝试 Pixtral 12B。2在模型列表中选择 Pixtral 12B 并上传需要处理的图像。3提出关于图像的问题或指令,Pixtral 12B 将根据图像内容给出回答。4利用 API 调用,将 Pixtral 12B 集成到各种应用程序和工作流程中。5使用 mistral-inference 工具在本地运行模型,下载模型文件并加载。6构建请求,包括图像 URL 和文本提示,发送给模型进行处理。7获取模型的输出结果,并根据需要进一步处理或展示。