DATASET
Open Source Community
WebLI
一个包含10亿张图片和120亿个文本的数据集,用于多语言语言-图像模型的训练。
Updated 9/20/2024
github
Description
Awesome-MLLM-Datasets
数据集概述
该项目旨在收集和整理用于多模态大模型训练的各种数据集,包括但不限于预训练数据、指令微调数据和上下文学习数据。目标是提供一个全面的资源库,支持研究人员在开发和优化多模态AI系统时更容易访问高质量的数据集。
数据集分类
预训练数据集
多模态指令微调数据集
- 待补充
上下文学习数据集
- 待补充
多模态思维链数据集
- 待补充
多模态RLHF数据集
- 待补充
评估基准数据集
- 待补充
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Login to Access
Please login to view download links and access full dataset details.
Topics
South African Theatre
Multilingual Processing
Source
Organization: github
Created: 9/2/2024
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.