• AI创作!更聪明、更完整、原创作!
  • 一款基于BingBot的超级AI机器人,问答、聊天、创作、写文案,更高效便捷的获取信息、知识和灵感!
🔥点击使用 - AI问答专业版

推荐 6 个高质量数据集(覆盖 4 个方向),按‘名称-规模-获取链接-加载代码’整理,要求引用数≥50”

时间 2025-12-08 16:59:29 提问 来自 内蒙古呼和浩特市 的网友 分类 AI文字 浏览 34 热度 0
以下是按您要求涵盖不同领域的6个高质量数据集,每个数据集的引用数都大于50,并提供了获取链接以及加载代码的示例: 1. **数据集名称**:MNIST手写数字识别数据集 - **规模**:包含70000张灰度图片(60000训练集+10000测试集) - **获取链接**:[MNIST Data](http://yann.lecun.com/exdb/mnist/) - **加载代码**: ```python import tensorflow as tf mnist = tf.keras.datasets.mnist (x_train, y_train), (x_test, y_test) = mnist.load_data() ``` 2. **数据集名称**:IMDB电影评论情感分析数据集 - **规模**:50000个电影评论(25000积极的和25000消极的评论) - **获取链接**:[IMDB Dataset](https://ai.stanford.edu/~amaas/data/sentiment/) - **加载代码**: ```python from tensorflow.keras.datasets import imdb vocab_size = 10000 (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=vocab_size) ``` 3. **数据集名称**:UCI机器学习库-成人收入数据集 - **规模**:约50,000条记录,包含14个属性 - **获取链接**:[UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/adult) - **加载代码**: ```python import pandas as pd data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data' income_df = pd.read_csv(data_url, header=None, sep=',\s', na_values=["?"], engine='python') ``` 4. **数据集名称**:CIFAR-10图像识别数据集 - **规模**:60000张32x32彩色图像,分为10个类别 - **获取链接**:[CIFAR-10 and CIFAR-100 datasets](https://www.cs.toronto.edu/~kriz/cifar.html) - **加载代码**: ```python import torchvision dataset = torchvision.datasets.CIFAR10(root='./data', download=True) data_loader = torch.utils.data.DataLoader(dataset, batch_size=4, shuffle=True) ``` 5. **数据集名称**:Google Speech Commands语音命令数据集 - **规模**:超过100k个wave音频文件,涵盖30种不同的语音命令 - **获取链接**:[Speech Commands](https://arxiv.org/abs/1804.03209) - **加载代码**: ```python # 由于涉及音频文件,这是一个加载音频数据集的一般性的伪代码例子 import os import librosa def load_audio_files(audio_dir): audio_files = os.listdir(audio_dir) data = [] for file in audio_files: path = os.path.join(audio_dir, file) audio, sr = librosa.load(path) data.append((audio, sr)) return data ``` 6. **数据集名称**:COCO图像识别数据集 - **规模**:330,000张图像,其中2014年有82个对象类别,2017年为91个 - **获取链接**:[COCO Dataset](https://cocodataset.org/#download) - **加载代码**: ```python import pycocotools.coco as coco from pycocotools.cocoeval import COCOeval annoFile = '/path/to/instances_val2017.json' coco = coco.COCO(annoFile) imgIds = coco.getImgIds() for id in imgIds[:5]: # 只处理前5张图片 img = coco.loadImgs(id)[0] ``` 这些数据集覆盖了图像识别、自然语言处理及计算机视觉等多个方向,且因为被广泛使用,所以引用数都非常高。在使用任何数据集之前,请确保遵循其相应的许可协议。

内容创作(普通版)

内容创作(高级版)

AI智能问答网 免责声明:
以上内容除特别注明外均来源于网友提问,生成式AI回答,请谨慎甄别,未经许可,严谨转载。
点击这里>>使用必应AI助手,更聪明、更完整、更原创!

上一篇 幼儿歌曲弹唱《小星星》实训报告,实训目的,主要内容,过程步骤,结果与分析,讨论小结,实训感悟