datasets库之load_dataset

2025/4/21 3:49:52 来源：https://blog.csdn.net/qq_45270993/article/details/144596687 浏览: 次关键词：datasets库之load_dataset

问题

使用peft用lora微调blip2时用到了一个足球数据集，如下：
在这里插入图片描述
原始代码如下

dataset = load_dataset("ybelkada/football-dataset", split="train")

然而这需要梯子才能下载，服务器较难用VPN所以使用autodl的学术加速，然而下载后是这样的
在这里插入图片描述
下载后和源数据不一样，服务器端代码无法直接加载autodl解析的数据，并且直接从网页下载源数据集不能像预训练模型那样直接加载。

解决方案

将源数据下载到本地，并执行下面一行代码：

dataset = load_dataset('parquet', data_files='/home/mayunchuan/.cache/huggingface/datasets/ybelkada/football-dataset/data/train-00000-of-00001-fc7c825a21687306.parquet',split='train')

即可加载，注意datasets的版本，低版本的无法加载本地数据，我用的datasets版本是3.1.0，解析的数据如下
在这里插入图片描述

加载后的数据可以保存到disk上:

dataset.save_to_disk('your path')

下次可以直接调用

# 从磁盘加载数据集
dataset = load_from_disk(dataset_path)

也可以直接加载解析的数据

train_dataset_path = "/home/mayunchuan/.cache/huggingface/datasets/parquet/default-d3b5e02210aa68e5/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec"
dataset = load_dataset(train_dataset_path, split="train")

另外，加不加split都不会影响数据集的解析，如果不加split=‘train’:
在这里插入图片描述
加了:

datasets库之load_dataset

目录

问题

解决方案

相关资讯

热文排行

最新新闻

推荐新闻

热搜词