欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > datasets库之load_dataset

datasets库之load_dataset

2025/4/21 3:49:52 来源:https://blog.csdn.net/qq_45270993/article/details/144596687  浏览:    关键词:datasets库之load_dataset

目录

  • 问题
  • 解决方案

问题

使用peft用lora微调blip2时用到了一个足球数据集,如下:
在这里插入图片描述
原始代码如下

dataset = load_dataset("ybelkada/football-dataset", split="train")

然而这需要梯子才能下载,服务器较难用VPN所以使用autodl的学术加速,然而下载后是这样的
在这里插入图片描述
下载后和源数据不一样,服务器端代码无法直接加载autodl解析的数据,并且直接从网页下载源数据集不能像预训练模型那样直接加载。

解决方案

将源数据下载到本地,并执行下面一行代码:

dataset = load_dataset('parquet', data_files='/home/mayunchuan/.cache/huggingface/datasets/ybelkada/football-dataset/data/train-00000-of-00001-fc7c825a21687306.parquet',split='train')

即可加载,注意datasets的版本,低版本的无法加载本地数据,我用的datasets版本是3.1.0,解析的数据如下
在这里插入图片描述

加载后的数据可以保存到disk上:

dataset.save_to_disk('your path')

下次可以直接调用

# 从磁盘加载数据集
dataset = load_from_disk(dataset_path)

也可以直接加载解析的数据

train_dataset_path = "/home/mayunchuan/.cache/huggingface/datasets/parquet/default-d3b5e02210aa68e5/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec"
dataset = load_dataset(train_dataset_path, split="train")

另外,加不加split都不会影响数据集的解析,如果不加split=‘train’:
在这里插入图片描述
加了:
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词