ssh 下载流程
- 在 linux 服务器上生成 ssh key
- 将 pub key 放入 huggingface 的 setting 中
- 通过 git lfs install 然后 git clone git@hf.co … 来下载数据
遇到的问题
一直卡在 Updating files 后
卡住的可能原因:
-
系统当前限制了允许监视的最大文件数:
cat /proc/sys/fs/inotify/max_user_watches
这会显示系统当前允许监视的最大文件数
-
解决方案:
- 增加系统限制:编辑
/etc/sysctl.conf
文件,添加:
然后运行fs.inotify.max_user_watches=524288
sudo sysctl -p
使更改生效
- 增加系统限制:编辑
https 下载
- git lfs install 后
git clone https://huggingface.co/datasets/xxx
- 如果用镜像网站的话,先
export HF_ENDPOINT=https://hf-mirror.com
后- 再
git clone https://hf-mirror.com/datasets/xxx
- 🔥如果 git clone 特别慢的话,可以用
huggingface-cli download --repo-type dataset username/dataset_name --local-dir ./dataset_local
。
- 再
- 镜像网站的话,需要注意:
- 得是 public 的 dataset 才能通过镜像网站下载。
- 选用的 condition 也需要开放,不能要求登陆或者 share contact information,不然无法通过镜像网站下载。