由于要做实验,加上实验室卡宕机,选择了GoogleCloud的在线GPU租用服务,毕竟有300刀的免费时间。但从此一段极其恶心的体验开始了。
首先,某地区的GPU的配额数量需要申请。假如你要申请asia-east-c地区的4块V100,你需要提交申请,而后GoogleCloud团队会一遍又一遍的给你发邮件“我们正在跟进您的请求,但是还没有任何进展,保持耐心”。等了5天后实在是觉得这个也太踢皮球了,遂重发邮件申请4块P100。过了2天终于下来。这里花费7天。
其次,你就算申请到了配额,你在创建实例时还需要申请可创建的GPU数量,这里又是和上面一样的步骤,“我们正在跟进您的请求,但是还没有任何进展,保持耐心”。3天后终于回复。
但是不得不说,计算起来GoogleCloud还是很不错的,毕竟是独占一个结点,网速也够快,下东西基本不耗时间。
好,实验结束了,除去赠送的300刀之外,还花费了额外的50刀。这时候感觉还行,对前面申请的繁琐都渐渐忘却。删除实例。
没想到过一天,突然又收到一条扣款???100刀 。我上去一看,实例没删?只能想到一种可能,它删除实例的时候实在太慢,我就先没有管它,后来也觉得应该删了。无奈之下只能彻底停止结算功能。(谷歌云使用VISA信用卡,要想使用需要开启自动扣费,比账户余额危险多)
list极其舒适,主流框架够用,注册应该是送5元,邀请新用户送118,不过0.95/小时的折扣机器似乎很抢手,有时候得抢着租。
市面上提供GPU租用的不少,一开始用的是国外的,比如谷歌,vast.ai这种,薅资本主义羊毛。因为不花钱,必然多花精力和时间,看各种攻略,想各种办法突破限制。不过现在看来其实不划算,有那精力还是做点更有意义的事情,毕竟人的自由时间才是最大的财富。后来就转用国内的服务商,大厂的比如阿里、金山的都比较贵,用了一段时间后,主要用的后来崛起的平价GPU云服务商。各种类型都有,有自己搭建的民房,有用数字币结算的,还有矿机改的,名字不提了。
最近一年半主要用的智星云这家,这次投中的论文也是一直跑在这家上面。智星云的用户类型很多,有做人工智能的,有做渲染测绘的,还有做围棋AI的用户。
这家的特点挺多,比如稳定、安全、灵活、GPU型号多,算力足,租用方便(有这么多???)。这家主要平台是基于小程序的,也算是国内唯一一家(可能根本就不打算给老外用??)。我截个图,长这样:
租用模式灵活:首先租用模式比较灵活,有弹性计费,按分钟扣费的,不想用了随时可以停。同时提供了折扣套餐,折扣套餐非常有特点,提供了1天到93天的阶梯折扣,选择套餐越长越划算。我主要做的强化学习类的项目,一般比较大,这种阶梯折扣非常划算。另外全部可以开发票,硕博人士一般都可以找老师或者学校报销。
GPU选择多:智星云提供的GPU型号从1080ti,2080ti,3080到V100,A100,全有,1-8卡可选。并且很多同类型的GPU都是在一个机房,可以组分布式集群训练。去年做的一个项目尝试过一次集群训练,效率提升非常不错。
预装AI环境:启动的时候选择深度学习镜像,就是装好的的现成镜像。CUDA,cudnn,tensorflow,pytorch,anaconda都装好了。自己想新建环境或者换版本也都很方便。
多种登录方式:ubuntu系统默认提供了三种方式:ssh,VNC图形桌面,jupyternotebook。我一般都是只用ssh登录的,但是不少师弟师妹都喜欢用图形桌面,对新手比较友好。(可以看上面的视频)
免费数据集和云盘:我用的最多的还是他家的云盘,租用前先把数据传上去,租的时候从云盘下载下来,占用时间不多。最近论文搞完,不重要的就先放上面了。智星云提供的免费数据集也挺多,内网下载,速度很快。
手机小程序租用:小程序用着也挺方便的,去年疫情前爬长城的时候,收到提醒短信到期了,也没带电脑,直接在手机上就续租了啥也没耽误。推荐给实验室师弟师妹直接转发就完了。
远程开发:习惯用vscode和pycharm的同学,可以直接跟着他的教程从本地连上服务器进行远程开发。另外GPU服务器的图形桌面上也安装了vscode和pycharm,我有个师妹就是直接用VNC桌面里面的pycharm,即使VNC关了,代码在远端pycharm继续跑。
收到了很多朋友的私信询问智星云的情况,问的比较多的是关于windows服务器的。可能很多朋友是使用windows做深度学习的,还有一些朋友不是做AI,是做其他高性能计算比如流体,或者渲染应用的。我刚登录平台看了下,智星云是有windows服务器的,且支持弹性和套餐租用,并提供了不同种类的预装镜像,使用方便。