问题描述 云服务器显示的Windows操作系统时间与本地标准时间不一致。 图1 操作系统时间与本地标准时间不一致 可能原因 系统时间由于受到网络或一些进程驱动的影响可能会出现和标准时间不一致的情况。 处理方法1 手动同步系统时间。 单击桌面…
操作场景 本节操作适用于Ubuntu16.04操作系统与云服务器设置默认启动内核,其他Ubuntu版本可能存在差异。 操作方法 打开/etc/default/grub文件(以启动第三内核为例),修改GRUB_DEFAULT的值为”…
问题描述 系统长期运行后,free命令查看系统内存,发现剩余内存不足,大部分是buffers和cached。 问题分析 在 Linux 的内存管理中,buffer是Linux内存中的Buffer cache。cache是Linux内存中的P…
操作场景 本节操作介绍云服务器远程桌面服务配置和授权激活的操作步骤。 本节操作以Windows 2012操作系统为例。 操作步骤 申请多用户会话授权的license 激活服务器 配置远程桌面会话主机授权服务器 申请多用户会话授权的licen…
操作场景 本节操作介绍如何设置Windows服务器长时间保持远程桌面不被自动断开。 操作步骤 以下操作以Windows 2008操作系统为例。 打开“开始 > 运行”,输入“gpedit.msc”,打开“本地组策略编辑器”。 图1 g…
操作场景 本节操作介绍Linux操作系统云服务器使用重新挂载系统盘的方式重置密码的操作步骤。 本文档适用于X86架构的CentOS 7、Ubuntu、EulerOS操作系统云服务器。 本节操作会卸载云服务器的系统盘,为避免数据丢失,请在重置…
作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ[“NCCL_DEBUG”] = “INFO”,查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCC…
问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batc…
问题现象 在部署在线服务时,部署失败。进入在线服务详情页面,“事件”页签,提示“failed to pull image, retry later”,同时在“日志”页签中,无任何信息。 解决方法 出现此问题现象,通常是因为您部署的模型过大导…
操作场景 Windows云服务器共计1块主网卡、1块扩展网卡,且两块网卡均绑定弹性公网IP,实现外网访问。 约束限制 操作过程中,请保持主网卡的配置,不要修改。 操作步骤 登录控制台,并选择“计算 > 弹性云服务器”。 在云服务器列表…