适用场景 该文档适用于在SSH连接Linux云服务器或者访问该服务器上的应用时偶现连接断开。 约束与限制 修改系统内核参数可能产生内核不稳定,请评估风险后进行操作。 为了确保系统稳定运行,修改内核参数后建议在合理的时间重启系统。 根因分析 …
操作场景 本节操作指导用户查看Windows云服务器的登录日志。 操作步骤 本节操作以2012操作系统云服务器为例。 登录弹性云服务器。 选择“开始 > 管理工具 > 事件查看器 ”。 打开“ Windows日志 > 安全…
操作场景 本节操作适用于Linux操作系统云服务器/etc/passwd文件损坏导致云服务器无法登录的问题。 本节操作为紧急恢复系统方法,需要在单用户模式下会将系统备份初始备份/etc/passwd-文件替换已损坏的/etc/passwd文…
操作场景 本指导适用于用户做网页301重定向时参考使用。 操作步骤 装有IIS的服务器做301重定向 在IIS里把网站正常发布,例如域名为www.aaa.com。 在硬盘上建一个空文件夹。 在IIS里建一个网站,例如域名为aaa.com,指…
问题描述 当ECS实例在未重启的情况下连续运行超过一定时间后,出现IP丢失、实例断网、网络瘫痪的情况,如图1所示。 图1 故障现象 可能原因 ECS实例的网络配置为DHCP(Dynamic Host Configuration Protoc…
问题现象 Linux操作系统云服务器根目录空间占用率过高。例如,以图1为例,根目录空间占用率为96%。 图1 根目录空间占用率过高 查询当前系统存在一个约42G大小的文件access_log,这个文件是apache产生的访问日志文件,从日志…
作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ[“NCCL_DEBUG”] = “INFO”,查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCC…
问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batc…
问题现象 在部署在线服务时,部署失败。进入在线服务详情页面,“事件”页签,提示“failed to pull image, retry later”,同时在“日志”页签中,无任何信息。 解决方法 出现此问题现象,通常是因为您部署的模型过大导…
操作场景 Windows云服务器共计1块主网卡、1块扩展网卡,且两块网卡均绑定弹性公网IP,实现外网访问。 约束限制 操作过程中,请保持主网卡的配置,不要修改。 操作步骤 登录控制台,并选择“计算 > 弹性云服务器”。 在云服务器列表…