近来有同行朋友探讨伺服器的维修,而大多维修界的前辈们,总把维修伺服器看得很神秘,很高深的样子,对技术是守口如瓶。我想在这里抛砖引玉,探讨伺服器的原理和维修。
我是一个搞工业控制设备维修的,专长是硬件维修。工业设备最初源起欧美,发扬于日本,所以无论理论也好,设计也罢,都绕不开国外这个词。在如今网络,软件,物联网,虚拟现实的今天,很多人对硬件维修人员,大多嗤之以鼻。以为就是个玩玩烙铁的体力活,没多少技术含量,其实硬件维修道路艰险且漫长,需要了解的实在很多。

硬件是工业控制设备中重中之重的课题,是虚实交互的桥梁,没这座桥一切都是空谈,是绕不开的执行工具,硬件质量的好坏,直接关系到处理结果。现在世界上顶级的工控设备生产商,都在向模块化生产靠拢。
什么是模块化呢?简单点说就是:把一个设备分拆为几个部分,每个部份,集成起来生产组合起来。这样的好处是,可尽量控制设备的故障范围,节省维护成本,同时拓展了用途。这点在需要联控的领域优势非常的明显。
于是第二个问题就出来了,那就是响应问题。所谓的响应,就如人与人之间的对话,一问一答。马达运行起来那是每分钟几千转的问题,这就是所谓的高速响应。马达的编码器担负起和主控板之间的对话。编码器制造商按要求将编码器演算成脉冲,马达转一圈,很可能编码器就输出了几千个脉冲,这个脉冲以原始位置为起点,每一个脉冲代表一个位置。你也可以这样理解,编码器每圈输出的脉冲越多,定位越准确,误差越小。当然以上说的指示一个概念,实际的软件算法,硬件制造工艺要求,那是相当的复杂的。不过那对与维修工程人员来说,用处不大,但需了解原理。
伺服控制器维修,怎样分析故障?
伺服器的维修,和变频器最大的不同就是没有马达无法试机,而作为维修公司,你不可能备有所有型号的伺服马达,试机是一个绕不开的坎。更让人恼火的是,你不连接编码器,编码器的故障报警会掩盖其他所有故障报警。我的做法是先询问客户,伺服器现场故障情况,比如现场根本没有出现过编码器相关的故障信息,维修时,你就根本不用考虑编码器问题。报警过载过流,电压低,无法定位,无法启动这些故障,我一般直接找故障点,然后反向推理一到两步,为什么会出现这个故障报警。
下面说几个列子,来分析一下维修伺服器的思路。

1.一台伦茨93es系列伺服器,客户说速度不稳定,电流时大时小,然后出现过载,客户还说编码器已经换了,强调编码器是好的。

客户回去不久就打电话,说故障依旧。事情蹊跷,这下必须得去现场了。到了现场,让客户开机,空载正常,低速也正常,但电流也波动。经过仔细观察,居然被我看出了问题,原来客户修改了生产产品规格,由于位置的改变,工厂电工将增量编码器改为了软连接,且中点不同心了。低速的时候还是可以的,高速的时候造成抖动,使编码器输出信号出错。
纠正了客户使用方式,一切恢复正常。记住,伺服器是软硬件和外部设备相连接起控的,当自己费了九牛二虎之力也没找到故障时,就该考虑一下外部有没有问题了。
2.一个客户发了台路斯特C系列伺服器过来维修,故障是使用时出现过载停机,每次故障前,马达会出现震动和噪声。停机一段时间又可以开机。


3.有客户拿了一台提花机专用,叫answer(安速)伺服器过来维修,故障是没有显示。answer这个品牌,是松下伺服的血脉演化而来的,程序架构和应用都差不多。因为提花机已经国产且伺服用量较大,安速这个品牌就和提花机滋润的活到了现在。
没显示肯定电源出了故障,伺服器为了节省空间,很多都采用集成式电源ic,其中又以top24x型号的芯片最多。top24xy的芯片脚位一样,可以通用,不同的型号无非就是输出功率不同而已。换掉top246y,电源正常,测电流检测环路正常,让用户取走。上机,居然报警13,13是母线电压过低,调换控制器工作正常。看样子的确还有故障,拿回来检测母线取样电路,发现母线检测正常。百思不得其解,只得将硬件通路重新检测一番。影响伺服的硬件工作条件的故障依序是:编码器,母线检测,温度检测,电流检测,驱动电路。用排除法一一排除,最后锁定在驱动输出上。我的理由是:伺服输出报警13,可能是输出电流过大,电流过大电压降低,由于伺服没有旋转起来,此时电压检测优先于电流检测。目标清晰了以后,仔细查看,最后故障果然出现在驱动光耦上pc929上,换新,故障排除。

实践告诉我,有的故障报警,是互相关联的,逻辑上存在优先报警级别。有时自己看到的故障提示,并不是故障本身。伺服器维修,其实也没那么复杂,真要遇上了复杂的故障,也大可不必惊慌,大不了带马达测试再维修。
只要你明白了这些,哈哈,套用徐志摩先生话说就是:你不必讶异,更无须惊喜,在转瞬间修好了一个伺服器……






