硬件子系统是计算机系统中最底层的物理设备, 是整个系统能否正常启动的关键。计算机设备经常遇到硬件故障, 在整个系统不能正常启动时, 如何判定是硬件故障还是软件故障?是哪个硬件设备故障?下面以Windows操作系统为例介绍几种常见硬件故障的实例解析。
实例 1:按下电源开关后, 没有显示检测信息和发出报警声, 显示器黑屏
思路和原理:此故障以上电自检是否正常执行和有无报警声音为思路重点。其原理是当按下电源开关时, 电源开始给主板和其他设备供电, 主板的控制芯片组向CPU发出初始化命令, CPU即刻从地址FFFF0h处访问内存执行一条与BIOS(Basic Input/Output System)相关的跳转指令, 跳到系统BIOS中真正的启动代码处执行上电自检POST(Power On Self Test)程序。POST的主要任务是检测系统中关键设备是否存在及是否正常。POST的检测过程是在显卡初始化之前, 所以在屏幕上无法显示。若POST发现致命错误时, BIOS则通过喇叭发出报警声。
分析和推断:屏幕上无任何检测信息, 说明POST没有执行或执行过程中发现错误, 但发现错误时应该报警而事实上又无任何报警声音, 由此可推断上电自检程序根本没有正常执行, 其原因无非是主板出了故障加不上电或者是供给主板的那一路电源没有输出。
解决方案:将可正常使用的、同一型号的电源替换现有电源后, 再次启动系统, 即可最终定位故障设备。
实例 2:按下电源开关后, 喇叭发出“嘟嘟”报警声, 显示器黑屏
思路和原理:思路重点放在显卡初始化之前的自检过程。当接通电源开关后, 系统BIOS启动代码执行POST程序之前, 主板控制芯片组向CPU发出初始化命令时, 若CPU存在问题就会报警, 或者是CPU在地址FFFF0h处访问内存执行跳转指令时, 若内存有问题也会报警。
分析和推断:此故障显示器黑屏是正常的, 因为在显卡初始化之前POST就终止了包括显卡在内的对其他硬件设备的检测, 且BIOS通过喇叭发声的长短和次数来报告错误的类型。因此, 该故障的推断比较明显, 只要通过喇叭发声的长短和次数便可定位故障设备是CPU还是内存。
解决方案:将CPU或内存条从主板的插槽中拔出, 观察、清洁后重新插入原位, 内存还可更换插槽, 或将CPU和内存条装置另一相同型号的主板上进行测试, 或彻底更换相同型号的CPU或内存条。
实例 3:按下电源开关系统正常启动后, 显示器黑屏
思路和原理:此故障要以系统正常启动后屏幕上应该显示检测信息为依据, 思路重点放在与显示部分相关的系统上。那么系统正常启动的顺序过程是当POST上电自检瞬间完成后, 紧接着, 系统BIOS将要依次完成下列任务:对显卡进行初始化并显示初始化信息等; 系统BIOS显示自己的类型、序列号和版本号等; 检测和显示CPU的类型和工作频率、测试内存容量等; 检测标准硬件设备等; 检测与配置即插即用设备并显示名称和型号等; 显示系统配置列表及资源和相关工作参数等; 更新扩展系统配置数据等; 最后根据用户指定的启动顺序显示出操作系统的主画面。
分析和推断:第一阶段, POST自检全过程没有发现任何错误和报警声; 第二阶段, 系统BIOS首先初始化显卡并依次顺利完成了后面的全部检测过程, 这两个阶段都是正常执行和完成的。因此可推断, 与显示系统相关的设备存在问题, 而显卡和显示器是首要的怀疑对象。
解决方案:将显示器或显卡移至另一台完全正常的主机上进行检测, 即可最终定位故障设备。
实例 4:用户正常使用时系统不定时死机
思路和原理:思路重点应放在硬件子系统上。其原理是硬件尤其是关键设备存在问题时必然导致系统整体死机, 而标准设备或即插即用设备或软件子系统的故障只能造成部分瘫痪。
分析和推断:为了验证上述思路, 将系统重新启动后又处于完全正常的状态, 但持续一段时间后系统再次死机。这说明关键设备的硬件没有问题, 否则系统不可能再次正常启动, 进一步分析, 辅助设备对关键设备产生间接影响的并且与时间和温度相关部件只有风扇, 而关键设备中CPU配置有风扇。因此可以推断, 此故障是由于风扇时转时停、CPU过热而导致自动保护所引起的系统不定时死机。
解决方案:清洗或更换相同型号的风扇。
实例 5:系统启动过程中“欢迎使用”主画面显示后系统死机
思路和原理:因为“欢迎使用”是操作系统的主画面, 所以思路重点应着眼于和操作系统有关的方面。其原理是系统BIOS完成了更新扩展系统配置数据后, 将根据用户指定的启动顺序从C盘(硬盘)启动, 读取和执行硬盘上的主引导记录; 主引导记录接着从分区表中找到第一个活动分区; 然后读取和执行此活动分区的分区引导记录; 分区引导记录将负责读取和执行操作系统最基本的系统文件IO.sys等操作, 然后显示出操作系统的主画面等。
分析和推断:系统BIOS已经正确地读取和执行了硬盘的主引导记录并从分区表中找到了第一个活动分区(即C盘)且读取和执行了分区引导记录等, 这说明涉及到了硬盘和硬盘中的操作系统, 因此可以推断此故障是硬盘或存储在硬盘中的操作系统出了问题。
解决方案:无论是操作系统的软件错误还是硬盘的非物理损坏, 都应格式化磁盘重新安装操作系统。若硬盘是物理损坏则更换硬盘。