迅维网

查看: 1854|回复: 18
打印 上一主题 下一主题
[显卡维修]

一张老矿工的复健

    [复制链接]
跳转到指定楼层
1#
发表于 2022-2-28 18:49:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式 来自: 美国 来自 美国

马上注册,获取阅读精华内容及下载权限

您需要 登录 才可以下载或查看,没有帐号?注册

x
一张EVGA 2060s

到手所有电压正常,上机直接亮,3Dmark直接跑完

                               
登录/注册后看高清大图


仔细看了拍卖说明才发现,上家是用这个卡挖矿的,在他的矿机开始出CUDA error,于是便宜卖给了我

果然,挖矿能够复现问题,显存默认频率6800MHz进去会掉到5000MHz,大概34MH。V星Afterburner里把显存降频到6300MHz左右也不能稳定,几分钟就降频到5000MHz。看来这卡显存P0的频率就是稳不住了。

我堂堂2060s,34MH怎么行,mods超频扫起来。超到8000MHz都能跑过。

最后折腾半天用这个跑出failure

Command Line : gputest.jse -long -matsinfo -test 94 -dramclk 8000


中略

-------------------------- END ASSERT INFO DUMP --------------------------
NewWfMats Memory Errors
Read    Error Count: 0
Write   Error Count: 13601
Unknown Error Count: 0

=== MEMORY ERRORS BY SUBPARTITION ===
SUBPART READ ERRORS WRITE ERRORS UNKNOWN ERRS
------- ----------- ------------ ------------
FBIOA0            0            0            0
FBIOA1            0            0            0
FBIOB0            0            0            0
FBIOB1            0        13601            0
FBIOC0            0            0            0
FBIOC1            0            0            0
FBIOD0            0            0            0
FBIOD1            0            0            0

Failing Bits:
   B032 B033 B034 B035 B036 B037 B038 B039 B041 B043 B045 B047 B048 B049 B050 B051
B052 B053 B054 B055

=== MEMORY ERRORS BY ADDRESS ===
ADDRESS : Failing memory address, or buffer offset if starting with 'X+'
T : Type of memory error: W = write, R = read
P : Partition (FBIO)
S : Subpartition
B : Bank
E : Beat
U : PseudoChannel
   ADDRESS EXPECTED   ACTUAL  REREAD1  REREAD2 FAILBITS TPSBEU  ROW COL                                       BIT(s)
   ------- --------   ------  -------  ------- -------- ------  --- ---                                       ------
0070fce2c0 55555555 ff00ff80 ff00ff80 ff00ff80 aa55aad5 WB1700 0e1f 03f B032,B034,B036,B038,B039,B041,B043,B045,B047
0070fce2c4 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1720 0e1f 03f      B033,B035,B037,B039,B041,B043,B045,B047
0070fce2c8 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1740 0e1f 03f      B032,B034,B036,B038,B041,B043,B045,B047
0070fce2cc 55555555 ff7fffff ff7fffff ff7fffff aa2aaaaa WB1760 0e1f 03f      B033,B035,B037,B039,B041,B043,B045,B047
0070fce2d0 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1780 0e1f 03f      B032,B034,B036,B038,B041,B043,B045,B047
0070fce2d4 55555555 ffbfffff ffbfffff ffbfffff aaeaaaaa WB17a0 0e1f 03f B033,B035,B037,B038,B039,B041,B043,B045,B047
0070fce2d8 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB17c0 0e1f 03f      B032,B034,B036,B038,B041,B043,B045,B047
0070fce2dc 55555555 ffdfffff ffdfffff ffdfffff aa8aaaaa WB17e0 0e1f 03f      B033,B035,B037,B039,B041,B043,B045,B047
0070fce320 55555555 ff7dff5d ff7dff5d ff7dff5d aa28aa08 WB1700 0e1f 038                B035,B037,B041,B043,B045,B047
0070fce324 55555555 ff5dff5d ff5dff5d ff5dff5d aa08aa08 WB1720 0e1f 038                     B035,B041,B043,B045,B047
0070fce328 55555555 ff5dff5d ff5dff5d ff5dff5d aa08aa08 WB1740 0e1f 038                     B035,B041,B043,B045,B047
0070fce32c 55555555 ff5dff5d ff5dff5d ff5dff5d aa08aa08 WB1760 0e1f 038                     B035,B041,B043,B045,B047
0070fce330 55555555 ff55ff55 ff55ff55 ff55ff55 aa00aa00 WB1780 0e1f 038                          B041,B043,B045,B047
0070fce334 55555555 ff55ff55 ff55ff55 ff55ff55 aa00aa00 WB17a0 0e1f 038                          B041,B043,B045,B047
0070fce338 55555555 ff55ff55 ff55ff55 ff55ff55 aa00aa00 WB17c0 0e1f 038                          B041,B043,B045,B047
0070fce33c 55555555 ff55ff55 ff55ff55 ff55ff55 aa00aa00 WB17e0 0e1f 038                          B041,B043,B045,B047
0070fce340 55555555 ff55ff55 ff55ff55 ff55ff55 aa00aa00 WB1700 0e1f 039                          B041,B043,B045,B047
0070fce344 55555555 ff5dff5d ff5dff5d ff5dff5d aa08aa08 WB1720 0e1f 039                     B035,B041,B043,B045,B047
0070fce348 55555555 ff5dff55 ff5dff55 ff5dff55 aa08aa00 WB1740 0e1f 039                     B035,B041,B043,B045,B047
0070fce34c 55555555 ff5dff5d ff5dff5d ff5dff5d aa08aa08 WB1760 0e1f 039                     B035,B041,B043,B045,B047
0070fce350 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1780 0e1f 039      B032,B034,B036,B038,B041,B043,B045,B047
0070fce354 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB17a0 0e1f 039      B033,B035,B037,B039,B041,B043,B045,B047
0070fce358 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB17c0 0e1f 039      B033,B035,B037,B039,B041,B043,B045,B047
0070fce35c 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB17e0 0e1f 039      B032,B034,B036,B038,B041,B043,B045,B047
0070fce380 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1700 0e1f 03a      B032,B034,B036,B038,B041,B043,B045,B047
0070fce384 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1720 0e1f 03a      B033,B035,B037,B039,B041,B043,B045,B047
0070fce388 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1740 0e1f 03a      B033,B035,B037,B039,B041,B043,B045,B047
0070fce38c 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1760 0e1f 03a      B033,B035,B037,B039,B041,B043,B045,B047
0070fce390 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1780 0e1f 03a      B032,B034,B036,B038,B041,B043,B045,B047
0070fce394 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB17a0 0e1f 03a      B032,B034,B036,B038,B041,B043,B045,B047
0070fce398 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB17c0 0e1f 03a      B032,B034,B036,B038,B041,B043,B045,B047
0070fce39c 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB17e0 0e1f 03a      B033,B035,B037,B039,B041,B043,B045,B047
0070fce3e0 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1700 0e1f 03b      B032,B034,B036,B038,B041,B043,B045,B047
0070fce3e4 55555555 ff80ff00 ff80ff00 ff80ff00 aad5aa55 WB1720 0e1f 03b B032,B034,B036,B038,B039,B041,B043,B045,B047
0070fce3e8 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1740 0e1f 03b      B032,B034,B036,B038,B041,B043,B045,B047
0070fce3ec 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1760 0e1f 03b      B033,B035,B037,B039,B041,B043,B045,B047
0070fce3f0 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1780 0e1f 03b      B032,B034,B036,B038,B041,B043,B045,B047
0070fce3f4 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB17a0 0e1f 03b      B033,B035,B037,B039,B041,B043,B045,B047
0070fce3f8 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB17c0 0e1f 03b      B033,B035,B037,B039,B041,B043,B045,B047
0070fce3fc 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB17e0 0e1f 03b      B033,B035,B037,B039,B041,B043,B045,B047
0070fd0c20 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1e00 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c24 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1e20 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c28 55555555 ff00ff40 ff00ff40 ff00ff40 aa55aa15 WB1e40 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c2c 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1e60 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c30 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1e80 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c34 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1ea0 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c38 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1ec0 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c3c 55555555 ff00ff00 ff00ff00 ff00ff00 aa55aa55 WB1ee0 0e1f 024      B032,B034,B036,B038,B041,B043,B045,B047
0070fd0c40 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1e00 0e1f 025      B033,B035,B037,B039,B041,B043,B045,B047
0070fd0c44 55555555 ffffffff ffffffff ffffffff aaaaaaaa WB1e20 0e1f 025      B033,B035,B037,B039,B041,B043,B045,B047
mods/core/utility/errloggr.cpp: GPU interrupt: MMU Fault : ENGINE_BAR2 FAULT_PRIV_VIOLATION HUBCLIENT_MMU ACCESS_TYPE_VIRT_WRITE


B1这颗显存在这张卡是离供电最远的点,看来不是供电供不上了就是这颗显存不行了。



我也不知道咋想的就去干了显存,还手滑碰歪了,只好拿下来重植。顺便把周围0603的电容全部干下来,正面有一颗,其他上图里都有,都在18uf-21uf之间,标称应该在22uf。挑了两颗最小的扔了,换了两颗新的上去。

洗干净装好上机,mods 最多跑到8200MHz都能跑过,8300MHz开始有几颗显存都有误码,差不多也是三星显存的超频极限了。

好了,假期结束了,返工吧,话说这卡墙上100w,45MHz,效率还不错


顺便贴一个修复前后的跑分,以port royal为例。。。简直没区别。。。

修复前


修复后


评分

参与人数 1下载分 +2 +2 收起 理由
Linshengqiang + 2 + 2 给愿意分享经验的人加分!

查看全部评分

推荐
发表于 2022-3-6 06:04:06 来自迅维网APP | 只看该作者 来自: 美国 来自 美国
scottlin 发表于 2022-03-05 21:58
換個顯存救回來了

没换显存哦 只是重植了 然后换了两颗电容

回复 支持 5 反对 0

使用道具 举报

推荐
发表于 2022-3-7 16:39:19 | 只看该作者 来自: 四川眉山 来自 四川眉山
       这个玩的少

回复 支持 4 反对 0

使用道具 举报

推荐
发表于 2022-3-6 11:25:03 来自迅维网APP | 只看该作者 来自: 美国 来自 美国
scottlin 发表于 2022-03-05 21:58
換個顯存救回來了

没有换显存哦 只是重植了 然后换了两颗电容

回复 支持 4 反对 0

使用道具 举报

推荐
发表于 2022-3-5 21:58:06 | 只看该作者 来自: 台湾台北 来自 台湾台北
換個顯存救回來了

点评

没有换显存哦 只是重植了 然后换了两颗电容  详情 回复 发表于 2022-3-6 11:25
回复 支持 4 反对 0

使用道具 举报

推荐
发表于 2022-3-2 17:53:36 | 只看该作者 来自: 广东 来自 广东
学习了   大神

回复 支持 4 反对 0

使用道具 举报

推荐
发表于 2022-3-1 14:41:56 | 只看该作者 来自: 重庆 来自 重庆
学习了   大神

回复 支持 4 反对 0

使用道具 举报

推荐
发表于 2022-3-8 10:01:00 | 只看该作者 来自: 美国 来自 美国
testpoint 发表于 2022-3-8 09:25
你最好把这个显存换了, 复发的概率很大, IC内部脱线了, 加热有可能使它临时搭上,就跟小时候钨丝灯泡坏了,  ...

你的建议对很多故障来说是有道理的,但恰恰不适用于这张卡。

这张卡显存在5000MHz是能稳定挖矿的,所以它的失效模式并不是你所说的IC脱线,而是因为这颗显存在电源最远端,电源完整性不过关导致tx信号在负载端(GPU)处高频的信号完整性不过关。如果是信号连续性的故障(断线)是不可能在任何频率下跑的。我重植只是因为我手滑,其实动IC是没道理的。

另外发94的测试日志只是因为能告诉我是哪一颗显存的信号完整性有问题,其他的测试没能够定位,恰好94定位到了。当然继续提高频率其他测试应该也能定位到这颗显存。

最后stress test当然是有道理的,对于显存最好的stress test当然是挖ETH。比如说你8200的频率能跑过所有测试,挖eth也是需要降频到8000-8100的,否则会报错导致挖矿程序重启,出invalid share,甚至是掉算力。

从发帖到现在这张卡上班没停过呢。

退一万步说,故障复发了,换个显存不也就几分钟的事吗。

点评

如果是由于附近的滤波电容完全失效, 也是有可能的, 但似乎没怎么失效, 电源布线在PCB北部是大面积布线  详情 回复 发表于 2022-3-8 11:42
回复 支持 1 反对 0

使用道具 举报

推荐
发表于 2022-3-8 09:25:13 | 只看该作者 来自: 美国 来自 美国
你最好把这个显存换了, 复发的概率很大, IC内部脱线了, 加热有可能使它临时搭上,就跟小时候钨丝灯泡坏了, 晃晃又接上了; 当然, 你如果看到有明显的pad脱焊了, fix一下是没有问题的; 另外 MODS 94  测试不适合维修这个故障, 它是需要 stress test的

点评

你的建议对很多故障来说是有道理的,但恰恰不适用于这张卡。 这张卡显存在5000MHz是能稳定挖矿的,所以它的失效模式并不是你所说的IC脱线,而是因为这颗显存在电源最远端,电源完整性不过关导致tx信号在负载端(G  详情 回复 发表于 2022-3-8 10:01
回复 支持 1 反对 0

使用道具 举报

8#
发表于 2022-3-8 02:33:18 | 只看该作者 来自: 广东梅州 来自 广东梅州
高端显卡还没整过  谢谢

回复 支持 反对

使用道具 举报

9#
发表于 2022-3-8 06:57:07 来自迅维网APP | 只看该作者 来自: 新加坡 来自 新加坡
修的好专业

回复 支持 反对

使用道具 举报

11#
发表于 2022-3-8 09:48:18 来自迅维网APP | 只看该作者 来自: 安徽芜湖 来自 安徽芜湖
帖孑写得好,路这学习一下。

回复 支持 反对

使用道具 举报

13#
发表于 2022-3-8 11:42:21 | 只看该作者 来自: 美国 来自 美国
Poko 发表于 2022-3-8 10:01
你的建议对很多故障来说是有道理的,但恰恰不适用于这张卡。

这张卡显存在5000MHz是能稳定挖矿的,所 ...

如果是由于附近的滤波电容完全失效, 也是有可能的, 但似乎没怎么失效, 电源布线在PCB北部是大面积布线

点评

这卡去rma我感觉甚至能pass,毕竟spec只要求跑到7000,而且各种游戏性能的benchmark都是能跑完的 挖矿对显存性能的要求太严格了  详情 回复 发表于 2022-3-8 17:37
回复 支持 反对

使用道具 举报

14#
发表于 2022-3-8 13:23:51 | 只看该作者 来自: 山西运城 来自 山西运城
学习了,不虚此行。

回复 支持 反对

使用道具 举报

15#
发表于 2022-3-8 17:37:24 来自迅维网APP | 只看该作者 来自: 美国 来自 美国
testpoint 发表于 2022-03-08 11:42
如果是由于附近的滤波电容完全失效, 也是有可能的, 但似乎没怎么失效, 电源布线在PCB北部是大面积布线

这卡去rma我感觉甚至能pass,毕竟spec只要求跑到7000,而且各种游戏性能的benchmark都是能跑完的

挖矿对显存性能的要求太严格了

点评

furmark 跑1小时看看,肯定黑掉  详情 回复 发表于 2022-3-8 21:56
回复 支持 反对

使用道具 举报

16#
发表于 2022-3-8 21:56:51 | 只看该作者 来自: 美国 来自 美国
Poko 发表于 2022-3-8 17:37
这卡去rma我感觉甚至能pass,毕竟spec只要求跑到7000,而且各种游戏性能的benchmark都是能跑完的

挖矿对 ...

furmark 跑1小时看看,肯定黑掉

回复 支持 反对

使用道具 举报

17#
发表于 2022-3-19 00:53:28 来自迅维网APP | 只看该作者 来自: 江苏连云港 来自 江苏连云港

                               
登录/注册后看高清大图
楼主怎么导出来的,只会测,想做个维修日记,奈何只会拍照片

                               
登录/注册后看高清大图

回复 支持 反对

使用道具 举报

18#
发表于 2022-3-19 01:54:15 来自迅维网APP | 只看该作者 来自: 美国 来自 美国
一叶方知秋 发表于 2022-03-19 00:53
楼主怎么导出来的,只会测,想做个维修日记,奈何只会拍照片

就是测试文件夹下的mods.log文件啊

可以u盘拷,联网的话可以scp拷贝到别的电脑,也可以winscp从测试机器上拷

回复 支持 反对

使用道具 举报

19#
发表于 2022-3-19 08:08:25 | 只看该作者 来自: 广东广州 来自 广东广州
积极学习中,谢谢

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表
附近
店铺
微信扫码查看附近店铺
维修
报价
扫码查看手机版报价
信号元
件查询
点位图 AI维修
助手



芯片搜索

快速回复