desenv-web-rp.com

O que causa isso? pcieport 0000: 00: 03.0: Erro no barramento PCIe: AER / TLP incorreto

Estou vendo mensagens de erro como estas abaixo:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Isso causará um desempenho degradado, mesmo que eles tenham sido (até agora) corrigidos. Obviamente, esse problema precisa ser resolvido. No entanto, não consigo encontrar muito sobre isso na Internet. (Talvez eu esteja procurando nos lugares errados.) Encontrei apenas alguns links que postarei abaixo.

Alguém sabe mais sobre esses erros?

É a placa-mãe, o Samsung 950 Pro ou a GPU (ou alguma combinação desses)?

O hardware é: Asus X99 Deluxe II Samsung 950 Pro NVMe no M2. slot no mb (que compartilha a porta PCIe 3). Nada mais está conectado à porta PCIe 3. Uma GeForce GTX 1070 no slot PCIe 1 CPU Core i7 6850K

Alguns dos links que encontrei mencionam o mesmo hardware (X99 Deluxe II mb e Samsung950 Pro). Estou executando o Arch Linux.

Não encontro a string "8086: 6f08" no journalctl ou em qualquer outro lugar que pensei pesquisar até agora.

mensagem de erro estranha com nvme ssd (TLP incorreto): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: sua placa está lutando silenciosamente com retransmissões de TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 gerando erros de barramento TLP PCIe incorretos - Fóruns da GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

drivers - erro PCIe no log dmesg - Ask Ubuntu https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - erros PCIE - Fóruns de desenvolvedores da NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

23
MountainX

Eu posso dar pelo menos alguns detalhes, mesmo que eu não possa explicar completamente o que acontece.

Como descrito por exemplo aqui , a CPU se comunica com o controlador de barramento PCIe por pacotes da camada de transação (TLPs). O hardware detecta quando há problemas, e o kernel do Linux informa isso como mensagens.

A opção do kernel pci=nommconf desativa o espaço de configuração do PCI mapeado na memória, disponível no Linux desde o kernel 2.6. De maneira geral, todos os dispositivos PCI têm uma área que descreve esse dispositivo (que você vê com lspci -vv), e o método original para acessar essa área envolve passar pelas portas de E/S, enquanto o PCIe permite que esse espaço seja mapeado para a memória para um acesso mais simples.

Isso significa que, neste caso em particular, algo dá errado quando o controlador PCIe usa esse método para acessar o espaço de configuração de um dispositivo específico. Pode ser um bug de hardware no dispositivo, no controlador raiz PCIe na placa-mãe, na interação específica desses dois ou em qualquer outra coisa.

Usando pci=nommconf, o espaço de configuração de todos os dispositivos será acessado da maneira original e a alteração dos métodos de acesso soluciona esse problema. Então, se você quiser, é ao mesmo tempo resolvê-lo e suprimi-lo.

28
dirkt

Adicionando a opção de linha de comando do kernel pci=nommconf resolveu o problema para mim. Portanto, suponho que o problema esteja relacionado à placa-mãe. Isso acontece em todos meus computadores equipados com a placa-mãe X99. Isso não acontece nos sistemas Z170 ou em qualquer outro hardware que possuo.

3
MountainX

Tente estas etapas:

  1. cp /etc/default/grub ~/Desktop
  2. Edite o grub. Adicionar pci=noaer no fim de GRUB_CMDLINE_LINUX_DEFAULT. A linha será assim:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. Sudo cp ~/Desktop/grub /etc/default/

  4. Sudo update-grub
  5. Reinicie agora
3
Ehtesham

Eu recebo os mesmos erros (TLP inválido associado ao dispositivo 8086: 6f08). Tenho X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Esses problemas parecem estar associados ao chipset X99 e ao dispositivo M.2, como o Samsung Pro.

A placa-mãe X99 Deluxe II compartilha largura de banda entre o slot PCIE16_3 e o M.2/U.2. Após o comentário de @Nic, no BIOS eu mudei a Onboard Devices Configuration | U.2_2 Largura de banda de Auto para U.2_2. Isso corrigiu o problema para mim.

2
user1759557

Alterei o Config PCIE16_3 do slot no BIOS do meu x99-E para ficar estático no modo x8 em vez de automático, que é o padrão para o suporte ao dispositivo M.2. Agora funciona bem sem erros de TLP em ambas as minhas placas 1070GTX conectadas via placas de extensão PCIe 1x a 16x.

Eu não usei a porta 16_3 primeiro, mudei para esse slot para testar, mas ainda tinha problemas antes da alteração no BIOS. Também alterou a configuração bsleep para todas as placas para 30 na configuração do mineiro.

Antes da mudança, o log do kernel foi enviado com falhas. Também tentei ligar o sistema antes e depois da mudança. Parece ser bastante persistente.

2
Nic

Procure no manual da placa mãe por "AER". Você pode eliminar a fonte do problema, corrigindo a incompatibilidade específica ou desativando o AER completamente. Use-o somente se todo o spam de erro estiver relacionado a erros corrigidos, caso contrário, você poderá estar ocultando um problema real.

2
N3V3N