파스칼 아키텍처 맵. 비디오 카드 제품군 Nvidia GeForce 참조 정보. 파스칼 디스플레이 채널: HDR 지원

2016년이 벌써 저물어 가고 있지만 게임 산업에 대한 그의 공헌은 오랫동안 우리와 함께할 것입니다. 첫째, 레드캠프의 비디오 카드가 중간 가격대에서 예상치 못한 성공적인 업데이트를 받았고, 둘째, NVIDIA가 시장의 70%를 점유하고 있는 것이 헛되지 않음을 다시 한 번 증명했습니다. Maxwells는 좋았고 GTX 970은 당연히 돈을 위해 최고의 카드 중 하나로 간주되었지만 Pascal은 완전히 다른 문제입니다.

GTX 1080 및 1070에 직면한 차세대 하드웨어는 작년 시스템 및 주력 중고 하드웨어 시장의 결과를 말 그대로 묻힌 반면, GTX 1060 및 1050에 직면한 "젊은" 라인은 보다 저렴한 가격으로 성공을 통합했습니다. 세그먼트. GTX980Ti와 다른 Titans의 소유자는 악어의 눈물로 울고 있습니다. 수천 루블에 대한 그들의 우버 총은 비용의 50%와 과시 비용의 100%를 한 번에 잃었습니다. NVIDIA 자체는 1080이 작년의 TitanX보다 빠르며 1070이 980Ti를 쉽게 "힙"하며 상대적으로 저렴한 1060이 다른 모든 카드 소유자에게 피해를 줄 것이라고 주장합니다.

이것이 실제로 고성능의 다리가 자라는 곳이며 휴일 전날과 갑작스런 재정적 기쁨에 대해 무엇을해야하는지, 정확히 무엇을 기쁘게해야하는지,이 길고 약간 지루한 시간에서 찾을 수 있습니다. 기사.

Nvidia를 사랑하거나 ... 사랑하지 않을 수 있지만 그것이 이 순간비디오 엔지니어링 분야의 리더는 대안 세계의 히트맨이 될 것입니다. AMD의 Vega가 아직 발표되지 않았기 때문에 Polaris에서 플래그십 RX를 아직 보지 못했고 4GB의 실험적 메모리를 갖춘 R9 Fury는 실제로 유망한 카드로 간주될 수 없습니다(VR 및 4K는 여전히 그녀보다 조금 더) - 우리는 우리가 가진 것을 가지고 있습니다. 1080 Ti와 조건부 RX 490, RX Fury 및 RX 580은 소문과 기대일 뿐이지만 현재 NVIDIA 라인업을 살펴보고 회사가 달성한 성과를 확인할 시간이 있습니다. 지난 몇 년.

혼란과 파스칼 기원의 역사

NVIDIA는 정기적으로 "자신을 사랑하지 않는" 이유를 제시합니다. GTX 970의 역사와 "3.5GB 메모리", "NVIDIA, 씨발!" Linus Torvalds에서 데스크톱 그래픽 라인의 완전한 포르노, 자체 독점을 위해 무료 및 훨씬 더 일반적인 FreeSync 시스템 작업 거부 ... 일반적으로 충분한 이유가 있습니다. 개인적으로 가장 짜증나는 일 중 하나는 지난 2세대 비디오 카드에서 발생한 일입니다. 대략적인 설명을 하자면 "현대적인" GPU는 DX10 지원 시대부터 나왔습니다. 그리고 오늘날 10번째 시리즈의 "할아버지"를 찾으면 현대 건축의 시작은 비디오 가속기 400번째 시리즈와 페르미 아키텍처의 영역에 있을 것입니다. 소위 말하는 "차단"디자인의 아이디어가 그 안에있었습니다. NVIDIA 용어로 "CUDA 코어".

페르미

8000번째, 9000번째 및 200번째 시리즈의 비디오 카드가 범용 셰이더 프로세서(예: AMD와 같은)를 사용하여 "현대 아키텍처"라는 개념을 마스터하는 첫 번째 단계라면 400번째 시리즈는 이미 우리가 사용하는 것과 최대한 유사했습니다. 예, Fermi는 여전히 이전 세대의 작은 레거시 목발을 가지고 있었습니다. 셰이더 장치는 지오메트리 계산을 담당하는 코어의 두 배 주파수에서 작동했지만 일부 GTX 480의 전체 그림은 일부 GTX 480과 크게 다르지 않습니다. 780th, SM 멀티프로세서가 클러스터링되고 클러스터는 메모리 컨트롤러와 공통 캐시를 통해 통신하며 작업 결과는 클러스터에 공통된 래스터화 블록으로 표시됩니다.


GTX 480에 사용된 GF100 프로세서의 블록 다이어그램.

500번째 시리즈에는 여전히 동일한 Fermi가 있었고 "내부"가 약간 개선되었으며 결합이 적기 때문에 상위 솔루션은 이전 세대의 480개 대신 512개의 CUDA 코어를 받았습니다. 시각적으로 순서도는 일반적으로 쌍둥이처럼 보입니다.


GF110은 GTX 580의 핵심입니다.

어떤 곳에서는 주파수를 높이고 칩 자체의 디자인을 약간 변경했지만 혁명은 없었습니다. 모두 동일한 40nm 공정 기술과 384비트 버스의 1.5GB 비디오 메모리.

케플러

Kepler 아키텍처의 출현으로 많은 것이 바뀌었습니다. NVIDIA 비디오 카드에 현재 모델의 출현으로 이어진 개발 벡터를 제공한 것은 이 세대라고 말할 수 있습니다. GPU의 아키텍처뿐만 아니라 NVIDIA 내부의 새로운 하드웨어 개발을 위한 주방도 변경되었습니다. Fermi가 고성능을 제공하는 솔루션을 찾는 데 집중했다면 Kepler는 에너지 효율성, 리소스의 합리적인 사용, 고주파수 및 고성능 아키텍처의 기능을 위한 게임 엔진의 최적화 용이성에 베팅했습니다.

GPU 설계에 심각한 변경이 있었습니다. "플래그십" GF100 / GF110이 기본으로 사용되지 않았지만 당시 가장 인기 있는 카드 중 하나인 GTX에 사용된 "예산" GF104 / GF114 460.


전체 프로세서 아키텍처는 4개의 통합 셰이더 다중 프로세서 모듈과 함께 2개의 큰 블록만 사용하여 단순화되었습니다. 새로운 플래그십의 레이아웃은 다음과 같았습니다.


GTX 680에 설치된 GK104.

보시다시피 각 컴퓨팅 장치는 이전 아키텍처에 비해 무게가 크게 증가했으며 SMX라는 이름이 지정되었습니다. 블록의 구조를 위의 페르미 섹션에 표시된 것과 비교하십시오.


멀티프로세서 SMX GPU GK104

600번째 시리즈에는 6개의 컴퓨팅 모듈 블록이 포함된 본격적인 프로세서에 비디오 카드가 없었고, 플래그십은 GK104가 설치된 GTX 680이었고, "양두" 690만이 그보다 더 시원했습니다. 필요한 모든 바인딩과 메모리를 갖춘 두 개의 프로세서가 개발되었습니다. 1년 후, 약간의 변화가 있는 플래그십 GTX 680은 GTX 770으로 바뀌었고 케플러 아키텍처 진화의 관건은 GK110 크리스탈 기반의 비디오 카드였습니다: GTX Titan과 Titan Z, 780Ti와 일반 780. 내부 - 모두 동일한 28나노미터, 유일한 질적 개선(GK110 기반 소비자 비디오 카드에는 적용되지 않음) - 배정밀도 작업으로 성능.

맥스웰

Maxwell 아키텍처를 기반으로 한 최초의 비디오 카드는... NVIDIA GTX 750Ti였습니다. 잠시 후, GTX 750 및 745(통합 솔루션으로만 제공됨)의 얼굴에 그 컷이 나타났고, 등장 당시 저가형 카드는 저렴한 비디오 가속기 시장을 실제로 뒤흔들었습니다. 새로운 아키텍처는 GK107 칩에서 테스트되었습니다. GK107 칩은 거대한 방열판과 무시무시한 가격을 갖춘 미래의 주력 제품입니다. 다음과 같이 생겼습니다.


예, 컴퓨팅 장치는 하나뿐이지만 이전 제품보다 얼마나 복잡한지 직접 비교하십시오.


GPU 생성 시 기본 "빌딩 브릭"으로 사용되었던 대형 블록 SMX 대신 더 작고 새로운 SMM 블록이 사용됩니다. Kepler의 기본 컴퓨팅 장치는 훌륭했지만 용량 활용도가 좋지 않아 명령에 대한 진부한 갈망이 있었습니다. 시스템은 많은 수의 액추에이터에 명령을 분산할 수 없었습니다. Pentium 4에는 거의 동일한 문제가 있었습니다. 전원이 유휴 상태이고 분기 예측 오류가 매우 비쌌습니다. Maxwell에서 각 컴퓨팅 모듈은 네 부분으로 나뉘었고 각 부분에는 고유한 명령 버퍼와 워프 스케줄러가 제공되었습니다. 이는 스레드 그룹에서 동일한 유형의 작업입니다. 결과적으로 효율성이 향상되었고 GPU 자체가 이전 모델보다 더 유연해졌으며 가장 중요한 것은 약간의 유혈사태와 상당히 단순한 수정을 대가로 새로운 아키텍처를 개발했다는 ​​것입니다. 이야기가 나선형으로 흘러가네요 헤헤.

무엇보다도 모바일 솔루션은 혁신의 이점을 얻었습니다. 크리스탈 영역이 4분의 1로 증가하고 멀티 프로세서의 실행 단위 수가 거의 두 배가 되었습니다. 운 좋게도 분류의 주요 혼란을 만든 것은 700번째와 800번째 시리즈였습니다. 700 내부에만 Kepler, Maxwell 및 심지어 Fermi 아키텍처를 기반으로 한 비디오 카드가 있었습니다! 이것이 데스크탑 Maxwells가 이전 세대의 잡동사니에서 벗어나기 위해 GTX 9xx M 모바일 카드가 후속적으로 분리된 공통 900 시리즈를 받은 이유입니다.

Pascal - Maxwell 아키텍처의 논리적 진화

Kepler에서 설정되고 Maxwell 세대에서 계속된 것은 Pascals에 남아 있었습니다. 첫 번째 소비자용 비디오 카드는 4개의 그래픽 처리 클러스터로 구성된 그다지 크지 않은 GP104 칩을 기반으로 출시되었습니다. 풀사이즈 6클러스터 GP100은 TITAN X 브랜드의 고가의 세미 프로페셔널 GPU로 갔지만, '잘라낸' 1080도 불이 들어와서 과거 세대가 아플 정도다.

성능 향상

기초의 기초

Maxwell은 새로운 아키텍처의 기반이 되었으며, 비교 가능한 프로세서(GM104 및 GP104)의 다이어그램은 거의 동일하게 보이지만 주요 차이점은 클러스터에 포장된 다중 프로세서의 수입니다. Kepler(700세대)에는 두 개의 대형 SMX 멀티프로세서가 있었는데 Maxwell에서 각각 4개의 부품으로 분할되어 필요한 스트래핑(이름을 SMM으로 변경)을 제공했습니다. Pascal에서는 블록의 기존 8개에 2개가 더 추가되어 그 중 10개가 있었고 약어가 다시 한 번 중단되었습니다. 이제 단일 다중 프로세서를 다시 SM이라고 합니다.


나머지는 완전한 시각적 유사성입니다. 사실, 내부에는 더 많은 변화가 있었습니다.

발전의 엔진

다중 프로세서 블록 내부에는 음란한 많은 변경 사항이 있습니다. 무엇을 다시 했는지, 어떻게 최적화되었는지, 이전에 어땠는지에 대한 매우 지루한 세부 사항으로 들어가지 않기 위해 변경 사항을 매우 간략하게 설명하겠습니다. 그렇지 않으면 일부는 이미 하품을 하고 있습니다.

우선 파스칼은 그림의 기하학적 구성 요소를 담당하는 부분을 수정했습니다. 이것은 다중 모니터 구성과 VR 헬멧 작업에 필요합니다. 게임 엔진의 적절한 지원(이 지원은 곧 NVIDIA의 노력을 통해 나타날 것입니다)을 통해 비디오 카드는 기하학을 한 번 계산하고 각각에 대해 여러 기하학 투영을 얻을 수 있습니다. 화면의. 이것은 삼각형 작업 영역(여기서 증가는 2배)뿐만 아니라 픽셀 구성 요소 작업 영역에서도 VR의 부하를 크게 줄입니다.

조건부 980Ti는 지오메트리를 두 번(각 눈에 대해) 읽은 다음 텍스처로 채우고 각 이미지에 대해 후처리를 수행하여 총 약 420만 포인트를 처리하며 그 중 약 70%가 실제로 사용됩니다. 나머지는 잘리거나 영역으로 떨어지며 단순히 각 눈에 표시되지 않습니다.

1080은 지오메트리를 한 번 처리하고 최종 이미지에 포함되지 않는 픽셀은 단순히 계산되지 않습니다.


픽셀 구성 요소를 사용하면 실제로 모든 것이 더 시원해집니다. 메모리 대역폭을 늘리는 것은 두 가지 측면(클럭당 주파수 및 대역폭 증가)에서만 수행할 수 있고 두 가지 방법 모두 비용이 들기 때문에 메모리 측면에서 GPU의 "굶주림"은 해상도의 성장과 VR의 개발은 대역폭을 늘리기 위해 "무료" 방법을 계속 개선합니다. 버스를 확장하고 주파수를 높일 수 없다면 데이터를 압축해야 합니다. 이전 세대에서는 하드웨어 압축이 이미 구현되었지만 Pascal에서는 새로운 수준으로 끌어 올렸습니다. 다시 말하지만, 우리는 지루한 수학 없이 할 것이고, NVIDIA에서 기성품의 예를 들 것입니다. 왼쪽 - Maxwell, 오른쪽 - Pascal에서 색상 구성 요소가 무손실 압축된 지점은 분홍색으로 채워집니다.


8x8 포인트의 특정 타일을 전송하는 대신 메모리에는 "평균" 색상 + 편차 매트릭스가 포함되며 이러한 데이터는 원래 볼륨의 1/2에서 1/8까지 차지합니다. 실제 작업에서 메모리 하위 시스템의 로드는 화면의 복잡한 장면에서 그라디언트 수와 채우기 균일성에 따라 10%에서 30%로 감소했습니다.


이것은 엔지니어에게 충분하지 않은 것처럼 보였고 대역폭이 증가한 플래그십 비디오 카드(GTX 1080) 메모리가 사용되었습니다. 정점. 이러한 미친 속도로 데이터를 전송하려면 보드에 완전히 새로운 메모리 레이아웃이 필요했으며 전체 메모리 효율성은 이전 세대의 주력 제품에 비해 60-70% 증가했습니다.

지연 및 다운타임 감소

비디오 카드는 그래픽 처리뿐만 아니라 관련 계산에도 오랫동안 관여해 왔습니다. 물리학은 종종 애니메이션 프레임에 연결되고 놀라울 정도로 병렬이므로 GPU에서 계산하는 것이 훨씬 더 효율적입니다. 그러나 최근 가장 큰 문제의 원인은 VR 산업입니다. 그래픽 작업에 사용되는 많은 게임 엔진, 개발 방법론 및 기타 여러 기술은 단순히 VR용으로 설계되지 않았으며 프레임을 렌더링하는 동안 카메라를 이동하거나 사용자의 머리 위치를 변경하는 경우가 단순히 처리되지 않았습니다. 모든 것을 그대로 두면 비디오 스트림과 움직임의 비동기화가 뱃멀미를 유발하고 단순히 게임 세계에 몰입하는 데 방해가 됩니다. 즉, "잘못된" 프레임은 렌더링 및 시작 후에 버려야 합니다. 다시 작동합니다. 그리고 이것은 디스플레이에 그림을 표시하는 데 있어 새로운 지연입니다. 성능에 긍정적인 영향을 미치지 않습니다.

Pascal은 이 문제를 고려하여 동적 로드 밸런싱과 비동기식 인터럽트 가능성을 도입했습니다. 이제 실행 장치는 현재 작업을 중단하여(작업 결과를 캐시에 저장) 더 긴급한 작업을 처리하거나 단순히 덜 그려진 프레임을 재설정하고 새로운 것을 시작하여 이미지 형성 지연을 크게 줄입니다. 물론 여기서 주요 수혜자는 VR과 게임이지만 이 기술은 범용 계산에도 도움이 될 수 있습니다. 입자 충돌 시뮬레이션은 10-20%의 성능 향상을 받았습니다.

부스트 3.0

NVIDIA 비디오 카드는 오래 전에 Kepler 아키텍처를 기반으로 하는 700세대에 자동 오버클럭킹을 받았습니다. Maxwell에서는 오버클럭킹이 개선되었지만 여전히 그대로였습니다. 예, 열 패키지가 허용하는 한 비디오 카드는 조금 더 빠르게 작동했습니다. 공장에서 유선으로 메모리의 경우 -100이 증가했지만 작은 . 다음과 같이 작동했습니다.


GPU 온도에 대한 여유가 있어도 성능이 향상되지 않았습니다. 파스칼의 출현으로 엔지니어들은 이 먼지 투성이 늪을 뒤흔들었습니다. Boost 3.0은 온도 분석, 클럭 속도 부스트 및 온칩 전압 부스트의 세 가지 측면에서 작동합니다. 이제 모든 주스가 GPU에서 짜집니다. 표준 NVIDIA 드라이버는 이 작업을 수행하지 않지만 공급업체 소프트웨어를 사용하면 클릭 한 번으로 프로파일링 곡선을 구축할 수 있으며 이는 특정 비디오 카드 인스턴스의 품질을 고려합니다.

EVGA는 이 분야의 첫 번째 제품 중 하나였으며 Precision XOC 유틸리티에는 전체 온도, 주파수 및 전압 범위를 순차적으로 통과하여 모든 모드에서 최대 성능을 달성하는 NVIDIA 인증 스캐너가 있습니다.

여기에 새로운 공정 기술, 고속 메모리, 모든 종류의 최적화 및 칩의 히트 팩 감소를 추가하면 결과가 단순히 음란할 것입니다. 1500 "기본" MHz에서 GTX 1060은 좋은 사본이 발견되면 2000MHz 이상을 짜낼 수 있고 공급업체가 냉각을 망치지 않습니다.

게임 세계에 대한 화질 및 인식 향상

성능은 모든면에서 향상되었지만 표시되는 이미지의 품질에서 몇 년 동안 질적 변화가 없었던 많은 지점이 있습니다. 그리고 이것은 그래픽 효과에 관한 것이 아니라 게임 개발자가 제공하는 것이 아니라 모니터에서 정확히 무엇을 보고 게임이 최종 사용자에게 어떻게 보이는지에 관한 것입니다.

빠른 수직 동기화

Pascal의 가장 중요한 기능은 프레임 출력을 위한 트리플 버퍼로, 렌더링 지연을 최소화함과 동시에 수직 동기화를 보장합니다. 출력 이미지는 한 버퍼에 저장되고 마지막으로 렌더링된 프레임은 다른 버퍼에 저장되며 현재 프레임은 세 번째 버퍼에 그려집니다. 가로 줄무늬와 찢어짐 안녕, 고성능 안녕. 여기에는 클래식 V-Sync가 적합한 지연이 없으며(아무도 비디오 카드의 성능을 제한하지 않고 항상 가능한 가장 높은 프레임 속도로 그리기 때문에) 완전히 형성된 프레임만 모니터로 전송됩니다. 새해 이후에 V-Sync, G-Sync, Free-Sync 및 Nvidia의 이 새로운 빠른 동기화 알고리즘에 대한 별도의 큰 게시물을 작성할 것입니다. 세부 사항이 너무 많습니다.

일반 스크린샷

아니요, 지금 있는 그 스크린샷은 그저 부끄러운 일입니다. 거의 모든 게임은 움직이는 그림을 놀랍고 숨막히게 만들기 위해 많은 기술을 사용하며 스크린샷은 진짜 악몽이 되었습니다. 나는 이상한 색상과 절대적으로 생명이없는 그림으로 무엇을 이해하지 못합니다.

새로운 NVIDIA Ansel 기술은 스크린샷 문제를 해결합니다. 예, 구현하려면 게임 개발자의 특수 코드 통합이 필요하지만 실제 조작은 최소화되지만 이익은 큽니다. Ansel은 게임을 일시 중지하고 카메라 제어 권한을 손으로 옮기고 창의력을 발휘할 수 있는 방법을 알고 있습니다. GUI 없이 원하는 각도로 사진을 찍기만 하면 됩니다.


기존 장면을 초고해상도로 렌더링하고, 360도 파노라마를 촬영하고, 평면에 연결하거나, VR 헬멧에서 볼 수 있도록 3D로 남겨둘 수 있습니다. 채널당 16비트로 사진을 찍어 일종의 RAW 파일로 저장한 다음 노출, 화이트 밸런스 및 기타 설정으로 재생하여 스크린샷이 다시 매력적으로 보이도록 합니다. 우리는 1~2년 안에 게임 팬들로부터 수많은 멋진 콘텐츠를 기대합니다.

영상음향처리

새로운 NVIDIA Gameworks 라이브러리는 개발자가 사용할 수 있는 많은 기능을 추가합니다. 주로 VR을 목표로 하고 다양한 계산의 속도를 높이고 화질을 향상시키는데 그 중 하나가 가장 흥미롭고 언급할 만하다. VRWorks Audio는 장애물의 거리와 두께에 따라 평범한 평균 공식이 아닌 사운드를 계산하여 근본적으로 새로운 차원의 사운드 작업을 수행하지만 다양한 환경의 반사, 잔향 및 흡음과 함께 완전한 오디오 신호 추적을 수행합니다. 재료. NVIDIA는 이 기술이 어떻게 작동하는지에 대한 좋은 비디오 예를 가지고 있습니다.


헤드폰으로 더 잘 감상하세요

순전히 이론적으로 Maxwell에서 이러한 시뮬레이션을 실행하는 것을 방해하는 것은 없지만 Pascal에 내장된 새로운 인터럽트 시스템과 명령의 비동기 실행 측면에서 최적화를 통해 프레임 속도에 큰 영향을 주지 않고 계산을 수행할 수 있습니다.

총 파스칼

사실, 훨씬 더 많은 변경 사항이 있으며, 그 중 많은 부분이 아키텍처에 너무 심오하여 각각에 대한 거대한 기사를 작성할 수 있습니다. 핵심 혁신은 칩 자체의 개선된 설계, 전체 인터럽트 처리를 통한 비동기식 작동 및 기하학 측면에서 가장 낮은 수준의 최적화, 고해상도 및 VR과 함께 작동하도록 맞춤화된 많은 기능, 그리고 물론 미친 주파수입니다. 비디오 카드의 과거 세대는 꿈도 꿀 수 없었습니다. 2년 전 780Ti는 1GHz를 겨우 넘었지만 오늘날 1080은 경우에 따라 2개에서 실행됩니다. 여기서 장점은 28nm에서 16nm 또는 14nm로 감소된 공정 기술에만 있는 것이 아닙니다. 가장 낮은 수준은 트랜지스터 설계로 시작하여 토폴로지로 끝나고 칩 자체 내부에 스트래핑됩니다.

개별 케이스마다

NVIDIA 10 시리즈 비디오 카드 라인은 "전략 및 디아블로 플레이" 옵션에서 "4k로 최고의 게임을 원합니다"에 이르기까지 모든 게임 사용자 사례를 진정으로 균형 잡힌 것으로 밝혀졌으며 매우 조밀하게 다룹니다. 게임 테스트는 하나의 간단한 기술에 따라 선택되었습니다. 가능한 한 가장 작은 테스트 세트로 가능한 한 광범위한 테스트를 처리하는 것입니다. BF1은 좋은 최적화의 좋은 예이며 동일한 조건에서 DX11과 DX12의 성능을 비교할 수 있습니다. DOOM은 OpenGL과 Vulkan을 비교하기 위해서만 같은 이유로 선택되었습니다. 여기에서 세 번째 "Witcher"는 최적화된 장난감 역할을 하며 최대 그래픽 설정을 통해 모든 플래그십이 단순히 똥 코드 덕분에 엉망이 될 수 있습니다. 오랜 시간 테스트를 거쳐 드라이버에서 완벽하게 작동하며 게임 개발자에게 친숙한 클래식 DX11을 사용합니다. Overwatch는 잘 최적화된 코드를 가진 모든 "토너먼트" 게임에 대해 랩을 하고 있습니다. 사실 그래픽 관점에서 볼 때 그다지 무겁지 않은 게임에서 평균 FPS가 얼마나 높은지 흥미롭습니다. "평균" 구성은 전 세계에서 사용할 수 있습니다.

나는 몇 가지 일반적인 의견을 즉시 제공할 것입니다. Vulkan은 비디오 메모리 측면에서 매우 탐욕스럽습니다. 이 특성이 주요 지표 중 하나이기 때문에 이 논문이 벤치마크에 반영된 것을 볼 수 있습니다. AMD 카드의 DX12는 NVIDIA보다 훨씬 더 잘 작동합니다. "녹색" 카드가 새 API에서 평균 FPS 감소를 표시하면 반대로 "빨간색" 카드가 증가를 나타냅니다.

주니어 부문

GTX 1050

더 어린 NVIDIA(Ti 문자 없음)는 Ti 문자가 있는 청구된 자매만큼 흥미롭지 않습니다. 그 운명은 MOBA 게임, 전략, 토너먼트 슈터 및 기타 게임을 위한 게임 솔루션입니다. 디테일과 화질은 누구에게나 관심이 없고 최소한의 비용으로 안정적인 프레임 속도가 의사가 주문한 것입니다.


모든 그림에는 코어 주파수가 없습니다. 각 인스턴스에 대해 개별적이기 때문입니다. 추가 없이 1050입니다. 전력이 쫓지 않을 수 있으며 6핀 커넥터가 있는 그녀의 자매는 조건부 1.9GHz를 쉽게 사용할 수 있습니다. 전력 및 길이 측면에서 가장 널리 사용되는 옵션이 표시되며 지정된 "표준"에 맞지 않는 다른 회로 또는 기타 냉각 장치가 있는 비디오 카드를 항상 찾을 수 있습니다.

DOOM 2016(1080p, ULTRA): OpenGL - 68FPS, Vulkan - 55FPS;
Witcher 3: Wild Hunt(1080p, MAX, HairWorks 꺼짐): DX11 - 38 FPS;
Battlefield 1(1080p, ULTRA): DX11 - 49FPS, DX12 - 40FPS;
오버워치(1080p, ULTRA): DX11 - 93 FPS;

GTX 1050에는 GP107 그래픽 프로세서가 있으며, 기능 블록을 약간 다듬은 이전 카드에서 상속되었습니다. 2GB의 비디오 메모리를 사용하면 마음껏 뛰어놀 수 없지만 e-스포츠 분야와 일종의 탱크 플레이의 경우 주니어 카드 가격이 9.5,000 루블에서 시작하기 때문에 완벽합니다. 추가 전원이 필요하지 않으며 비디오 카드는 PCI-Express 슬롯을 통해 마더보드에서 75와트만 있으면 됩니다. 사실, 이 가격대에는 동일한 2GB 메모리로 더 저렴하고 품질이 거의 열등하지 않은 AMD Radeon RX460도 있으며 거의 ​​같은 돈으로 RX460을 얻을 수 있지만 4GB 버전. 그들이 그를 많이 도왔다는 것이 아니라 미래를 위한 일종의 예비비였다. 공급 업체의 선택은 그렇게 중요하지 않습니다. 사용 가능한 것을 가져갈 수 있으며 추가 천 루블로 주머니를 꺼내지 않으므로 소중한 편지 Ti에 지출하는 것이 좋습니다.

GTX 1050 Ti

일반적인 1050의 경우 약 10,000은 나쁘지 않지만 충전 된 (또는 전체, 원하는대로 부름) 버전의 경우 조금 더 (평균적으로 1-1.5,000 더) 요구하지만 채우는 것이 훨씬 더 흥미 롭습니다. . 그건 그렇고, 전체 1050 시리즈는 1060에 적합하지 않은 "큰" 칩을 절단/리젝트하지 않고 완전히 독립적인 제품으로 생산됩니다. 더 작은 제조 공정(14nm), 다른 공장(삼성 공장에서 결정체를 재배함)이 있으며 추가로 매우 흥미로운 표본이 있습니다. 전원 공급 장치: 열 패키지와 기본 소비는 여전히 75W로 동일하지만 오버클럭 가능성과 허용된 것 이상을 넘어설 수 있는 능력은 완전히 다릅니다.


FullHD 해상도(1920x1080)로 계속 플레이하고 업그레이드할 계획이 없고 나머지 하드웨어가 3~5년 이내라면 손실이 거의 없이 장난감의 성능을 높일 수 있는 좋은 방법입니다. 추가 6핀 전원 공급 장치가 있는 ASUS 및 MSI 솔루션에 집중해야 합니다. Gigabyte의 옵션은 나쁘지 않지만 가격은 그다지 고무적이지 않습니다.

DOOM 2016(1080p, ULTRA): OpenGL - 83FPS, Vulkan - 78FPS;
Witcher 3: Wild Hunt(1080p, MAX, HairWorks 꺼짐): DX11 - 44 FPS;
Battlefield 1(1080p, ULTRA): DX11 - 58FPS, DX12 - 50FPS;
오버워치(1080p, ULTRA): DX11 - 104 FPS.

중간 부문

60번째 라인의 비디오 카드는 오랫동안 많은 돈을 쓰고 싶지 않은 사람들을 위한 최고의 선택으로 여겨져 왔으며 동시에 향후 몇 년 내에 출시될 모든 항목에서 높은 그래픽 설정으로 재생됩니다. GTX 260으로 시작하여 두 가지 버전(단순한 192개의 스트림 프로세서, 더 두꺼운 216개의 "스톤")이 400세대, 500세대, 700세대까지 이어졌고 이제 NVIDIA는 다시 거의 완벽한 조합 가격에 도달했고 품질. 두 가지 "중간" 버전을 다시 사용할 수 있습니다. 3GB 및 6GB 비디오 메모리가 있는 GTX 1060은 사용 가능한 RAM의 양뿐만 아니라 성능도 다릅니다.

GTX 1060 3GB

e스포츠의 여왕. 합리적인 가격, FullHD를 위한 놀라운 성능(그리고 eSports에서는 더 높은 해상도를 거의 사용하지 않습니다: 결과는 아름다운 것보다 중요합니다), 합리적인 양의 메모리(3GB, 1분 동안은 플래그십 GTX 780에서 2년 전이었습니다. Ti, 음란한 돈이 든다). 성능 면에서 더 젊은 1060은 기억에 남는 3.5GB 메모리로 작년 GTX 970을 쉽게 압도하고 작년의 슈퍼 플래그십 780Ti를 귀로 쉽게 끌었습니다.


DOOM 2016(1080p, ULTRA): OpenGL - 117FPS, Vulkan - 87FPS;
Witcher 3: Wild Hunt(1080p, MAX, HairWorks 끄기): DX11 - 70 FPS;
Battlefield 1(1080p, ULTRA): DX11 - 92 FPS, DX12 - 85 FPS;
오버워치(1080p, ULTRA): DX11 - 93 FPS.

여기에서 가격과 배기가스 측면에서 절대적으로 좋아하는 것은 MSI의 버전입니다. 좋은 주파수, 조용한 냉각 시스템 및 정상적인 치수. 그녀를 위해 그들은 15,000 루블 지역에서 아무 것도 요구하지 않습니다.

GTX 1060 6GB

6GB 버전은 VR 및 고해상도에 대한 예산 티켓입니다. 메모리가 부족하지 않고 모든 테스트에서 조금 더 빠르며 작년의 비디오 카드에 4GB의 비디오 메모리가 충분하지 않은 GTX 980보다 자신 있게 성능이 뛰어납니다.


DOOM 2016(1080p, ULTRA): OpenGL - 117FPS, Vulkan - 121FPS;
Witcher 3: Wild Hunt(1080p, MAX, HairWorks 꺼짐): DX11 - 73 FPS;
배틀필드 1(1080p, ULTRA): DX11 - 94FPS, DX12 - 90FPS;
오버워치(1080p, ULTRA): DX11 - 166 FPS.

Vulkan API를 사용할 때 비디오 카드의 동작을 다시 한 번 언급하고 싶습니다. 2GB 메모리가 있는 1050 - FPS 저하. 4GB의 1050 Ti - 거의 동등합니다. 1060 3GB - 감소. 1060 6GB - 결과 증가. 내 생각에 추세는 분명합니다. Vulkan에는 4GB 이상의 비디오 메모리가 필요합니다.

문제는 두 1060 모두 작은 비디오 카드가 아니라는 것입니다. 히트팩이 합리적이고 보드가 정말 작아 보이지만 많은 공급업체는 1080, 1070 및 1060 사이에서 냉각 시스템을 단순히 통합하기로 결정했습니다. 더 짧지 만 더 두껍습니다 (2.5 슬롯). 신중하게 선택하십시오.

불행히도 추가 3GB의 비디오 메모리와 잠금 해제된 컴퓨팅 장치는 3기가 버전의 가격 외에 ~ 5-6,000루블의 비용이 듭니다. 이 경우 Palit은 가격과 품질면에서 가장 흥미로운 옵션을 제공합니다. ASUS는 1080, 1070 및 1060에 조각된 괴물 같은 28cm 냉각 시스템을 출시했으며 이러한 비디오 카드는 어디에도 적합하지 않습니다. 동일한 수준의 품질 및 공장 오버클럭킹에서 경쟁사보다 상대적으로 컴팩트한 MSI에 대해 더 많습니다.

메이저 리그

2016년에 모든 돈을 위해 플레이하는 것은 어렵습니다. 예, 1080은 엄청나게 멋지지만 완벽주의자와 하드웨어 전문가는 NVIDIA가 엄청나게 멋진 슈퍼 플래그십 1080 Ti의 존재를 숨기고 있다는 것을 알고 있습니다. 첫 번째 사양은 이미 온라인으로 유출되고 있으며 녹색이 빨간색과 흰색이 등장하기를 기다리고 있음이 분명합니다. 3D 그래픽의 새로운 왕인 위대한 그리고 강력한 GTX 1080 Ti. 글쎄, 지금은 우리가 가진 것이 있습니다.

GTX 1070

작년에 엄청난 인기를 끌었던 GTX 970의 모험과 그다지 정직하지 않은 4기가바이트 메모리가 적극적으로 분류되어 인터넷 전체에 퍼졌습니다. 이것은 그녀가 세계에서 가장 인기 있는 게임용 그래픽 카드가 되는 것을 막지 못했습니다. 달력의 연도 변경을 앞두고 Steam 하드웨어 및 소프트웨어 설문조사에서 1위를 차지했습니다. 가격과 성능의 조합이 완벽했습니다. 그리고 작년의 업그레이드를 놓쳤고 1060이 충분히 나쁜 것처럼 보이지 않는다면 GTX 1070이 당신의 선택입니다.

2560x1440 및 3840x2160 해상도의 비디오 카드는 굉음과 함께 다이제스트됩니다. Boost 3.0 오버클러킹 시스템은 GPU의 부하가 증가할 때 장작을 추가하려고 시도하고(즉, 가장 어려운 장면에서 특수 효과의 맹공격으로 FPS가 처지는 경우) 비디오 카드 프로세서를 놀라운 2100+로 오버클러킹합니다. MHz. 메모리는 공장 값보다 쉽게 ​​유효 주파수의 15-18%를 얻습니다. 괴물 물건.


주의, 모든 테스트는 2.5k(2560x1440)로 수행됩니다.

DOOM 2016(1440p, ULTRA): OpenGL - 91FPS, Vulkan - 78FPS;
Witcher 3: Wild Hunt(1440p, MAX, HairWorks 꺼짐): DX11 - 73 FPS;
Battlefield 1(1440p, ULTRA): DX11 - 91 FPS, DX12 - 83 FPS;
오버워치(1440p, ULTRA): DX11 - 142 FPS.

물론, 이 카드나 1080으로 4k에서 울트라 설정을 꺼내고 초당 60프레임 아래로 떨어지지 않는 것은 불가능하지만 가장 탐욕스러운 기능을 완전히 끄거나 약간 낮추면 조건부 "높음" 설정에서 재생할 수 있습니다. 해상도와 실제 성능 측면에서 그래픽 카드는 거의 두 배에 달하는 작년의 980Ti를 쉽게 능가합니다. Gigabyte에는 가장 흥미로운 옵션이 있습니다. 본격적인 1070을 ITX 표준 케이스에 집어넣었습니다. 적당한 열 패키지와 에너지 효율적인 설계 덕분입니다. 카드 가격은 맛있는 옵션을 위해 29-30,000 루블에서 시작합니다.

GTX 1080

예, 기함에는 문자 Ti가 없습니다. 예, NVIDIA에서 사용할 수 있는 가장 큰 GPU를 사용하지 않습니다. 예, 여기에 멋진 HBM 2 메모리가 없으며 그래픽 카드가 Death Star 또는 극단적인 경우 Star Destroyer급 Imperial 순양함처럼 보이지 않습니다. 그리고 예, 현재 가장 멋진 게임용 그래픽 카드입니다. 울트라 설정에서 60fps에서 5k3k 해상도로 DOOM을 하나씩 실행합니다. 모든 새로운 장난감은 이에 해당되며, 내년 또는 2년 동안은 문제가 발생하지 않을 것입니다. Pascal에 내장된 새로운 기술이 널리 보급될 때까지, 게임 엔진이 사용 가능한 리소스를 효율적으로 로드하는 방법을 배울 때까지 ... 예, 몇 년 안에 몇 년 전 우리는 이렇게 말할 것입니다. "여기, GTX 1260을 보세요. 몇 년 전만 해도 이러한 설정에서 플레이하려면 플래그십이 필요했습니다." 가격.


주의, 모든 테스트는 4k(3840x2160)로 수행됩니다.

DOOM 2016(2160p, ULTRA): OpenGL - 54FPS, Vulkan - 78FPS;
Witcher 3: Wild Hunt(2160p, MAX, HairWorks 꺼짐): DX11 - 55 FPS;
배틀필드 1(2160p, ULTRA): DX11 - 65FPS, DX12 - 59FPS;
오버워치(2160p, ULTRA): DX11 - 93 FPS.

결정하는 것만 남아 있습니다. 필요하거나 돈을 절약하고 1070을 사용할 수 있습니다. 최신 엔진은 중간 설정에서도 고해상도로 그림을 완벽하게 그리기 때문에 "초" 또는 "높음" 설정에서 재생하는 것에는 큰 차이가 없습니다. : 결국 정직한 4k와 안정적인 60fps를 위한 충분한 성능을 제공할 수 없는 비누 콘솔이 아닙니다.

가장 저렴한 옵션을 버리면 Palit은 GameRock 버전(약 43-45,000 루블)에서 가격과 품질의 최상의 조합을 다시 갖게 됩니다. 예, 냉각 시스템은 "두꺼운" 2.5 슬롯이지만 비디오 카드 경쟁사보다 짧고 한 쌍의 1080은 거의 설치되지 않습니다. SLI는 서서히 죽어가고 있으며, 고속 교량의 생명을 불어넣는 주입조차도 별로 도움이 되지 않습니다. ASUS ROG 옵션은 추가 기능이 많이 설치된 경우 나쁘지 않습니다. 추가 확장 슬롯을 덮고 싶지 않은 경우: 해당 비디오 카드의 두께는 정확히 2슬롯이지만 후면 벽에서 하드 드라이브 바구니까지 29센티미터의 여유 공간이 필요합니다. 기가바이트가 이 몬스터를 ITX 형식으로 출시할 수 있을지 궁금합니다.

결과

새로운 NVIDIA 비디오 카드는 중고 하드웨어 시장을 막 묻혔습니다. GTX 970 만 생존하며 10-12,000 루블에 탈취 할 수 있습니다. 중고 7970 및 R9 280의 잠재 구매자는 종종 그것을 둘 곳이 없고 단순히 먹이지 않으며, 2차 시장의 많은 옵션은 단순히 유망하지 않으며 앞으로 몇 년 동안 저렴한 업그레이드로는 좋지 않습니다. 거의 없습니다. 메모리, 새로운 기술은 지원되지 않습니다. 차세대 비디오 카드의 아름다움은 최적화되지 않은 게임도 지난 몇 년 동안의 베테랑 GPU 차트보다 훨씬 더 즐겁게 실행된다는 사실에 있으며, 게임 엔진이 새로운 기술의 모든 힘을 사용합니다.

GTX 1050 및 1050Ti

아아, 가장 저렴한 Pascal의 구입을 추천할 수 없습니다. RX 460은 일반적으로 천 두 개 미만으로 판매되며 예산이 너무 제한되어 "최신용" 비디오 카드를 사용하는 경우 Radeon은 객관적으로 더 흥미로운 투자입니다. 반면에 1050은 조금 더 빠르며 이 두 비디오 카드에 대한 도시의 가격이 거의 같다면 가져가십시오.

1050Ti는 종소리와 휘파람과 사실적인 코털보다 스토리와 게임 플레이를 더 중요시하는 사람들에게 훌륭한 옵션입니다. 2GB의 비디오 메모리 형태로 병목 현상이 없으며 1년 후에도 "다운"되지 않습니다. 당신은 그것에 돈을 넣을 수 있습니다 - 그것을하십시오. 높은 설정의 Witcher, GTA V, DOOM, BF 1 - 문제 없습니다. 예, 매우 긴 그림자, 복잡한 테셀레이션 또는 제한된 광선 추적으로 자체 그림자 모델의 "비싼" 계산과 같은 여러 가지 개선 사항을 포기해야 하지만 전투의 열기 속에서 이러한 아름다움을 잊게 될 것입니다. 10분 재생 후 안정적인 초당 50-60 프레임은 25에서 40으로의 신경 점프보다 훨씬 더 몰입 효과를 제공하지만 설정은 "최대"입니다.

Radeon 7850, GTX 760 이하, 비디오 메모리가 2GB 이하인 비디오 카드가 있으면 안전하게 변경할 수 있습니다.

GTX 1060

더 젊은 1060은 100FPS의 프레임 속도가 그래픽의 종소리와 휘파람보다 더 중요한 사람들을 기쁘게 할 것입니다. 동시에 출시된 모든 장난감을 높은 또는 최대 설정과 안정적인 초당 60프레임으로 FullHD 해상도로 편안하게 재생할 수 있으며 가격은 그 이후의 모든 것과 매우 다릅니다. 메모리가 6GB인 구형 1060은 1~2년 동안 성능 마진이 있고 VR에 익숙하며 중간 설정에서 고해상도로 재생하기에 완전히 수용 가능한 후보인 FullHD를 위한 타협하지 않는 솔루션입니다.

GTX 970을 GTX 1060으로 바꾸는 것은 의미가 없습니다. 1년이 더 걸릴 것입니다. 그러나 성가신 960, 770, 780, R9 280X 및 이전 장치는 1060으로 안전하게 업데이트할 수 있습니다.

상위 세그먼트: GTX 1070 및 1080

1070은 GTX 970만큼 인기를 끌 것 같지는 않지만(그래도 대부분의 사용자는 2년마다 아이언 업데이트 주기를 갖습니다), 가격과 품질 면에서 확실히 70번째 라인의 가치 있는 연속입니다. 메인스트림 1080p에서 게임을 갈고 2560x1440을 쉽게 처리하고 최적화되지 않은 21에서 9까지의 시련을 견디며 최대 설정은 아니지만 4k를 표시할 수 있습니다.


예, SLI가 그렇게 될 수 있습니다.

우리는 모든 780 Ti, R9 390X 및 작년의 다른 980과 작별을 고합니다. 특히 고화질로 플레이하고 싶다면 더욱 그렇습니다. 그리고 예, 이것은 Mini-ITX 형식의 지옥 같은 상자를 만들고 커피 메이커 크기의 컴퓨터에서 실행되는 60-70인치 TV에서 4k 게임으로 손님을 놀라게 하려는 사람들에게 최고의 옵션입니다.
gtx 1050 그래픽 카드 기록 태그 추가

NVIDIA는 GeForce GTX 1080에서 열릴 새로운 게임용 그래픽 카드 시리즈를 출시할 준비를 하고 있습니다. 이 모델은 Pascal 아키텍처를 기반으로 하는 최초의 게임용 제품이 될 것입니다. GeForce GTX 1080은 이 기사에서 논의할 많은 기술 혁신을 가져올 것입니다. 이 자료는 이론적 성격을 띠며 GeForce GTX 1080의 아키텍처 기능과 새로운 기능에 대해 설명합니다. 다른 비디오 카드와의 테스트 및 비교는 나중에 나타납니다.

최근 몇 년 동안 실리콘 칩의 소형화의 급속한 진행은 둔화되었습니다. 인텔은 심지어 더 얇은 공정 기술로의 정기적인 전환을 포함하는 틱톡 전략을 포기했습니다. 여러 세대의 NVIDIA 및 AMD 제품이 하나의 28nm 공정 기술 프레임워크 내에서 그래픽 가속기 시장에서 변경되었습니다. 부분적으로 이것은 유익했고 제조업체가 아키텍처 개발에 더 많은 관심을 기울이도록 강요했습니다. 이러한 질적 전환은 Kepler에서 Maxwell 아키텍처로 전환할 때 한 번에 명확하게 나타났습니다. 그 당시에는 새로운 세대가 트랜지스터 수를 늘리거나 크리스탈 크기를 줄이지 않고도 더 생산적이고 에너지 효율적으로 나타났습니다. 예를 들어, GeForce GTX 980은 더 컴팩트한 GM204 칩을 기반으로 하므로 비디오 카드가 더 복잡한 GK110 칩을 사용하는 GeForce GTX 780 Ti와 비교하여 더 높은 성능을 시연하는 것을 막지 않습니다.

차세대 GeForce는 새로운 아키텍처와 더 얇은 공정 기술을 모두 받게 됩니다. 그리고 GeForce GTX 1080은 여러 면에서 선구자입니다. 이것은 16nm FinFET 공정 기술을 기반으로 하는 GP104 GPU를 탑재한 최초의 Pascal 아키텍처 GPU입니다. 중요한 혁신 중 NVIDIA는 빠른 GDDR5X 메모리에 주목합니다. 새로운 기술 기능을 통해 주파수를 기록 수준으로 높여 새로운 수준의 "숙달"을 정의할 수 있습니다. 그리고 새로운 게임 기술은 특히 VR 콘텐츠 작업 분야에서 GeForce의 기능을 확장합니다. 다음은 제조업체가 신제품에서 강조하는 5가지 주요 기능입니다.

처음에 Tesla P100 전문 컴퓨팅 가속기가 Pascal 아키텍처의 선구자가 되었다는 점은 주목할 가치가 있습니다. GP100 프로세서를 기반으로 합니다. 하지만 이 제품은 완전히 다른 응용 분야에 초점을 맞추고 있기 때문에 데스크톱 그래픽 가속기의 선구자인 지포스 GTX 1080이다.

GPU GP104는 GM204의 후계자이므로 GeForce GTX 1080을 연구할 때 GeForce GTX 980을 기반으로 빌드할 수 있습니다. 그러나 새로 나온 제품은 GeForce GTX 980 Ti 및 GeForce GTX Titan X보다 빠릅니다. Pascal 프로세서는 다음과 유사한 클러스터 구조를 사용합니다. GPC 클러스터(그래픽 처리 클러스터)가 본질적으로 독립적인 컴퓨팅 단위인 이전 제품입니다. GP100은 6개의 클러스터를 기반으로 하고 GP104는 4개의 클러스터를 가지며 다음 GP106 칩은 2개의 클러스터를 수신해야 합니다. 4개의 GPC는 새로운 GP104 GPU를 GM204에 최대한 가깝게 만듭니다. 그리고 이 칩의 블록 다이어그램도 구형 프로세서와 유사합니다.

자세히 살펴보면 구조의 차이가 분명해집니다. 과거 세대에서 클러스터에는 4개의 대형 다중 프로세서 SMM 장치가 포함되었습니다. GP104의 경우 하위 실행 장치는 5개의 SM 다중 프로세서 장치로 그룹화됩니다. 이러한 각 대형 데이터 처리 장치는 자체 Polymorph Engine 지오메트리 처리 장치와 연결되어 있으며, 현재 GM204의 경우 16개 대신 20개가 있습니다.

하나의 SM은 자체 제어 로직을 가진 4개의 데이터 처리 어레이로 나뉘며, 이것도 구형 GPU의 구조와 유사합니다. 그리고 두 경우 모두 멀티프로세서는 128개의 스트리밍 코어(CUDA 코어)로 작동합니다. SM에는 96KB의 공유 캐시, 별도의 텍스처 캐시 및 8개의 텍스처 단위가 있습니다. 결과적으로 2560개의 스트림 프로세서와 160개의 텍스처 유닛으로 구성된 구성을 갖게 되었습니다. 새 프로세서에는 64개의 ROP와 2MB의 L2 캐시가 있습니다. GM204와 차이가 없습니다.

더 많은 메모리 컨트롤러가 있으며 Pascal은 전체 메모리 하위 시스템을 변경했습니다. 4개의 64비트 컨트롤러 대신 8개의 32비트 컨트롤러가 구현되어 256비트의 메모리 버스 폭을 제공합니다. 성공적인 GeForce GTX 980 이후 최고의 제품에서 이러한 메모리 버스는 더 이상 놀라운 일이 아닙니다. 동시에 GeForce GTX 1080의 버스 효율성은 새로운 데이터 압축 알고리즘으로 인해 더 높습니다. 또한 효과적인 데이터 교환 값이 10GHz의 주파수와 동일한 새로운 GDDR5X 표준의 마이크로 회로에 의해 처리량이 증가합니다. 일반적인 GDDR5 메모리는 최대 7GHz의 주파수로 제한되었습니다. 비디오 버퍼가 8GB로 증가했습니다.

새로운 프로세스 기술 덕분에 GP104는 더 많은 컴퓨팅 장치를 갖춘 GM204보다 더 컴팩트합니다. 동시에 새로운 프로세서는 주파수를 높일 수 있는 기회가 더 많습니다. 처음에는 평균 부스트 클럭이 1733MHz인 1607MHz의 기본 값으로 설정되었습니다. 피크 주파수 값은 훨씬 더 높습니다. 이러한 기록 주파수로 GeForce GTX 1080은 GeForce GTX 980보다 약간 높은 180W의 TDP에 맞습니다. 그러나 새 제품은 TDP가 눈에 띄게 높은 상위 Ti 버전보다 빠릅니다.

시각적 비교를 위해 GeForce GTX 1080과 이전 세대의 최고급 비디오 카드의 특성을 한 표에 정리해 보겠습니다.

비디오 어댑터 지포스 GTX 1080 지포스 GTX 타이탄 X 지포스 GTX 980 Ti 지포스 GTX 980 지포스 GTX 780 Ti
GP104 GM200 GM200 GM204 GK110
트랜지스터 수, 백만 개 7200 8000 8000 5200 7100
공정 기술, nm 16 28 28 28 28
핵심 면적, sq. mm 314 601 601 398 561
스트림 프로세서 수 2560 3072 2816 2048 2880
텍스처 블록의 수 160 192 176 128 240
렌더 단위 수 64 96 96 64 48
코어 주파수, MHz 1607-1733 1000-1075 1000-1075 1126-1216 875-926
메모리 버스, 비트 256 386 386 256 384
메모리 유형 GDDR5X GDDR5 GDDR5 GDDR5 GDDR5
메모리 주파수, MHz 10010 7010 7010 7010 7010
메모리 크기, MB 8192 12288 6144 4096 3072
지원되는 DirectX 버전 12.1 12.1 12.1 12.1 12.0
상호 작용 PCI-E3.0 PCI-E3.0 PCI-E3.0 PCI-E3.0 PCI-E3.0
전력, 여 180 250 250 165 250

NVIDIA의 미드레인지 및 하이엔드 그래픽 카드는 오랫동안 GPU Boost 기술을 사용하여 온도 또는 전력 제한을 초과할 때까지 GPU의 주파수를 높입니다. 3D 모드의 최소값은 기본 주파수이지만 일반적인 게임 부하에서는 주파수가 항상 더 높습니다. 새로운 GeForces는 주파수 가속 모드에서 공급 전압에 따라 주파수를 변경하는 보다 유연한 알고리즘으로 향상된 GPU Boost 3.0 기술을 받았습니다. GPU Boost 2.0은 기본 값과 터보 주파수 사이에 고정된 차이가 있습니다. GPU Boost 3.0을 사용하면 다양한 주파수 오프셋을 사용할 수 있으므로 GPU의 잠재력이 더 잘 드러납니다. 이론적으로 매개변수가 전압 증가 또는 감소와 함께 부스트 모드에서 자동으로 변경되면 주파수는 비선형적으로 변경되며 일부 지점에서는 부스트 델타가 GPU 부스트보다 클 수 있습니다. 구 버전. 사용자는 새로운 유연한 부스트 조정 옵션을 사용할 수 있습니다. 최신 버전의 EVGA Precision 유틸리티는 이미 GeForce GTX 1080을 지원하며, 그 기능 중에는 다양한 전압에 대한 비선형 부스트 주파수 곡선을 생성할 수 있는 안정성 테스트가 있는 자동 스캐너가 있습니다. 새로운 공정 기술로의 전환과 코어 구조의 최적화를 통해 선언된 값에 대한 최대 부스트를 2GHz까지 높일 수 있는 상당한 주파수 가속을 달성할 수 있었습니다.

GDDR5의 출현 이후 NVIDIA는 차세대 고속 메모리에 대한 작업을 진행해 왔습니다. 메모리 개발자와의 상호 작용 결과 데이터 전송 속도가 10Gb/s인 GDDR5X가 등장했습니다. 이러한 빠른 메모리로 작업하면 전기 회로 배선에 대한 새로운 요구 사항이 제시됩니다. 따라서 GPU와 메모리 칩 간의 데이터 전송 라인을 재설계하고 칩 자체의 구조를 변경했습니다. 이 모든 것을 통해 초고속 비디오 버퍼로 효과적으로 작업할 수 있습니다. GDDR5X의 장점 중 하나는 1.35V의 낮은 작동 전압입니다.

유효 메모리 주파수가 10,000MHz인 경우 현재 세대의 일반적인 7012MHz에 비해 대역폭이 거의 43% 증가합니다. 그러나 Pascal의 이점은 여기서 그치지 않습니다. GeForce는 메모리의 데이터 압축을 위한 특수 알고리즘을 지원하므로 캐시를 보다 효율적으로 사용하고 동일한 대역폭에 대해 더 많은 데이터를 전송할 수 있습니다. 여러 기술이 지원되며 데이터 유형에 따라 다른 압축 알고리즘이 선택됩니다. 델타 색상 압축 알고리즘이 중요한 역할을 합니다. 덕분에 개별 픽셀의 색상이 인코딩되지 않고 직렬 데이터 전송 시 픽셀 간의 차이가 인코딩됩니다. 이 타일의 각 픽셀에 대한 일부 평균 타일 색상 및 색상 오프셋 데이터가 계산됩니다.

이 압축은 Maxwell의 생산성을 높이지만 Pascal은 훨씬 더 효율적입니다. GP104 GPU는 색상 간의 차이가 최소인 경우 더 많은 압축으로 새로운 알고리즘을 추가로 지원합니다.

예를 들어 NVIDIA는 Project CARS 게임에서 두 개의 슬라이드를 인용합니다. 데이터 압축이 적용된 타일은 분홍색으로 칠해져 있습니다. 상단 슬라이드는 Maxwell에서 압축 작업을 보여주고, Pascal에서 하단 슬라이드를 보여줍니다.

보시다시피 Maxwell에서 수행되지 않는 영역에도 Pascal 압축이 적용됩니다. 결과적으로 거의 전체 프레임이 압축되었습니다. 물론 이러한 알고리즘의 효율성은 각 장면에 따라 다릅니다. NVIDIA에 따르면 GeForce GTX 1080과 GeForce GTX 980의 효율성 차이는 11%에서 28% 사이입니다. 평균값으로 20%를 취하고 메모리 주파수 증가를 고려하면 처리량 증가는 약 70%입니다.

차세대 GeForce는 다음을 위한 향상된 컴퓨팅 활용으로 Async Compute 지원 다른 유형작업. 최신 게임에서 GPU는 이미지 렌더링과 동시에 다른 작업을 수행할 수 있습니다. 이것은 물체의 물리학 계산, 이미지 후처리 및 가상 현실 모드에 대한 비동기 시간 왜곡(Asynchronous Time Warp)의 특수 기술일 수 있습니다. 다른 작업을 수행할 때 모든 컴퓨팅 장치가 항상 관련되는 것은 아니며 각 작업의 실행에 다른 시간이 걸릴 수 있습니다. 예를 들어, 그래픽이 아닌 계산이 그래픽 계산보다 시간이 오래 걸린다면 새 작업으로 전환하기 위해 각 프로세스가 완료될 때까지 기다립니다. 동시에 GPU 리소스의 일부가 유휴 상태입니다. Pascal은 동적 로드 밸런싱을 도입했습니다. 한 작업이 더 일찍 완료된 경우 해제된 리소스는 다른 작업에 연결됩니다.

따라서 GPU에 결합된 부하로 다운타임을 방지하고 전체 성능을 향상시킬 수 있습니다. 이러한 부하에서는 작업 간 전환 속도도 중요한 역할을 합니다. Pascal은 가능한 가장 빠른 전환을 위해 다양한 수준에서 작업 중단을 지원합니다. 새 명령이 수신되면 프로세서는 픽셀 및 스트림 처리 수준에서 작업을 중단하고 추가 완료를 위해 상태를 저장하고 컴퓨팅 장치는 새 작업을 대신합니다. Pascal은 명령어 수준에서 인터럽트를 지원하고 Maxwell과 Kepler는 스레드 수준에서만 지원합니다.

다양한 수준의 중단을 통해 작업 전환 순간을 보다 정확하게 결정할 수 있습니다. 이것은 머리의 위치에 따라 보정을 위해 출력하기 전에 이미 형성된 이미지를 변형시키는 Asynchronous Time Warp 기술에 중요합니다. Asynchronous Time Warp를 사용하면 프레임이 표시되기 전에 엄격하게 전환하기 위해 빠른 리드가 필요합니다. 그렇지 않으면 그림의 "지터" 형태로 아티팩트가 발생할 수 있습니다. Pascal은 이 작업을 가장 잘 처리합니다.

Pascal은 멀티 프로젝션 기술에 대한 하드웨어 지원을 도입하여 다양한 이미지 프로젝션으로 동시에 작업할 수 있습니다. 특수 블록 PolyMorph Engine 내부의 동시 다중 투영은 단일 지오메트리 스트림을 처리할 때 서로 다른 투영을 생성하는 역할을 합니다. 이 블록은 하나 또는 두 개의 원근 중심이 있는 16개의 투영에 대해 형상을 동시에 처리합니다. 이것은 지오메트리 재처리를 필요로 하지 않으며 데이터를 최대 32번까지 복제할 수 있습니다(2포인트로 16개 투영).

이 기술 덕분에 다중 모니터 구성에서 올바른 이미지를 얻을 수 있습니다. 세 대의 모니터를 사용할 때 이미지는 하나의 투영에 대해 렌더링됩니다. 에지 모니터가 앰비언스 효과를 만들기 위해 약간의 각도로 회전하면 측면 영역에서 잘못된 지오메트리가 나타납니다. 멀티 프로젝션은 모니터의 각도에 따라 올바른 프로젝션을 형성하여 올바른 이미지를 생성합니다. 이 모드의 유일한 조건은 응용 프로그램 자체가 넓은 FOV를 지원한다는 것입니다.

이 이미징 기술을 사용하면 곡면 패널을 가장 효율적으로 사용할 수 있으며 구형 화면에서도 다른 디스플레이 장치에서 올바르게 렌더링할 수 있습니다.

이 기술은 스테레오 이미지 형성 및 가상 현실(VR) 시스템에서 파스칼의 기능을 확장합니다. 스테레오 모드에서는 각 눈에 대해 동일한 장면의 두 이미지가 생성됩니다. 동시 다중 투영에 대한 하드웨어 지원을 통해 단일 패스 스테레오 기술을 사용하는 단일 지오메트리 처리로 눈에 대한 각 투영을 생성할 수 있습니다. 그리고 이 모드에서 작업 속도를 크게 향상시킵니다.

VR 시스템에서 사용자는 특정 왜곡을 유발하는 특수 렌즈가 있는 안경을 사용합니다. 이를 보상하기 위해 가장자리에서 이미지가 약간 변형되고 사용자는 결국 렌즈로 보정된 이미지를 관찰합니다. 그러나 처음에는 비디오 카드가 일반적인 평면 투영으로 이미지의 윤곽을 표시한 다음 주변 이미지의 일부가 사라집니다.

Lens Matched Shading 기술은 이미지를 4개의 사분면으로 분할한 다음 픽셀을 샘플링할 수 있습니다. 즉, 사진은 처음에 렌즈의 곡선 모양을 시뮬레이션하는 여러 평면에 투영됩니다.

최종 이미지는 더 낮은 해상도로 렌더링되고 불필요한 영역은 잘립니다. 처음에 Oculus Rift 이미지는 눈당 1.1메가픽셀이지만 원래 평면 투영은 2.1메가픽셀로 렌더링됩니다. Lens Matched Shading 덕분에 초기 이미지는 1.4메가픽셀이 됩니다. 이를 통해 VR 모드에서 성능을 크게 높일 수 있습니다.

가상 현실은 가상 환경과의 상호 작용 경험을 확장하고 플레이어에게 새로운 감각을 제공할 유망한 방향입니다. NVIDIA는 VR 개발을 적극적으로 지원합니다. VR 시스템의 대중화를 제한하는 요소 중 하나는 그래픽 가속기의 고성능 요구 사항입니다. 특수 기술 및 하드웨어 최적화는 이러한 방향으로 성능의 질적 향상에 기여합니다. 이 회사는 특수 API, 라이브러리 및 소프트웨어 엔진에서 포괄적인 VRWorks 세트를 출시했습니다. 여기에는 싱글 패스 스테레오 및 렌즈 일치 셰이딩 작업을 위한 도구가 포함되어 있습니다. 또한 MultiRes Shading 기술이 포함되어 있어 VR 렌더링 중에 측면 영역의 해상도를 변경하여 부하를 줄일 수 있습니다.

존재의 효과는 시각적 감각뿐만 아니라 다른 감각과도 관련이 있습니다. 소리도 중요한 역할을 합니다. 그래서 NVIDIA는 소스의 위치에 따라 사실적인 사운드를 재현하기 위해 VRWorks Audio 기술을 개발했습니다. 음파및 표면에서 반사. 이 기술은 원래 광선 추적 방법을 사용하여 조명을 렌더링하는 데 사용되었던 OptiX 엔진을 사용합니다. 소스에서 반사 표면 및 뒤쪽으로 사운드 "빔"의 경로를 추적합니다. 이 프로그레시브 방법을 사용하면 가상 공간의 음향 특성과 반사된 사운드를 고려하여 사실적인 사운드를 재현할 수 있습니다. 비디오에서 NVIDIA VRWorks 오디오에 대해 자세히 알아보십시오.

가상 환경과 상호 작용하여 몰입 효과를 높일 수 있습니다. 이제 상호 작용은 핸드 컨트롤러의 위치 추적 및 추적을 통해 구현됩니다. PhysX를 기반으로 하나 또는 다른 개체와의 가상 접촉 중에 상호 작용이 있는지 여부를 결정하는 메커니즘이 만들어졌습니다. 또한 PhysX를 사용하면 가상 환경에 노출되었을 때 물리적으로 안정적인 효과를 구현할 수 있습니다.

차세대 비디오 카드는 VR SLI를 지원합니다. 이 모드는 별도의 GPU가 VR 모드에서 각 눈의 이미지를 처리하도록 합니다. 이 방법은 SLI 작업의 지연을 제거하고 더 나은 성능을 제공합니다. VR SLI에 대한 지원은 Unreal Engine 4 및 Unity에서 구현될 예정이며, 이를 통해 우리는 가상 현실 시스템의 가용성이 증가함에 따라 이 기술의 대중화를 희망할 수 있습니다.

Simple SLI 기술도 업데이트 되었습니다. 구형 GeForce 비디오 카드에는 항상 SLI 브리지용 커넥터가 2개 있었습니다. 이 브리지는 3방향 및 4방향 SLI 모드에서 모든 비디오 카드를 서로 전환하는 데 필요합니다. 이제 간단한 SLI에서 두 개의 비디오 카드가 한 번에 두 개의 통신 인터페이스를 사용할 수 있어 전체 처리량이 증가합니다.

새로운 스위칭 방식에는 새로운 SLI HB 듀얼 브리지가 필요합니다. 단순한 단일 브리지를 통해 연결된 경우 공유 모드 지원이 유지됩니다. 듀얼 브리지는 고해상도(4K, 5K 및 다중 모니터 시스템)에 권장됩니다. 120Hz 이상의 모니터로 2K에서도 스피드 브리징을 권장합니다. 간단한 모드에서는 구식 다리로 갈 수 있습니다.

GeForce GTX 1080은 인터페이스 자체의 속도를 400MHz에서 650MHz로 높였습니다. 새로운 브리지와 이전 형식의 일부 버전으로 구현할 수 있습니다. SLI에서 데이터 속도를 높이면 프레임 변경이 더 부드러워지고 무거운 모드에서 성능이 약간 향상됩니다.

DirectX 12의 다중 GPU 렌더링 기능이 향상되었습니다. 이러한 구성에서는 MDA(다중 디스플레이 어댑터) 및 LDA(연결 디스플레이 어댑터)의 두 가지 주요 작업 유형이 지원됩니다. 첫 번째는 통합 및 외부 그래픽의 잠재력을 결합하는 것을 포함하여 다양한 GPU와 함께 작업할 수 있도록 합니다. LDA는 유사한 솔루션을 공유하도록 설계되었습니다. 암시적 LDA는 기본적으로 소프트웨어 수준에서 응용 프로그램과의 광범위한 호환성을 제공하는 SLI에서 사용됩니다. 명시적 LDA 및 MDA는 개발자에게 더 많은 옵션을 제공하지만 모든 애플리케이션에서 이 모드를 보장하는 것은 개발자에게 달려 있습니다.

SLI 지원이 공식적으로 2개의 GeForce GTX 1080 구성에서만 발표된다는 점도 주목할 가치가 있습니다. 더 복잡한 구성은 명시적 LDA 및 MDA 모드에서 이론적으로 가능합니다. 흥미롭게도 NVIDIA는 동시에 매니아를 위한 특수 코드를 사용하여 3방향 및 4방향 모드의 잠금을 해제할 수 있습니다. 이렇게 하려면 회사 웹사이트에서 GPU 식별자에 대한 특별 요청을 해야 합니다.

Fast Sync 지원이 GP104 GPU에 추가되었습니다. 이 기술은 V-sync를 켜거나 끄는 대안입니다. 빠르게 진행되는 게임(특히 멀티플레이어 게임)에서 높은 프레임 속도는 사용자 작업에 대한 최대 응답성을 보장합니다. 그러나 모니터 재생 빈도를 초과하면 이미지가 깨지는 형태의 아티팩트가 발생할 수 있습니다. 이것은 수직 동기화를 무효화하여 도중에 약간의 지연을 제공합니다. 빠른 동기화를 사용하면 가능한 간격 없이 최대 프레임 수를 표시할 수 있습니다. 이는 이미지 출력 파이프라인의 하드웨어 변경으로 제공됩니다. 기존의 이중 버퍼 대신 삼중 버퍼를 사용하여 완전히 렌더링된 프레임만 출력합니다.

Fast Sync를 사용하면 VSync가 비활성화된 일반 모드에서와 같이 시각적 아티팩트 없이 최소한의 지연으로 일반 모니터에서 100-200fps로 재생할 수 있습니다. 다음은 이미지 표시 지연에 대한 연구 결과입니다. 다른 모드 Counter-Strike: Global Offensive 게임에서.

보시다시피 Fast Sync와 비활성화된 VSync 사이에는 약간의 차이가 있지만 활성 VSync가 있는 프레임 출력 지연과 비교할 수는 없습니다.

최대 응답성이 아니라 최대 이미지 부드러움에 대해 이야기하면 특수 모니터와 함께 구현되는 G-Sync 기술에 의해 제공됩니다. G-Sync는 화면 재생 빈도로 표시된 프레임의 전체 하드웨어 동기화를 제공합니다.

GeForce GTX 1080은 DVI, HDMI 및 DisplayPort를 통해 출력할 수 있습니다. DisplayPort 1.2 및 HDMI 2.0b(HDCP 2.2 포함)가 지원되지만 그래픽 카드는 DisplayPort 1.3/1.4에도 사용할 수 있습니다. 후자를 사용하는 경우 2개의 DisplayPort 1.3 케이블을 통해 120Hz에서 4K 또는 60Hz에서 8K(7680x4320)를 출력할 수 있습니다. 비교를 위해 GeForce GTX 980은 두 개의 DisplayPort 케이블을 통해 전환할 때만 5120x3200을 출력할 수 있습니다.

GeForce GTX 1080의 표준 버전에는 3개의 DisplayPort 포트, 1개의 HDMI 및 1개의 듀얼 링크 DVI가 장착되어 있습니다.

GP104 프로세서는 고품질 4K/8K 비디오를 지원하는 PlayReady 3.0 표준(SL3000) 및 HEVC 하드웨어 디코딩을 지원하는 향상된 비디오 디코딩/인코딩 블록을 받았습니다. GeForce GTX 1080과 GeForce GTX 980의 전체 기능은 아래 표에 나와 있습니다.

혁신 목록에서 GeForce GTX 1080은 HDR 콘텐츠 및 디스플레이를 지원합니다. 이 표준은 10/12비트 색심도에서 RGB의 경우 33% 대신 75%의 가시적 색 공간 적용 범위를 제공하는 기술의 주요 혁신입니다. 이러한 디스플레이는 더 많은 색조를 표시하고 더 높은 밝기와 더 깊은 대비를 가지므로 더 미묘한 색상 뉘앙스를 볼 수 있습니다. 현재 HDR 지원 TV는 이미 출시되고 있으며 모니터는 내년에 출시될 예정입니다.

HDR 디코딩 외에도 하드웨어 인코딩도 지원되어 이 표준의 비디오를 녹화할 수 있습니다. 그리고 Shield 게임 콘솔을 위한 HDR 스트리밍 기능이 곧 추가될 예정입니다.

NVIDIA는 개발자들과 협력하여 HDR을 PC 게임에 적용하고 있습니다. 결과적으로 Rise of the Tomb Raide, Tom Clancy's The Division, The Talos Principle, Paragon, Shadow Warrior의 두 번째 부분 및 기타 게임은 HDR 지원을 받게 됩니다.

현대 게임은 변화하고 있으며, 플레이어는 새로운 관심과 좋아하는 게임을 새로운 각도에서 보고자 하는 열망을 보여주고 있습니다. 때로는 평범한 스크린샷이 게임의 단순한 프레임 이상의 무언가로 변합니다. 그리고 NVIDIA Ansel을 사용하면 모든 스크린샷이 특별할 수 있습니다. 이것은 일련의 특수 기능으로 이미지를 캡처하는 새로운 기술입니다. Ansel을 사용하면 필터를 적용하고, 이미지를 향상하고, 무료 카메라를 사용하고, 파노라마를 만들 수 있습니다. 전체 기능을 사용하려면 애플리케이션 지원이 필요합니다. 이를 위해 Ansel은 간단한 통합을 제공합니다. 예를 들어 Ansel을 The Witcher 3에 통합하기 위해 개발자는 150줄의 코드만 추가했고 논리 게임 Witness는 40줄의 코드가 필요했습니다.

Ansel은 게임을 일시 중지 모드로 전환한 다음 다양한 작업을 수행할 수 있도록 합니다. 예를 들어 카메라를 변경하고 원하는 각도를 선택할 수 있습니다. 개발자가 의도적으로 자유 카메라의 움직임을 제한하는 경우에만 일부 제한이 가능합니다.

최종 이미지의 해상도를 높이고 LOD 수준을 높여 모든 세부 사항에서 최대 선명도를 얻을 수 있습니다. 업스케일링은 최상의 효과를 위해 추가적인 앤티앨리어싱과 결합됩니다.

또한 Ansel을 사용하면 최대 4.5기가픽셀의 거대한 이미지를 만들 수 있습니다. 이러한 이미지는 하드웨어 수준에서 수행되는 별도의 조각에서 연결됩니다. 또한 최종 이미지에 다양한 후처리 효과를 적용할 수 있습니다. 이미지는 RAW 형식 또는 16비트 색상 인코딩을 사용하는 EXR로 저장할 수 있습니다. 이것은 그와 함께 후속 작업을 위한 충분한 기회를 제공할 것입니다.

스테레오 파노라마와 360도 샷을 만들어 가상 현실 안경으로 볼 수 있습니다.

그레인, 블룸, 세피아, 렌즈 효과 등 캡처된 이미지에 적용할 수 있는 다양한 효과가 있으며 어안 효과가 있는 사진을 생성할 수 있습니다. Ansel의 다양한 가능성은 놀랍습니다. 플레이어는 이전에 존재하지 않았던 기회를 얻습니다.

아키텍처와 새로운 기술을 연구한 후 GeForce GTX 1080 그래픽 카드 자체를 살펴봐야 합니다.참조 버전은 약간 업데이트된 디자인과 더 선명한 윤곽이 있는 이전 모델처럼 보입니다.

뒷면은 GeForce GTX 980의 "예약"과 유사한 두 개의 플레이트로 보호됩니다.

전반적인 냉각 설계는 변경되지 않았습니다. 냉각기는 터빈의 원리에 따라 작동합니다. 큰 베이스, GPU 냉각을 위한 골이 있는 방열판, 전원 요소의 더 나은 냉각을 위한 전원 노드 근처에 추가 방열판이 있습니다.

우리는 다른 모든 뉘앙스를 별도의 기사에서 고려할 것이며 동시에 비교 테스트를 수행합니다. 제조사의 잠정 추산을 이야기하자면, NVIDIA는 신제품을 GeForce GTX 980과 비교하여 간단한 게임에서는 약 70%의 이점을, VR 모드에서는 2.5배 이상의 격차를 이야기합니다. 지포스 GTX 980 Ti와의 차이는 줄어들겠지만, 실제 테스트를 거쳐 몇 가지 구체적인 값에 대해 이야기할 수 있다.

결론

이제 GeForce GTX 1080에 대한 이론적 지식을 요약할 차례입니다. 이 비디오 카드는 현재 그래픽 가속기 중에서 기술적으로 가장 앞선 제품입니다. GeForce GTX 1080은 처음으로 16nm Pascal 프로세서와 새로운 GDDR5X 메모리를 특징으로 합니다. 아키텍처 자체는 DirectX 12에 대한 최적화 및 새로운 기능이 포함된 Maxwell의 개발입니다. 아키텍처 개선은 GPU 및 메모리 주파수가 크게 증가하여 크게 향상되었습니다. 이 모드에서 작업 속도를 높이는 새로운 기술로 인해 VR 렌더링 분야에서 매우 중요한 진전. 진보적인 혁신은 HDR 디스플레이 및 관련 콘텐츠를 지원하는 것입니다. 새로운 비디오 처리 장치 덕분에 HDR 형식 작업을 포함하여 고화질 비디오를 재생하고 녹화할 수 있는 가능성이 훨씬 더 높아졌습니다. 매우 역동적인 멀티플레이어 게임의 팬이라면 Fast Sync 기술을 높이 평가할 것입니다. 가상 아름다움의 감정가들은 Ansel의 가능성에 만족할 것입니다. GeForce GTX 1080을 구입하면 현재 가장 빠른 비디오 가속기뿐 아니라 가장 기능적인 가속기를 갖게 됩니다.

공식적으로 이 모델은 5월 27일 이후에 고객에게 제공될 예정입니다. Founders Edition 참조 디자인 버전이 먼저 판매됩니다. 그들은 더 높은 가격표를 가질 것입니다. 조금 후에 비표준 옵션이 출시되며 비용은 $100 더 저렴합니다. 글쎄요, GeForce GTX 1080이 국내 시장에 출시될 때쯤이면 대규모 테스트의 일환으로 기존 최고급 비디오 카드와 비교하여 잠재력을 완전히 드러내려고 노력할 것입니다.

Nvidia GeForce GTX 1080 파스칼 검토 | GP104 GPU를 만나보세요

Computex 전날, Nvidia는 오랫동안 기다려온 참신함, 즉 게이머를 위해 적용된 Pascal 아키텍처를 발표하기로 결정했습니다. 새로운 GeForce GTX 1080 및 1070 그래픽 카드에서 제조업체는 GP104 그래픽 프로세서를 설치합니다. 오늘 우리는 구형 모델을 검토할 것이며 더 어린 모델은 6월 초에 우리 손에 있을 것입니다.

Pascal 아키텍처는 더 빠르고 더 많은 것을 약속합니다. 효율적인 작업, 더 많은 컴퓨팅 모듈, 감소된 다이 영역, 업그레이드된 컨트롤러로 더 빠른 메모리. VR, 4K 게임 및 기타 성능 집약적 애플리케이션에 더 적합합니다.

언제나처럼 제조사의 약속을 이해하고 실전에서 테스트하도록 노력하겠습니다. 시작하자.

지포스 GTX 1080이 하이엔드 부문의 전력 균형을 바꿀 것인가?

Nvidia GeForce GTX 1080은 이번 달 초에 발표된 두 개의 게임용 그래픽 카드 중 가장 빠릅니다. 둘 다 GP104 GPU를 사용합니다. 그건 그렇고, 이미 두 번째 Pascal 마이크로아키텍처 GPU입니다(첫 번째는 4월 GTC에 등장한 GP100). Nvidia CEO Ren-Sun Huan은 GeForce GTX 1080이 SLI에서 두 개의 980을 능가할 것이라고 주장하면서 신제품을 일반 대중에게 공개했을 때 열성팬을 놀렸습니다.

그는 또한 GTX 1080이 성능이 더 뛰어나서 900 시리즈보다 전력 소비가 더 낮다고 언급했습니다. 기존 플래그십 지포스 타이탄 X보다 2배 빠르고 3배 효율적이지만, 첨부된 그래프와 차트를 보면 이러한 인상적인 차이가 가상현실과 관련된 특정 작업에서 드러난다는 것을 알 수 있다. 그러나 이러한 약속이 부분적으로만 확인되더라도 PC용 고급 게임 개발 측면에서 우리는 여전히 매우 흥미로운 시기에 있습니다.

가상 현실은 서서히 추진력을 얻고 있지만 그래픽 하위 시스템에 대한 높은 하드웨어 요구 사항은 이러한 기술에 대한 액세스에 상당한 장벽을 만듭니다. 또한 오늘날 사용 가능한 대부분의 게임은 다중 프로세서 렌더링을 활용하는 방법을 모릅니다. 즉, 일반적으로 하나의 GPU가 있는 하나의 고속 비디오 어댑터 기능으로 제한됩니다. GTX 1080은 2개의 980을 능가할 수 있으며 오늘날의 VR 게임으로 어려움을 겪지 않아 향후 다중 프로세서 구성이 필요하지 않습니다.

4K 생태계도 그만큼 빠르게 발전하고 있습니다. HDMI 2.0b 및 DisplayPort 1.3/1.4와 같은 더 높은 대역폭 인터페이스는 올해 말까지 120Hz 패널과 동적 재생 빈도를 지원하는 4K 모니터의 문을 열어야 합니다. 이전 세대의 AMD와 Nvidia의 최고급 GPU는 4K 게임 솔루션으로 마케팅되었지만 사용자는 허용 가능한 프레임 속도를 유지하기 위해 품질을 타협해야 했습니다. GeForce Nvidia GTX 1080은 최대 그래픽 세부 설정으로 3840x2160 해상도에서 높은 프레임 속도를 유지하기에 충분히 빠른 최초의 그래픽 카드가 될 수 있습니다.

다중 모니터 구성의 상황은 어떻습니까? 많은 게이머들이 1920x1080 해상도의 모니터 3대를 기꺼이 설치하지만 그래픽 시스템이 부하를 처리할 수 있는 조건에서 이 경우 해상도가 7680x1440이므로 카드가 50만 픽셀을 렌더링해야 하기 때문입니다. 11520x2160 픽셀의 결합 해상도로 3개의 4K 디스플레이를 기꺼이 사용하려는 매니아도 있습니다.

후자의 옵션은 새로운 게임용 플래그십 그래픽 카드에도 너무 이국적입니다. 그러나 Nvidia GP104 프로세서에는 4K 및 Surround와 같은 새 모델의 일반적인 작업에 대한 경험을 향상시킬 수 있는 기술이 탑재되어 있습니다. 그러나 새로운 기술로 넘어가기 전에 GP104 프로세서와 기본 Pascal 아키텍처를 자세히 살펴보겠습니다.

GP104는 무엇으로 만들어졌습니까?

2012년 초부터 AMD와 Nvidia는 28nm 공정 기술을 사용해 왔습니다. 이를 통해 두 회사 모두 Radeon HD 7970 및 GeForce GTX 680 그래픽 카드를 소개하면서 상당한 도약을 이루었지만 향후 4년 동안 기존 기술에서 더 많은 성능을 얻기 위해 많은 노력을 기울여야 했습니다. . Radeon R9 Fury X 및 GeForce GTX 980 Ti 그래픽 카드의 성취는 복잡성을 감안할 때 진정으로 경이롭습니다. Nvidia가 28nm 공정으로 만든 첫 번째 칩은 35억 개의 트랜지스터로 구성된 GK104였습니다. GeForce GTX 980 Ti 및 Titan X에 있는 GM200에는 이미 80억 개의 트랜지스터가 있습니다.

16nm TSMC FinFET Plus 기술로의 전환을 통해 Nvidia 엔지니어는 새로운 아이디어를 구현할 수 있었습니다. 기술 데이터에 따르면 16FF+ 칩은 65% 더 빠르며 28HPM의 두 배 밀도를 갖거나 70% 더 적은 전력을 소비할 수 있습니다. GPU를 생성할 때 Nvidia는 이러한 장점의 최적 조합을 사용합니다. TSMC는 기존 20nm 공정의 엔지니어링을 기반으로 했지만 플랫 트랜지스터 대신 FinFET 트랜지스터를 사용했다고 주장합니다. 회사는 이 접근 방식이 스크랩의 양을 줄이고 작업 플레이트의 생산량을 증가시킨다고 말합니다. 고속 트랜지스터를 탑재한 20나노 공정 기술도 없었다는 주장도 나온다. 다시 말하지만, 컴퓨터 그래픽의 세계는 4년 이상 동안 28nm 공정 기술을 사용하고 있습니다.


GP104 프로세서 블록 다이어그램

GM204의 후속 제품은 314mm2의 면적에 배치된 72억 개의 트랜지스터로 구성됩니다. 비교를 위해 GM204 다이 영역은 52억 개의 트랜지스터가 있는 398mm2입니다. 정식 버전에서 하나의 GP104 GPU에는 4개의 GPC(그래픽 처리 클러스터)가 있습니다. 각 GPC에는 5개의 스레드/텍스처 처리 클러스터(TPC)와 래스터라이저가 포함됩니다. TPC는 하나의 스트리밍 멀티프로세서(SM)와 PolyMorph 엔진을 결합합니다. SM은 128개의 단정밀도 CUDA 코어, 256KB의 레지스터 메모리, 96KB의 공유 메모리, 48KB의 L1/텍스처 캐시 및 8개의 텍스처 유닛을 결합합니다. 4세대 PolyMorph 엔진에는 래스터화 블록 이전의 지오메트리 파이프라인 끝에 위치한 새로운 논리 블록이 포함되어 있으며 동시 다중 투영 기능을 제어합니다(자세한 내용은 아래 참조). 총 20개의 SM, 2560개의 CUDA 코어 및 160개의 텍스처 처리 장치를 얻습니다.


GP104의 스트리밍 멀티프로세서(SM) 1개

GPU 백엔드에는 8개의 32비트 메모리 컨트롤러(256비트 총 채널 너비), 8개의 래스터화 장치 및 장치당 256KB의 L2 캐시가 포함됩니다. 64개의 ROP와 2MB의 공유 L2 캐시로 끝납니다. Nvidia GM204 프로세서의 블록 다이어그램은 4개의 64비트 컨트롤러와 16개의 ROP를 보여주었지만 함께 그룹화되었으며 기능적으로 동일합니다.

GP104의 일부 구조적 요소는 GM204와 유사합니다. 새로운 GPU가 이전 GPU의 "빌딩 블록"에서 구축되었기 때문입니다. 아무 문제가 없다. Maxwell 아키텍처에서 회사는 에너지 효율성에 의존했으며 기존 블록을 흔들지 않았습니다. 강점케플러. 우리는 여기에서 비슷한 그림을 봅니다.

4개의 SM을 추가해도 성능에 눈에 띄게 영향을 미치지 않을 수 있습니다. 그러나 GP104에는 몇 가지 트릭이 있습니다. 첫 번째 트럼프 카드는 훨씬 더 높은 클럭 주파수입니다. GPU의 기본 클럭 속도는 1607MHz입니다. 비교를 위해 GM204 사양은 1126MHz를 나타냅니다. GPU Boost는 최대 1733MHz이지만 EVGA의 PrecisionX 베타 유틸리티를 사용하여 샘플을 최대 2100MHz까지 높였습니다. 오버클럭을 위한 그러한 예비는 어디에서 왔습니까? GPU 엔지니어링 수석 부사장인 John Albin에 따르면 그의 팀은 TSMC 16FF+ 프로세스가 칩 아키텍처에 영향을 줄 것이라는 것을 알고 있었기 때문에 칩의 타이밍을 최적화하여 더 높은 클럭 속도 달성을 방해하는 병목 현상을 제거하는 데 중점을 두었습니다. 결과적으로 GP104의 단정밀도 컴퓨팅 속도는 GeForce GTX 980의 4612 GFLOP 상한에 비해 8228 GFLOP(기본 클럭에서)에 도달했습니다. 텍셀 채우기 속도는 980(GPU 부스트 포함)의 155.6 Gtex/s에서 277, 3Gtex/s.

GPU 지포스 GTX 1080(GP104) 지포스 GTX 980(GM204)
에스엠 20 16
CUDA 코어 수 2560 2048
기본 GPU 주파수, MHz 1607 1126
부스트 모드의 GPU 주파수, MHz 1733 1216
계산 속도, GFLOPs(기본 주파수에서) 8228 4612
텍스처 단위 수 160 128
텍셀 충전 속도, Gtex/s 277,3 155,6
메모리 전송 속도, Gbps 10 7
메모리 대역폭, GB/s 320 224
래스터화 블록의 수 64 64
L2 캐시 크기, MB 2 2
열 패키지, W 180 165
트랜지스터 수 72억 52억
수정 영역, mm2 314 398mm
공정 기술, nm 16 28

백엔드에는 여전히 64개의 ROP와 256비트 메모리 버스가 포함되어 있지만 Nvidia는 사용 가능한 대역폭을 늘리기 위해 GDDR5X 메모리를 도입했습니다. 특히 다양한 AMD 그래픽 카드에 사용되는 HBM 메모리와 엔비디아가 Tesla P100에 탑재하고 있는 HBM2를 배경으로 새로운 형태의 메모리 홍보에 많은 노력을 기울였습니다. 현재 시장에는 HBM2 메모리가 부족한 것으로 보이며 회사는 HBM 제한(1GB 스택 4개 또는 1GB 스택 8개 구현의 어려움)을 받아들일 준비가 되어 있지 않습니다. 따라서 GeForce GTX 1070이 이미 일반 GDDR5를 사용하기 때문에 공급이 제한된 GDDR5X 비디오 메모리를 얻었습니다. 그러나 이것은 새로운 솔루션의 장점을 다루지 않습니다. GeForce GTX 980의 GDDR5 메모리는 데이터 전송 속도가 7Gb/s였습니다. 이것은 256비트 버스를 통해 224GB/s의 대역폭을 제공했습니다. GDDR5X는 10Gb/s에서 시작하여 처리량이 320GB/s로 증가합니다(~43% 증가). Nvidia에 따르면 전력 소비를 늘리지 않고 업그레이드된 I/O 방식을 통해 이러한 증가를 달성했습니다.

Maxwell 아키텍처는 캐시 및 압축 알고리즘을 최적화하여 대역폭을 보다 효율적으로 사용하게 되었으며 Pascal은 메모리 하위 시스템의 사용 가능한 대역폭을 보다 경제적으로 사용하기 위해 새로운 무손실 압축 방법으로 동일한 경로를 따르고 있습니다. 델타 컬러 압축 알고리즘은 2:1 게인을 달성하려고 하며, 이 모드를 더 자주 사용하도록 개선되었습니다. 픽셀당 차이가 매우 작은 경우에 사용되는 새로운 4:1 모드도 있습니다. 마지막으로 Pascal은 2x2 블록에 4:1 압축을 적용하는 또 다른 새로운 8:1 알고리즘을 도입했습니다. 그 차이는 2:1 알고리즘에서 처리됩니다.



차이점은 설명하기 어렵지 않습니다. 첫 번째 이미지는 Project CARS의 압축되지 않은 스크린샷을 보여줍니다. 다음 이미지는 Maxwell 카드가 압축할 수 있는 요소를 보여주며 보라색으로 음영 처리되어 있습니다. 세 번째 장면에서 Pascal이 장면을 훨씬 더 압축하는 것을 볼 수 있습니다. Nvidia에 따르면 이 차이는 각 프레임에 대해 메모리에서 가져와야 하는 바이트 단위 정보의 양이 약 20% 감소하는 것으로 해석됩니다.

Nvidia GeForce GTX 1080 파스칼 검토 | 참조 카드 디자인

Nvidia는 카드 디자인에 대한 접근 방식을 변경했습니다. "참조" 대신에 그녀는 자신의 맵 파운더스 에디션(제작자 버전)이라고 부릅니다. GeForce GTX 1080의 모양이 더 각진 모습이 된 것을 눈치채지 못하는 것은 불가능하지만 측면 바를 통해 뜨거운 공기를 배출하는 동일한 오래된 입증된 메커니즘이 냉각 시스템에 사용됩니다.

카드의 무게는 1020g, 길이는 27cm로 쿨러 케이스가 금속처럼 보일 뿐만 아니라 실제로는 금속, 좀 더 정확히는 알루미늄으로 되어 있어 촉감이 상당히 좋다. 무광 실버 부분은 래커 처리되어 있어 카드를 세심하게 다루지 않으면 금방 긁힐 수 있습니다.

뒷판은 두 부분으로 나뉩니다. 장식용으로만 사용되며 냉각 기능은 없습니다. 이것이 올바른 결정인지 나중에 알게 될 것입니다. Nvidia는 SLI를 사용할 때 서로 가깝게 장착된 카드 사이의 더 나은 공기 흐름을 달성하기 위해 이 플레이트를 제거할 것을 권장합니다.

바닥에는 흥미로운 것이 없지만 검은색 덮개의 일부가 칩셋 쿨러 및 SATA 포트와 같이 아래의 마더보드와 접촉할 수 있다는 것을 알았습니다.

카드 상단에는 1개의 보조 8핀 전원 커넥터가 있습니다. 비디오 카드의 공식 사양과 마더보드 슬롯에서 끌어온 60W의 전력을 감안할 때 이러한 커넥터 하나는 180W의 공칭 TDP에 충분해야 합니다. 당연히 우리는 이 카드가 실제로 얼마나 많은 전력을 소비하는지, 그리고 전력선에 과부하가 걸리는지 확인할 것입니다.

SLI 커넥터도 2개 있습니다. 새로운 Pascal 그래픽 카드와 함께 Nvidia는 새로운 고대역폭 브리지를 도입했습니다. 나중에 더 자세히 살펴보겠습니다. 요컨대 지금까지 공식적으로는 2개의 비디오 카드만 SLI 구성을 지원하고 있으며, 두 커넥터 모두 GPU 간의 듀얼 채널 인터페이스를 작동하는 데 사용됩니다.

I/O 패널에서 3개의 본격적인 DisplayPort 커넥터를 사용할 수 있습니다. 사양 목록에는 DisplayPort 1.2가 있지만 DisplayPort 1.3/1.4와 호환될 것으로 예상됩니다(최소한 디스플레이 컨트롤러는 새 표준과 함께 작동할 수 있음). HDMI 2.0 출력과 듀얼 링크 DVI-D도 있습니다. 아날로그 커넥터를 찾을 수 없습니다.

카드의 다른 쪽 끝에는 공기 캡처를 위한 큰 슬롯과 케이스에 카드를 추가로 고정하기 위한 3개의 나사 구멍이 있습니다.

쿨러 디자인과 파워

외관을 주의 깊게 살펴본 후에는 알루미늄 케이스 아래에 숨겨진 충전재를 볼 차례입니다. 이것은 언뜻보기에 보이는 것보다 더 어려운 것으로 판명되었습니다. 분해 후, 우리는 나사를 포함하여 테이블에 51개의 부품을 세었습니다. 팬을 제거하면 12개가 더 추가됩니다.

Nvidia는 마침내 실제 증기 챔버를 사용하기 시작했습니다. GPU 상단에 나사 4개로 보드에 부착되어 있습니다.

원심 팬은 익숙할 것입니다. 직접 열 제거는 한 곳에서 공기를 흡입하고 라디에이터 핀을 통과하여 케이스 밖으로 배출합니다. 프레임으로도 사용되는 냉각기 덮개는 카드를 안정시킬 뿐만 아니라 전압 변환기와 메모리 모듈을 냉각시키는 데에도 도움이 됩니다.

외부 부품을 모두 제거한 후, 인쇄 회로 기판. 이전 솔루션과 달리 Nvidia는 6상 전원 공급 장치를 사용합니다. 5단계는 GPU를 지원하고 나머지 단계는 GDDR5X 메모리에 전원을 공급합니다.

보드에서 비어 있는 다른 단계의 장소를 볼 수 있습니다.

GP104 GPU는 314mm2의 영역을 커버하며 이는 이전 모델보다 훨씬 작습니다. 프로세서 주변에는 보드의 다른 레이어 라인이 보입니다. 높은 클록 주파수를 얻으려면 도체는 가능한 한 짧아야 합니다. 엄격한 요구 사항으로 인해 Nvidia 파트너는 프로덕션을 시작하고 실행하는 데 더 많은 시간이 필요할 수 있습니다.

GDDR5X 메모리는 Micron 6HA77 칩으로 표시됩니다. 언론의 초기에 새로운 Nvidia 비디오 카드의 유출된 사진에서 6GA77 칩을 보았을 때 그들은 최근에 대량 생산에 들어갔다.

총 8개의 메모리 모듈이 32비트 컨트롤러를 통해 256비트 메모리 버스에 연결됩니다. 1251MHz의 주파수에서 대역폭은 320GB/s에 이릅니다.

Micron의 GDDR5X 모듈은 190핀 GDDR5 대신 170핀 패키지를 사용합니다. 또한 14x12mm 대신 14x10mm로 약간 더 작습니다. 즉, 밀도가 높고 냉각 개선이 필요합니다.

카드를 뒤집어보니 두 번째 전원 커넥터를 위한 여유 공간이 있었습니다. 따라서 Nvidia 파트너는 두 번째 보조 커넥터를 설치하여 전원을 추가하거나 기존 커넥터를 다른 위치로 이동할 수 있습니다.

보드에는 또한 전원 커넥터를 180도 돌릴 수 있는 슬롯이 있습니다.

커패시터는 가능한 서지를 부드럽게 하기 위해 GPU 바로 아래에 있습니다. 또한 보드의 이 쪽에 PWM이 있습니다(이전에는 전면에 위치함). 이 솔루션은 Nvidia 파트너에게 다른 PWM 컨트롤러를 설치할 수 있는 기능을 제공합니다.

그러나 PWM 전압 조정기 컨트롤러로 돌아갑니다. Nvidia의 GPU Boost 3.0 기술은 새로운 전압 조정 요구 사항을 수신하여 상당한 변화를 가져왔습니다. 우리는 International Rectifier의 IR3536A 유형 컨트롤러가 5+1 위상 설계와 쌍을 이룰 것으로 예상했지만 Nvidia는 µP9511P를 사용했습니다. 카드가 MSI Afterburner 및 Gigabyte OC Guru와 같은 도구의 인터페이스와 프로토콜을 지원하지 않기 때문에 이것은 오버클러커에게 가장 좋은 소식이 아닙니다. 아직 잘 설명되지 않은 새 컨트롤러로의 전환은 기술적인 특징 때문일 가능성이 큽니다.

PWM 컨트롤러는 전압 컨버터의 개별 위상을 직접 구동할 수 없기 때문에 Nvidia는 53603A 칩이 있는 강력한 MOSFET 드라이버를 사용하여 MOSFET의 게이트를 구동합니다. 그러나 다른 옵션에 비해 회로 레이아웃이 깔끔하고 깔끔해 보입니다.

여기에는 다양한 유형의 MOSFET이 있습니다. 4C85N은 상당히 유연한 듀얼 채널 전압 변환 MOSFET입니다. 전원 공급 장치의 6단계 모두에 사용되며 참조 설계의 부하를 견딜 수 있을 만큼 충분한 전기 및 열 예비량이 있습니다.


Nvidia의 GPU Boost 3.0 기술과 수정된 전압 조정기 회로가 전력 소비에 어떤 영향을 미칠지 궁금합니다. 우리는 확실히 그것을 확인할 것입니다.

Nvidia GeForce GTX 1080 파스칼 검토 | 동시 다중 투영 및 비동기 컴퓨팅 기술

동시 다중 프로젝션 엔진

증가된 코어 수, 코어 클럭 속도 및 10Gbps GDDR5X 메모리 성능은 우리가 테스트한 모든 게임의 속도를 높입니다. 그러나 Pascal 아키텍처에는 향후 게임에서만 감상할 수 있는 몇 가지 기능이 포함되어 있습니다.

Nvidia는 PolyMorph 엔진에 추가된 하드웨어 블록으로 표현되는 동시 다중 투영 엔진 또는 다중 투영 엔진이라고 하는 새로운 기능 중 하나입니다. 새로운 엔진은 단일 관점에서 기하학적 데이터의 투영을 최대 16개까지 생성할 수 있습니다. 또는 하드웨어에서 지오메트리를 32번 복제하여 입체 이미지를 생성하도록 관점을 전환할 수 있습니다. SMP 없이 이 효과를 얻으려고 할 때 경험할 성능 저하 없이 말이죠.


하나의 평면 투영

이 기술의 장점을 이해하려고 노력합시다. 예를 들어, 서라운드 구성에 3개의 모니터가 있습니다. 그들은 사용자를 "감싸기"위해 약간 안쪽으로 향하게되어 놀고 작업하기가 더 편리합니다. 하지만 게임에서는 이를 인지하지 못하고 한 면에 이미지를 랜더링하기 때문에 모니터 프레임의 교차점에서 휘어진 것처럼 보이고 일반적으로 그림이 일그러져 보입니다. 이러한 구성의 경우 하나의 투영은 정면으로, 두 번째 투영은 마치 항공기의 파노라마 조종석에서처럼 왼쪽으로, 세 번째 투영은 오른쪽으로 렌더링하는 것이 더 정확할 것입니다. 이렇게 하면 이전에 휘어진 파노라마가 더 부드럽게 보이고 사용자는 훨씬 더 넓은 시야각을 갖게 됩니다. 전체 장면은 여전히 ​​래스터화되고 페인팅되어야 하지만 GPU는 장면을 세 번 렌더링할 필요가 없으므로 오버헤드가 제거됩니다.


각진 디스플레이의 잘못된 원근법



SMP 수정된 관점

그러나 응용 프로그램은 광시야각 설정을 지원하고 SMP API 호출을 사용해야 합니다. 즉, 이 기능을 활용하려면 먼저 게임 개발자가 이 기능을 마스터해야 합니다. 우리는 그들이 소수의 다중 모니터 Surround 사용자를 위해 얼마나 많은 노력을 기울일 의향이 있는지 확신하지 못합니다. 그러나 가능한 한 빨리 이 기능을 구현하는 것이 합리적인 다른 응용 프로그램이 있습니다.


단일 패스 스테레오 렌더링을 사용하여 SMP는 각 눈에 대해 하나의 투영을 만듭니다.

가상 현실을 예로 들어 보겠습니다. 이미 각 눈에 대한 개별 투영이 필요합니다. 오늘날 게임은 관련된 모든 단점과 효율성 손실과 함께 두 개의 개별 화면에 이미지를 렌더링합니다. 그러나 SMP는 두 개의 프로젝션 센터를 지원하기 때문에 Nvidia의 싱글 패스 스테레오 기능을 사용하여 한 패스로 장면을 렌더링할 수 있습니다. 지오메트리는 한 번 처리되고 SMP는 왼쪽 및 오른쪽 눈에 대한 투영을 생성합니다. 또한 SMP는 Lens Matched Shading이라는 기능에 대해 추가 투영을 적용할 수 있습니다.


Lens Matched Shading 기능을 사용한 첫 번째 패스 후 이미지



헤드셋으로 전송되는 마지막 장면

간단히 말해서 Lens Matched Shading은 헤드셋 렌즈의 왜곡과 일치하도록 지오메트리를 왜곡하기 위해 기존 평면 투영 렌더링이 일반적으로 수행해야 하는 무거운 작업을 피함으로써 VR 렌더링을 보다 효율적으로 만들려고 시도합니다. 최대 곡률) . 이 효과는 SMP를 사용하여 영역을 사분면으로 나눔으로써 접근할 수 있습니다. 따라서 정사각형 투영으로 렌더링 및 작업하는 대신 GPU는 렌즈 왜곡 필터와 일치하는 이미지를 생성합니다. 이 방법은 추가 픽셀의 생성을 방지합니다. 개발자가 HMD에서 아이 샘플링 속도를 충족하거나 초과하는 한 품질의 차이를 느끼지 못할 것입니다.

Nvidia에 따르면 싱글 패스 스테레오와 렌즈 일치 셰이딩 기술의 조합은 비 SMP GPU에 비해 ​​VR에서 최대 2배의 성능 향상을 제공할 수 있습니다. 일부는 픽셀 렌더링과 관련이 있습니다. Lens Matched Shading을 사용하여 렌더링해서는 안 되는 픽셀 처리를 방지하면 Nvidia의 균형 잡힌 사전 설정이 있는 장면의 렌더링 속도가 4.2MP/s(Oculus Rift)에서 2.8MP/s로 떨어지므로 GPU의 셰이더 로드가 1로 감소하고 반배. 지오메트리를 한 번만 처리하는 싱글 패스 스테레오 기술(두 번째 눈을 위해 다시 렌더링하는 대신)은 오늘날 수행해야 하는 지오메트리 처리의 절반을 효과적으로 제거합니다. 이제 Ren-Sun이 "Titan X에 비해 2배의 성능 향상과 3배의 효율성 향상"을 주장했을 때 의미하는 바가 명확해졌습니다.

비동기 컴퓨팅

Pascal 아키텍처에는 여러 가지 이유로 DirectX 12, VR 및 AMD의 아키텍처 이점과 관련된 비동기 컴퓨팅과 관련된 몇 가지 변경 사항도 포함되어 있습니다.

Nvidia는 Maxwell 아키텍처 이후로 그래픽 및 컴퓨팅 워크로드에 대한 정적 GPU 리소스 공유를 지원했습니다. 이론적으로 이 접근 방식은 두 블록이 동시에 활성화될 때 좋습니다. 그러나 프로세서 리소스의 75%가 그래픽에 할당되고 작업의 일부를 더 빨리 완료한다고 가정해 보겠습니다. 그런 다음 이 블록은 유휴 상태가 되어 컴퓨팅 블록이 작업의 일부를 완료할 때까지 기다립니다. 따라서 이러한 작업을 동시에 실행할 때 얻을 수 있는 모든 이점이 손실됩니다. Pascal은 동적 로드 밸런싱으로 이 단점을 해결합니다. 드라이버가 파티션 중 하나가 충분히 사용되지 않는다고 결정하면 다른 파티션을 돕기 위해 리소스를 전환하여 성능에 부정적인 영향을 미치는 유휴 시간을 방지할 수 있습니다.

Nvidia는 또한 Pascal의 인터럽트 기능, 즉 매우 짧은 실행 시간으로 더 "긴급한" 작업을 해결하기 위해 현재 작업을 중지하는 기능을 개선했습니다. 아시다시피 GPU는 유사한 리소스를 서로 바쁘게 유지하도록 설계된 대용량 버퍼가 있는 고도로 병렬화된 시스템입니다. 유휴 셰이더는 쓸모가 없으므로 반드시 워크플로에 참여해야 합니다.


VR은 최신 추적 데이터를 캡처하기 위해 가능한 한 늦게 인터럽트 요청을 보내는 것이 좋습니다.

좋은 예는 Oculus가 Rift와 함께 도입한 ATW(Asynchronous Time Warp) 기능입니다. 비디오 카드가 90Hz 디스플레이에서 11ms마다 새 프레임을 생성할 수 없는 경우 ATW는 헤드 위치가 조정된 마지막 프레임을 사용하여 중간 프레임을 생성합니다. 그러나 그러한 프레임을 생성하려면 충분한 시간이 있어야 하며 불행히도 그래픽 중단은 그리 정확하지 않습니다. 사실, Fermi, Kepler 및 Maxwell 아키텍처는 그리기 수준 중단을 지원합니다. 즉, 그리기 호출 내에서 프레임을 전환할 수 있어 잠재적으로 ATW 기술을 방해할 수 있습니다.

Pascal은 그래픽에 대한 픽셀 수준 인터럽트를 구현하므로 GP104는 현재 픽셀 수준 작업을 중지하고 상태를 저장하고 다른 컨텍스트로 전환할 수 있습니다. Oculus가 작성한 밀리초 인터럽트 대신 Nvidia는 100마이크로초 미만이라고 주장합니다.

Maxwell 아키텍처에서는 컴퓨팅 장치의 픽셀 수준 인터럽트에 해당하는 것이 스레드 수준 인터럽트를 통해 구현되었습니다. Pascal도 이 기술을 유지했지만 CUDA 계산 작업에서 명령 수준 인터럽트에 대한 지원을 추가했습니다. 현재 Nvidia 드라이버에는 이 기능이 포함되어 있지 않지만 픽셀 수준 중단과 함께 곧 사용할 수 있습니다.

Nvidia GeForce GTX 1080 파스칼 검토 | 출력 파이프라인, SLI 및 GPU Boost 3.0

파스칼 디스플레이 채널: HDR 지원

작년에 우리는 캘리포니아 소노마에서 AMD를 만났습니다. 여기서 AMD는 HDR 콘텐츠 및 관련 디스플레이를 지원하는 이미지 출력 파이프라인과 같은 새로운 Polaris 아키텍처의 일부 세부 사항을 공유했습니다.

당연히 Nvidia의 Pascal 아키텍처에는 이와 같은 기능이 포함되어 있으며 그 중 일부는 Maxwell에서도 사용할 수 있었습니다. 예를 들어, GP104의 디스플레이 컨트롤러는 12비트 색상, BT.2020 넓은 색 영역, SMPTE 2084 전기 광학 전송 및 HDCP 2.2가 포함된 HDMI 2.0b에 대한 지원을 받았습니다.

이 목록에 Pascal은 HEVC 버전 2 표준을 지원한다고 주장하는 전용 하드웨어 블록을 통해 10/12비트 색상으로 가속화된 4K60p HEVC 디코딩을 추가합니다. 이전에 Nvidia는 소프트웨어 리소스를 사용하는 하이브리드 접근 방식을 사용했습니다. 또한 인코딩은 픽셀당 8비트의 색상 정보로 제한되었습니다. 그러나 논란의 여지가 있는 사양을 지원하기 위해 Microsoft PlayReady 3.0에는 더 빠르고 효율적인 솔루션이 필요했습니다.

이 아키텍처는 또한 HDR로 녹화 또는 스트리밍하기 위해 4K60p에서 10비트 색상의 HEVC 인코딩을 지원하며 Nvidia에는 ​​전용 앱도 있습니다. GP104 프로세서의 인코딩과 곧 출시될 GameStream HDR 소프트웨어를 사용하여 HDR 호환 TV에 연결된 Shield 장치로 HDR 게임을 스트리밍할 수 있습니다. Shield에는 픽셀당 10비트 색상을 지원하는 자체 HEVC 디코더가 장착되어 있어 이미지 출력 파이프라인의 부담을 덜 수 있습니다.

지포스 GTX 1080 지포스 GTX 980
H.264 인코딩 예(4K60p 2개)
HEVC 인코딩 예(4K60p 2개)
HEVC 인코딩 10비트 아니다
H.264 디코딩 예(4K120p 최대 240Mbps)
HEVC 디코딩 예(4K120p/8K30p 최대 320Mbps) 아니다
VP9 디코딩 예(4K120p 최대 320Mbps) 아니다
HEVC 10/12비트 디코딩 아니다

HDMI 2.0b 지원 외에도 GeForce GTX 1080은 DisplayPort 1.2 인증을 받았고 DP 1.3/1.4와 호환됩니다. 그런 면에서 디스플레이 컨트롤러가 DP 1.3만 지원하는 아직 출시되지 않은 폴라리스를 이미 능가한다. 다행히 AMD의 경우 버전 1.4 사양에는 더 빠른 전송 모드가 포함되어 있지 않으며 한도는 여전히 HBR3 모드에서 설정한 32.4Gbps입니다.

앞서 언급했듯이 GeForce GTX 1080 Founders Edition에는 3개의 디스플레이 포트 출력, 1개의 HDMI 2.0b 커넥터 및 1개의 DVI 디지털 듀얼 링크 출력이 장착되어 있습니다. GTX 980과 마찬가지로 이 참신함은 4개의 독립 모니터에 동시에 이미지를 표시할 수 있습니다. 그러나 2개의 DP 1.2 케이블을 통한 5120x3200 해상도와 비교하면 GTX 1080의 최대 해상도는 60Hz 재생률에서 7680x4320 픽셀입니다.

SLI는 이제 공식적으로 2개의 GPU만 지원합니다.

전통적으로 고급 Nvidia 그래픽 카드에는 SLI 번들에서 2개, 3개 또는 4개의 가속기를 연결하기 위한 2개의 커넥터가 장착되어 있습니다. 일반적으로 이중 GPU 구성에서 최상의 확장성을 얻을 수 있습니다. 또한 많은 함정이 나타나기 때문에 비용이 정당화되지 않는 경우가 많습니다. 그러나 일부 애호가는 추가 프레임과 친구들에게 자랑할 기회를 얻기 위해 여전히 3~4개의 그래픽 어댑터를 사용합니다.

그러나 상황이 바뀌었습니다. Nvidia에 따르면 DirectX 12와 관련된 새로운 게임의 성능 확장 문제로 인해 GeForce GTX 1080은 공식적으로 이중 GPU SLI 구성만 지원합니다. 그렇다면 카드에 두 개의 커넥터가 필요한 이유는 무엇입니까? 새로운 SLI 브리지 덕분에 두 커넥터를 동시에 2채널 모드에서 데이터 전송에 사용할 수 있습니다. 듀얼 채널 모드 외에도 인터페이스는 400MHz에서 650MHz로 증가된 I/O 주파수를 갖습니다. 결과적으로 프로세서 간의 처리량이 두 배 이상 증가합니다.


Middle Earth의 프레임 렌더링 시간: 새(그래프의 파란색 선) 및 이전(검정색) SLI 브리지가 있는 Shadow of Mordor

그러나 많은 게이머는 더 빠른 채널의 이점을 경험하지 못합니다. 무엇보다도 높은 해상도와 재생률에서 관련성이 있습니다. Nvidia는 3개의 4K 디스플레이에서 Middle Earth: Shadow of Mordor를 실행하는 2개의 GeForce 1080 GTX의 FCAT 샷을 보여주었습니다. 두 개의 카드를 기존 브리지에 연결하면 프레임 시간이 지속적으로 점프하여 끊김 현상으로 나타나는 예측 가능한 타이밍 문제가 발생했습니다. 새로운 다리로 점프 횟수가 줄어들었고 덜 두드러졌습니다.

Nvidia에 따르면 SLI HB 브리지만이 듀얼 채널 모드를 지원하는 것은 아닙니다. 이미 친숙한 LED 브리지는 Pascal 카드에 연결될 때 650MHz의 주파수로 데이터를 전송할 수도 있습니다. 4K 이상에서 작업하려면 유연한 브리지 또는 기존 브리지를 피하는 것이 가장 좋습니다. 자세한 정보호환성에 관한 정보는 Nvidia에서 제공하는 표에서 찾을 수 있습니다.

1920x1080@60Hz 2560x1440 @ 120Hz+ 2560x1440 4K 5K 둘러 싸다
표준 다리 엑스 엑스
LED 브리지 엑스 엑스 엑스 엑스
고속 데이터 브리지(HB) 엑스 엑스 엑스 엑스 엑스 엑스

3칩 및 4칩 구성이 거부된 이유는 무엇입니까? 결국 회사는 더 많이 판매하고 더 높은 생산성을 달성하기 위해 항상 노력하고 있습니다. 현대 비디오 게임 시장이 점점 더 미묘하고 복잡한 렌더링 접근 방식을 사용하고 있는 SLI에서 두 개 또는 네 개의 카드를 연결할 때 Nvidia가 이점 손실에 대해 책임을 지지 않는다고 말하는 것은 냉소적입니다. 그러나 회사는 Microsoft가 현재 프레임별 렌더링 대신 단일 프레임 공동 렌더링과 같은 새로운 기술을 탐색하는 게임 개발자에게 다중 프로세서 구성에 대한 더 많은 제어 권한을 부여하기 때문에 고객에게 가장 큰 이익이 된다고 주장합니다. (AFR).

속도 기록에만 관심이 있고 위에 설명된 요소에는 관심이 없는 매니아는 여전히 이전 소프트웨어를 사용하여 SLI에서 3~4개의 GTX 1080을 연결할 수 있습니다. "잠금 해제" 키를 요청할 수 있는 Nvidia의 프로그램을 사용하여 고유한 "하드웨어" 서명을 생성해야 합니다. 당연히 새로운 HB SLI 브리지는 2개 이상의 GPU에서 작동하지 않으므로 650MHz에서 3/4개의 GP104 작업을 결합하려면 기존 LED 브리지로 제한해야 합니다.

GPU 부스트 3.0에 대해 간략히

GPU에서 더 많은 성능을 얻으려는 노력의 일환으로 Nvidia는 GPU Boost 기술을 다시 개선했습니다.

이전 세대(GPU Boost 2.0)에서는 전압/주파수 종속성의 경사선의 특정 값을 이동하여 클럭 속도를 설정했습니다. 이 라인 위의 잠재적인 여유 공간은 일반적으로 사용되지 않은 상태로 남아 있습니다.


GPU Boost 3.0 - 전압 증가 단계당 주파수 증가 설정

이제 GPU Boost 3.0을 사용하면 온도에 의해서만 제한되는 개별 전압 값에 대한 주파수 이득을 설정할 수 있습니다. 또한 곡선의 전체 값 범위에서 맵의 안정성을 실험하고 확인할 필요가 없습니다. Nvidia에는 ​​이 프로세스를 자동화하는 알고리즘이 내장되어 있어 GPU 고유의 전압/주파수 곡선을 생성합니다.

Nvidia GeForce GTX 1080 파스칼 검토 | GP104 GPU를 만나보세요

Computex 전날, Nvidia는 오랫동안 기다려온 참신함, 즉 게이머를 위해 적용된 Pascal 아키텍처를 발표하기로 결정했습니다. 새로운 GeForce GTX 1080 및 1070 그래픽 카드에서 제조업체는 GP104 그래픽 프로세서를 설치합니다. 오늘 우리는 구형 모델을 검토할 것이며 더 어린 모델은 6월 초에 우리 손에 있을 것입니다.

Pascal 아키텍처는 업그레이드된 컨트롤러를 통해 더 빠르고 효율적인 성능, 더 많은 컴퓨팅 모듈, 축소된 다이 영역 및 더 빠른 메모리를 약속합니다. VR, 4K 게임 및 기타 성능 집약적 애플리케이션에 더 적합합니다.

언제나처럼 제조사의 약속을 이해하고 실전에서 테스트하도록 노력하겠습니다. 시작하자.

지포스 GTX 1080이 하이엔드 부문의 전력 균형을 바꿀 것인가?

Nvidia GeForce GTX 1080은 이번 달 초에 발표된 두 개의 게임용 그래픽 카드 중 가장 빠릅니다. 둘 다 GP104 GPU를 사용합니다. 그건 그렇고, 이미 두 번째 Pascal 마이크로아키텍처 GPU입니다(첫 번째는 4월 GTC에 등장한 GP100). Nvidia CEO Ren-Sun Huan은 GeForce GTX 1080이 SLI에서 두 개의 980을 능가할 것이라고 주장하면서 신제품을 일반 대중에게 공개했을 때 열성팬을 놀렸습니다.

그는 또한 GTX 1080이 성능이 더 뛰어나서 900 시리즈보다 전력 소비가 더 낮다고 언급했습니다. 기존 플래그십 지포스 타이탄 X보다 2배 빠르고 3배 효율적이지만, 첨부된 그래프와 차트를 보면 이러한 인상적인 차이가 가상현실과 관련된 특정 작업에서 드러난다는 것을 알 수 있다. 그러나 이러한 약속이 부분적으로만 확인되더라도 PC용 고급 게임 개발 측면에서 우리는 여전히 매우 흥미로운 시기에 있습니다.

가상 현실은 서서히 추진력을 얻고 있지만 그래픽 하위 시스템에 대한 높은 하드웨어 요구 사항은 이러한 기술에 대한 액세스에 상당한 장벽을 만듭니다. 또한 오늘날 사용 가능한 대부분의 게임은 다중 프로세서 렌더링을 활용하는 방법을 모릅니다. 즉, 일반적으로 하나의 GPU가 있는 하나의 고속 비디오 어댑터 기능으로 제한됩니다. GTX 1080은 2개의 980을 능가할 수 있으며 오늘날의 VR 게임으로 어려움을 겪지 않아 향후 다중 프로세서 구성이 필요하지 않습니다.

4K 생태계도 그만큼 빠르게 발전하고 있습니다. HDMI 2.0b 및 DisplayPort 1.3/1.4와 같은 더 높은 대역폭 인터페이스는 올해 말까지 120Hz 패널과 동적 재생 빈도를 지원하는 4K 모니터의 문을 열어야 합니다. 이전 세대의 AMD와 Nvidia의 최고급 GPU는 4K 게임 솔루션으로 마케팅되었지만 사용자는 허용 가능한 프레임 속도를 유지하기 위해 품질을 타협해야 했습니다. GeForce Nvidia GTX 1080은 최대 그래픽 세부 설정으로 3840x2160 해상도에서 높은 프레임 속도를 유지하기에 충분히 빠른 최초의 그래픽 카드가 될 수 있습니다.

다중 모니터 구성의 상황은 어떻습니까? 많은 게이머들이 1920x1080 해상도의 모니터 3대를 기꺼이 설치하지만 그래픽 시스템이 부하를 처리할 수 있는 조건에서 이 경우 해상도가 7680x1440이므로 카드가 50만 픽셀을 렌더링해야 하기 때문입니다. 11520x2160 픽셀의 결합 해상도로 3개의 4K 디스플레이를 기꺼이 사용하려는 매니아도 있습니다.

후자의 옵션은 새로운 게임용 플래그십 그래픽 카드에도 너무 이국적입니다. 그러나 Nvidia GP104 프로세서에는 4K 및 Surround와 같은 새 모델의 일반적인 작업에 대한 경험을 향상시킬 수 있는 기술이 탑재되어 있습니다. 그러나 새로운 기술로 넘어가기 전에 GP104 프로세서와 기본 Pascal 아키텍처를 자세히 살펴보겠습니다.

GP104는 무엇으로 만들어졌습니까?

2012년 초부터 AMD와 Nvidia는 28nm 공정 기술을 사용해 왔습니다. 이를 통해 두 회사 모두 Radeon HD 7970 및 GeForce GTX 680 그래픽 카드를 소개하면서 상당한 도약을 이루었지만 향후 4년 동안 기존 기술에서 더 많은 성능을 얻기 위해 많은 노력을 기울여야 했습니다. . Radeon R9 Fury X 및 GeForce GTX 980 Ti 그래픽 카드의 성취는 복잡성을 감안할 때 진정으로 경이롭습니다. Nvidia가 28nm 공정으로 만든 첫 번째 칩은 35억 개의 트랜지스터로 구성된 GK104였습니다. GeForce GTX 980 Ti 및 Titan X에 있는 GM200에는 이미 80억 개의 트랜지스터가 있습니다.

16nm TSMC FinFET Plus 기술로의 전환을 통해 Nvidia 엔지니어는 새로운 아이디어를 구현할 수 있었습니다. 기술 데이터에 따르면 16FF+ 칩은 65% 더 빠르며 28HPM의 두 배 밀도를 갖거나 70% 더 적은 전력을 소비할 수 있습니다. GPU를 생성할 때 Nvidia는 이러한 장점의 최적 조합을 사용합니다. TSMC는 기존 20nm 공정의 엔지니어링을 기반으로 했지만 플랫 트랜지스터 대신 FinFET 트랜지스터를 사용했다고 주장합니다. 회사는 이 접근 방식이 스크랩의 양을 줄이고 작업 플레이트의 생산량을 증가시킨다고 말합니다. 고속 트랜지스터를 탑재한 20나노 공정 기술도 없었다는 주장도 나온다. 다시 말하지만, 컴퓨터 그래픽의 세계는 4년 이상 동안 28nm 공정 기술을 사용하고 있습니다.

GP104 프로세서 블록 다이어그램

GM204의 후속 제품은 314mm2의 면적에 배치된 72억 개의 트랜지스터로 구성됩니다. 비교를 위해 GM204 다이 영역은 52억 개의 트랜지스터가 있는 398mm2입니다. 정식 버전에서 하나의 GP104 GPU에는 4개의 GPC(그래픽 처리 클러스터)가 있습니다. 각 GPC에는 5개의 스레드/텍스처 처리 클러스터(TPC)와 래스터라이저가 포함됩니다. TPC는 하나의 스트리밍 멀티프로세서(SM)와 PolyMorph 엔진을 결합합니다. SM은 128개의 단정밀도 CUDA 코어, 256KB의 레지스터 메모리, 96KB의 공유 메모리, 48KB의 L1/텍스처 캐시 및 8개의 텍스처 유닛을 결합합니다. 4세대 PolyMorph 엔진에는 래스터화 블록 이전의 지오메트리 파이프라인 끝에 위치한 새로운 논리 블록이 포함되어 있으며 동시 다중 투영 기능을 제어합니다(자세한 내용은 아래 참조). 총 20개의 SM, 2560개의 CUDA 코어 및 160개의 텍스처 처리 장치를 얻습니다.

GP104의 스트리밍 멀티프로세서(SM) 1개

GPU 백엔드에는 8개의 32비트 메모리 컨트롤러(256비트 총 채널 너비), 8개의 래스터화 장치 및 장치당 256KB의 L2 캐시가 포함됩니다. 64개의 ROP와 2MB의 공유 L2 캐시로 끝납니다. Nvidia GM204 프로세서의 블록 다이어그램은 4개의 64비트 컨트롤러와 16개의 ROP를 보여주었지만 함께 그룹화되었으며 기능적으로 동일합니다.

GP104의 일부 구조적 요소는 GM204와 유사합니다. 새로운 GPU가 이전 GPU의 "빌딩 블록"에서 구축되었기 때문입니다. 아무 문제가 없다. 기억하신다면 Maxwell 아키텍처에서 회사는 에너지 효율성에 의존하고 Kepler의 강점인 블록을 흔들지 않았습니다. 우리는 여기에서 비슷한 그림을 봅니다.

4개의 SM을 추가해도 성능에 눈에 띄게 영향을 미치지 않을 수 있습니다. 그러나 GP104에는 몇 가지 트릭이 있습니다. 첫 번째 트럼프 카드는 훨씬 더 높은 클럭 주파수입니다. GPU의 기본 클럭 속도는 1607MHz입니다. 비교를 위해 GM204 사양은 1126MHz를 나타냅니다. GPU Boost는 최대 1733MHz이지만 EVGA의 PrecisionX 베타 유틸리티를 사용하여 샘플을 최대 2100MHz까지 높였습니다. 오버클럭을 위한 그러한 예비는 어디에서 왔습니까? GPU 엔지니어링 수석 부사장인 John Albin에 따르면 그의 팀은 TSMC 16FF+ 프로세스가 칩 아키텍처에 영향을 줄 것이라는 것을 알고 있었기 때문에 칩의 타이밍을 최적화하여 더 높은 클럭 속도 달성을 방해하는 병목 현상을 제거하는 데 중점을 두었습니다. 결과적으로 GP104의 단정밀도 컴퓨팅 속도는 GeForce GTX 980의 4612 GFLOP 상한에 비해 8228 GFLOP(기본 클럭에서)에 도달했습니다. 텍셀 채우기 속도는 980(GPU 부스트 포함)의 155.6 Gtex/s에서 277, 3Gtex/s.

GPU 지포스 GTX 1080(GP104) 지포스 GTX 980(GM204)
에스엠 20 16
CUDA 코어 수 2560 2048
기본 GPU 주파수, MHz 1607 1126
부스트 모드의 GPU 주파수, MHz 1733 1216
계산 속도, GFLOPs(기본 주파수에서) 8228 4612
텍스처 단위 수 160 128
텍셀 충전 속도, Gtex/s 277,3 155,6
메모리 전송 속도, Gbps 10 7
메모리 대역폭, GB/s 320 224
래스터화 블록의 수 64 64
L2 캐시 크기, MB 2 2
열 패키지, W 180 165
트랜지스터 수 72억 52억
수정 영역, mm2 314 398mm
공정 기술, nm 16 28

백엔드에는 여전히 64개의 ROP와 256비트 메모리 버스가 포함되어 있지만 Nvidia는 사용 가능한 대역폭을 늘리기 위해 GDDR5X 메모리를 도입했습니다. 특히 다양한 AMD 그래픽 카드에 사용되는 HBM 메모리와 엔비디아가 Tesla P100에 탑재하고 있는 HBM2를 배경으로 새로운 형태의 메모리 홍보에 많은 노력을 기울였습니다. 현재 시장에는 HBM2 메모리가 부족한 것으로 보이며 회사는 HBM 제한(1GB 스택 4개 또는 1GB 스택 8개 구현의 어려움)을 받아들일 준비가 되어 있지 않습니다. 따라서 GeForce GTX 1070이 이미 일반 GDDR5를 사용하기 때문에 공급이 제한된 GDDR5X 비디오 메모리를 얻었습니다. 그러나 이것은 새로운 솔루션의 장점을 다루지 않습니다. GeForce GTX 980의 GDDR5 메모리는 데이터 전송 속도가 7Gb/s였습니다. 이것은 256비트 버스를 통해 224GB/s의 대역폭을 제공했습니다. GDDR5X는 10Gb/s에서 시작하여 처리량이 320GB/s로 증가합니다(~43% 증가). Nvidia에 따르면 전력 소비를 늘리지 않고 업그레이드된 I/O 방식을 통해 이러한 증가를 달성했습니다.

Maxwell 아키텍처는 캐시 및 압축 알고리즘을 최적화하여 대역폭을 보다 효율적으로 사용하게 되었으며 Pascal은 메모리 하위 시스템의 사용 가능한 대역폭을 보다 경제적으로 사용하기 위해 새로운 무손실 압축 방법으로 동일한 경로를 따르고 있습니다. 델타 컬러 압축 알고리즘은 2:1 게인을 달성하려고 하며, 이 모드를 더 자주 사용하도록 개선되었습니다. 픽셀당 차이가 매우 작은 경우에 사용되는 새로운 4:1 모드도 있습니다. 마지막으로 Pascal은 2x2 블록에 4:1 압축을 적용하는 또 다른 새로운 8:1 알고리즘을 도입했습니다. 그 차이는 2:1 알고리즘에서 처리됩니다.



차이점은 설명하기 어렵지 않습니다. 첫 번째 이미지는 Project CARS의 압축되지 않은 스크린샷을 보여줍니다. 다음 이미지는 Maxwell 카드가 압축할 수 있는 요소를 보여주며 보라색으로 음영 처리되어 있습니다. 세 번째 장면에서 Pascal이 장면을 훨씬 더 압축하는 것을 볼 수 있습니다. Nvidia에 따르면 이 차이는 각 프레임에 대해 메모리에서 가져와야 하는 바이트 단위 정보의 양이 약 20% 감소하는 것으로 해석됩니다.

최근 발표된 일화적인 증거에 따르면 Pascal GPU 제품군은 최근 몇 년 동안 NVIDIA의 가장 완벽한 라인업 중 하나가 될 수 있습니다. 불과 몇 달 만에 이 회사는 Pascal 기반 GPU 4개를 도입했으며 여기서 멈추지 않을 것입니다. 회사 대표에 따르면 실제 제품은 말할 것도 없고 모든 파스칼 칩과 거리가 멀다고 합니다. 분명히 가까운 장래에 새로운 발표를 기다리고 있습니다.

NVIDIA Pascal: 4개월 동안 8개 제품

올해 4월부터 NVIDIA는 16GB HBM2 메모리가 있는 GP100, GDDR5X를 지원하는 GP102, GP104 및 GP106이라는 4개의 Pascal 기반 칩을 출시했습니다. 동시에 회사는 이러한 GPU를 기반으로 하는 8개의 제품을 발표했습니다(DGX-1과 같은 특수 장치는 물론 다음과 같은 다양한 종류의 특별 에디션의 개별 제품 제외): GeForce GTX 1080/1070(GP104), GeForce GTX 1060(GP106), TITAN X(GP102 + 12GB GDDR5X), Quadro P5000(GP104GL + 16GB GDDR5X), Quadro P6000(GP102GL + 24GB GDDR5X), Tesla P100 SXM1 GB1 Tesla bo P10 기반 Tesla P6000(GP102GL + 24GB GDDR5X)

4개월 동안 4개의 GPU와 8개의 제품이 출시된 것은 놀라운 성과지만 회사가 새로운 노트북 솔루션이나 250달러 미만의 새 그래픽 카드를 출시하지 않았다는 점은 주목할 만합니다. NVIDIA의 수장에 따르면 회사는 Pascal 기반의 새로운 GPU를 준비 중이며 이미 실리콘에 존재하지만 시간이 지나면 시장에 진입할 것이라고 합니다.

NVIDIA: 모든 Pascal이 준비되었지만 모두 제공되는 것은 아닙니다.

"우리는 모든 제품의 설계, 검증 및 생산을 시작했습니다.GPU 아키텍처 기반파스칼», NVIDIA의 CEO인 Jen-Hsun Huang은 투자자 및 재무 분석가와의 컨퍼런스 콜에서 이렇게 말했습니다. "그러나 우리는 아직 이러한 GPU를 모두 도입하지 않았습니다."

새로운 구성

그러나 게이머와 성능 매니아가 관심을 갖는 것은 GP107, GP108 및 GP102 내부가 아니라 각 Pascal 칩이 최소한 두 가지 기본 구성(NVIDIA 드라이버가 사용하는 PCIe ID 측면에서 ) . 이는 GP100, GP102, GP104 및 GP106 칩을 기반으로 하는 수많은 신제품을 만들 수 있는 기회를 제공합니다.

따라서 GP104는 GP104-A 및 GP104-B 구성과 전문 애플리케이션용 가속 기능이 있는 버전(GP104GL-A 및 GP104GL-B)에 존재합니다. 문자 "A"와 "B"가 정확히 무엇에 해당하는지 모르지만 "A"가 최대 구성의 미세 회로를 나타낸다고 가정할 수 있습니다. 따라서 GP104-A는 GeForce GTX 1080과 일치할 수 있고 GP104-B는 GeForce GTX 1070과 일치할 수 있습니다.

GP102 및 GP106 마이크로 회로도 두 가지 구성으로 존재하지만(어쨌든 이것이 AIDA64 데이터베이스와 NVIDIA 드라이버가 말하는 것입니다) 이를 기반으로 하는 제품은 단 하나(GeForce GTX 1060 및 TITAN X)라는 점을 고려하면 이를 기반으로 한 새로운 솔루션의 출현을 기대하십시오. 이 카드가 기존 카드보다 빠르거나 느려질지 시간이 말해줄 것입니다. 어쨌든 GP102는 "업"(최대 3840개의 스트림 프로세서) 및 "다운"을 모두 확장할 수 있습니다. 물론 동시에 NVIDIA가 필요로 하는 경우에 대비하여 GP102-C의 세 번째 버전이 등장할 가능성을 배제할 수 없습니다.

어떤 식으로든 NVIDIA가 Pascal을 기반으로 하는 그래픽 카드 제품군을 확장할 계획인 것은 분명합니다. 즉각적인 계획에는 분명히 모바일 및 메인스트림 GPU가 포함되어야 하지만 향후 고성능 게임용 PC를 위한 새로운 솔루션을 보게 될 가능성이 매우 높습니다.