Neste mês do maio chegou ao mercado a nova família de placas de vídeo da AMD-ATI, a série Radeon HD 2000. A primeira placa a desembarcar é a mais sofisticada da família, o modelo topo de linha, o modelo HD 2900. Este artigo será dividido em duas partes. Nesta primeira falarei sobre esta nova geração […]

AMD ATI Radeon HD 2900 ? topo de linha
Neste mês do maio chegou ao mercado a nova família de placas de vídeo da
AMD-ATI, a série Radeon HD 2000. A primeira placa a desembarcar é a
mais sofisticada da família, o modelo topo de linha, o modelo HD 2900.
Este artigo será dividido em duas partes. Nesta primeira falarei sobre
esta nova geração de placas de vídeo e aprofundarei um pouco mais a
tecnologia por trás delas. Em uma segunda parte trarei o resultado de
alguns benchmarks e testes (objetivos e subjetivos), os quais eu estou
conduzindo no presente momento.
Foi colocada hoje aqui no ForumPCs uma notícia sobre o lançamento oficial da família HD
2000. Minha coluna é mais “iterpretativa” do que a notícia em si. É a
minha visão dos fatos e de informações sobre os bastidores da
tecnologia.

A tecnologia da família HD 2000
Para o desktop são três placas : 2400 (value), 2600 (mainstream) e 2900
(Enthusiast). Todas as três compartilham a mesma retaguarda técnica
(quase isso ? mais detalhes adiante) e se diferenciam pelas capacidades
de seus “elementos pensantes”. Esta é a segunda geração de produtos da
AMD-ATI que utiliza o conceito da arquitetura unificada. Esta
tecnologia, ao contrário das anteriores não se baseia em elementos
diferenciados no processador gráfico para realizar tarefas específicas.
Em gerações anteriores a GPU (Graphics Processing Unit) dedicava uma
área para Vertex Shader e Pixel Shaders, ambos processamentos vitais
para o desenho, a renderização de elementos visuais em tempo real. O
problema é que ao se dedicar um espaço no silício para cada tipo de
processamento nunca se obtém o uso ótimo do recurso pois estes ocorrem
de forma absolutamente distintas para cada tipo de programa, jogo,
exibição de DVD, HD DVD, etc.
A solução criada na geração anterior mas levada ao extremo na série HD
2000 é o Unified Shader Architeture. Evoluindo uma tecnologia criada
para o processador gráfico do XBOX 360, até 320 distintas e
independentes “stream processing units” realizam quaisquer das tarefas
necessárias. Estas “stream processing units” podem ser entendidas como
processadores trabalhando em paralelo, superescalares, que executam até 5
instruções por ciclo. Não são exatamente como os processadores de uso
geral (CPUs) que realizam muitos tipos de tarefa simultaneamente. Podem
ser entendidos como até 320 unidades de processamento numérico (ponto
flutuante) e que por um mecanismo muito eficaz divide as tarefas da
placa gráfica em inúmeras partes, fazendo um uso otimizado dos recursos
para entregar resultados mais complexos e imagens mais realistas.
Um dos conceitos que mais me impressionou nesta arquitetura é o
“latency-hidden”. Se um pixel (ou vértice) deve ser processado por uma
dessas unidades, mas a informação não se encontra imediatamente
disponível (acesso à memória), esta operação é colocada de lado e outra
operação cujo dado está disponível é feita em seu lugar. Como tudo isso
ocorre muito rápido (muito mesmo), processar os pixels fora de ordem não
afeta a percepção visual, nem o resultado final visto pelo usuário. O
resultado disso é latência virtualmente zero no processamento. Isso
aliado à freqüência de operação de até 800 Mhz ajuda a explica o imenso
poder de processamento da nova família Radeon HD 2000.
A placa de entrada, a 2400 tem 40 “stream processing units” enquanto a
2600 tem 120 e a placa topo de linha, a 2900 tem 320. Isso se reflete
também nas características de consumo das placas. Isso é importante,
pois atualmente os “gamers” têm necessitado gabinetes e fontes especiais
para usufruir das placas “high-end”. Em regime típico de operação a
2400 consome cerca de 25W, enquanto a 2600 consome 45W watts e a 2900
215W. O modelo 2900 é o primeiro a chegar ao mercado e como seu
desenvolvimento precedeu os outros membros da família, a GPU é feita em
80nm enquanto as outras duas placas serão entregues (a partir de junho)
usando o GPUs de 65nm. O caminho natural é a 2900 evoluir também para
65nm em alguns meses.

AMD ATI Radeon HD 2900 ? topo de linha

AMD ATI Radeon HD 2600 (ilustrando adaptador DVI-HDMI)
Toda a família é “crossfire ready”, ou seja permite que sejam agregadas
duas (ou mais placas no futuro) para obter um poder de processamento
maior. Esta técnica de agregar placas tem fãs e ardorosos críticos. Pode
ser que os 320 “stream processors” de hoje, disponíveis em uma só
placa, sejam 640 em alguns meses. Assim que quem gastou HOJE em duas
placas topo de linha teria o mesmo resultado algum tempo à frente com
uma única placa. Mas quem DE FATO PRECISA de todo este poder de
processamento HOJE tem o recurso a sua disposição imediatamente.
Engana-se quem acha que configurações “monstruosas” com placas duais
sirvam somente para a jogos de ação, realistas e com visual
impressionante (mais detalhes adiante). A escalabilidade da solução
crossfire é variável. Há operações que as duas placas juntas realizam
65% melhor, há operações que realizam 97% melhor. Na média a AMD fala em
ganhos de 90% a 95%. Interessante são as diferentes configurações
possíveis para o crossfire, como frame-a frame (cada placa processa um
frame de maneira intercalada), super-tile e Scissor (divisões
específicas das regiões da tela) ou Super AA que privilegia o tratamento
de suavização (Anti-Aliasing).

Além da rapidez o que mais importa?
Ter uma GPU fantástica é vital. Espera-se e deseja-se isso. Mas há
outros atributos além da rapidez. Alguns dos atributos já existem em
várias placas de vídeo, da ATI e de outros fabricantes. Por exemplo, os
filtros Anti-Aliasing. Um termo
estranho para quem não foi apresentado ao conceito. Suavização. Esta á a
palavra chave. A nova família contém 8 filtros padrão e mais 24
customizados, que significa que os desenvolvedores de conteúdo (jogos e
aplicativos) podem adaptar o tratamento de suavização às suas
necessidades. Para ilustrar, vejam a figura abaixo, com e sem filtro AA:

Velocidade, suavização mas a que custo? Que consumo de energia? Nesta
geração o Power Play 7 entrega
performance sob demanda. Imagine os 320 stream processors da HD 2900. Se
a operação é de edição de textos, não demanda processamento intenso de
gráficos, as unidades vão sendo desligadas para poupar energia. Isso é
mais importante ainda para as versões MOBILE da nova família, mas mesmo
as placas para Desktop realizam esta grata operação de economizar
energia e religam seus “motores” imediatamente assim que o aplicativo
demandar esta potência. Segundo a AMD por conta disso a performance por
watt da HD 2600 por exemplo é 60% melhor que a da X1600 (geração
anterior).
Novos formatos de vídeo ? como
resolver?
Os novos formatos de vídeo digital estão aí, à nossa porta. Sejam eles
Blu-Ray ou HD DVD. Enquanto um DVD comum demanda uma banda de 9 a 10
Mbps, HD DVD demanda 30 Mbps e Blu-ray 40 Mbps. Processar e decodificar
esta incrível quantidade de informações é tarefa complexa. As placas
2400 e 2600 dispõem de acelerador no hardware para realizar a tarefa de
descompactar o vídeo nestes formatos (como H.264/AVC MPEG-4), aliviando a
CPU do PC desta tarefa. Observei que a CPU do PC mal chega a 7% de
utilização com este auxílio do hardware. Por sua vez a placa 2900, por
conta de suas 320 stream units, faz via software (não tem auxílio por
hardware), mas também com muito baixo uso da CPU do PC. O driver é
inteligente para saber o tipo da placa de vídeo e decidir como
decodificar o HD DVD ou Blu-ray. Esta arquitetura é resumidamente a
essência do UVD ? Unified Video Decoder.
Mas mais do que isso tudo torna VIÁVEL o PC ser usado como meio de
apresentação destes novos formatos de vídeo sem que a CPU do mesmo fique
totalmente “afogada”.
Estes formatos de vídeo demandam interfaces mais “espertas”. Por isso as
grandes telas de LCD ou Plasma usam esta interface que unifica sinal de
vídeo e som. Na família Radeon HD 2000 o conector (com adaptador
DVI-HDMI) transporta também sinal do som em alta definição. Não há um
processador de som na placa de vídeo, isso tem que ficar claro. O que há
é a transposição do sinal de áudio do circuito de som do PC pelo canal
HDMI, sem que conectores internos ligando fios às placas sejam
necessários, muito menos sem precisar usar a saída analógica da placa de
som para ligar à tela de alta definição. Há suporte no Windows XP e no
VISTA.
CPU OU GPU???
Quando interligadas em crossfire, duas placas HD 2900 entregam um poder
de processamento inacreditável. São cerca de 935 Gigaflops. Isso é quase
1 TERAFLOP de capacidade de processamento!! Haja pixel para embelezar e
desenhar na tela com tanto “poder de fogo”!! Algumas estatísticas
reforçam essa incrível marca. Mais de 1 GigaFlop por mm2,
menos de US$ 1
por Gigaflop e mais de 1 GigaFlop por watt. Mas saibam que as GPUs já
tem sido usadas para fins mais nobres que apenas (??!!!) jogos. Já
existem alguns compiladores desenvolvidos inicialmente nos meios
acadêmicos como HAVOK FX ou PEAKSTREAM ou RAPIDMIND, auxiliados por uma
biblioteca da AMD-ATI, que conseguem particionar o processamento de
tarefas complexas, notadamente aquelas que demandam grande capacidade de
processamento de ponto flutuante.
Uma instituição independente chamada General Purpose Computation on GPU ?
http://www.gpgpu.org, que independente é de qualquer fabricante de chips gráficos, estimula e
divulga as informações sobre esta nova e fascinante área de aplicações
das GPUs. São muitas aplicações, desde aquisição de dados médicos,
visualização em tempo real de imagens do corpo humano, Dinâmica
Molecular (protein folding), modelos financeiros, Ray Tracing,
reconhecimento de fala e de imagens por redes neurais, databases…
Falando em Protein Folding, como se sabe, aqui no FORUMPCs existe um
grupo de usuários que auxiliam os pesquisadores na tarefa de destrinchar
a complicada química das proteínas. É o projeto FOLDING@HOME. Cada PC em regime cooperativo executa
um pedaço do processamento. São MILHÕES de PCs no mundo que realizam
estas tarefas em seu tempo livre. Mas PASMEM!!! Enquanto milhões de PCs
comuns são responsáveis por 40% do poder total de processamento desta
rede, computadores que usam a versão GPU do Folding at Home, com apenas
975 máquinas conseguem realizar quase 20% da tarefa. A diferença é
descomunal. Isso abre uma possibilidade imensa para o uso deste tipo de
recurso como instrumento computacional para o projeto da composição de
proteínas e outros usos numéricos avançados.
Who knows?
Isso pode nos ajudar a entender um pouco da estratégia da AMD ao
adquirir a ATI no ano passado. Análises à parte, o Paulo Couto fez um
belo exercício com sua coluna “Se a AMD sumir?” há alguns dias, eu fico fascinado
com a idéia do falado processador “FUSION”,
que está em desenvolvimento pela ATI-AMD para integrar em uma só parte
de silício os dois tipo de processadores, CPUs e GPUs. Tive a
oportunidade de perguntar para um dos executivos da AMD-ATI se na sua
visão, com o andar do desenvolvimento das duas tecnologias, o que ele
acha mais provável, a CPU virar GPU ou a GPU virar CPU? A resposta foi
um solene “Who knows?”, ou seja,
quem sabe… O fato é que o projeto é ambicioso e ousado, portanto um
imenso desafio. Quem viver verá!!
Na próxima coluna que trarei sobre este assunto falarei mais sobre as
especificidades da implementação do Direct X 10 na família Radeon HD
2000, tecnologias para implementar “Imersive Game Experience” e um
primeiro Benchmark feito por mim da placa Radeon HD 2900.