Para garantir disponibilidade de serviços de TI, equipe da Carbocloro investiu em melhoria do desempenho por meio de medições constantes
Um dos reflexos da acirrada competitividade no mundo globalizado é o crescente uso de recursos e serviços computacionais, que, cada vez mais, são consumidos por meio de diferentes dispositivos. Isto amplia muito os ativos e serviços necessários para manter este complexo ambiente operacional com o menor tempo de downtime.
Parafraseando Kaplan e Norton (1997), criadores do BSC, que afirmam que o que não pode ser medido, não pode ser gerenciado, a Carbocloro entendeu que conseguiria melhorar o desempenho e aumentar a disponibilidade de seus recursos computacionais, se conseguisse medir a sua eficiência. Para nos anteciparmos à solução de problemas rotineiros (como indisponibilidade de comunicação com a internet, roteadores, links e serviços de rede), em meados de 2000, adquirimos um produto para monitorar os ativos básicos e, assim, controlar unicamente o status de “up” e “down”, nos avisando imediatamente a ocorrência de problemas.
Como a TI da Carbocloro sempre esteve alinhada ao conceito de qualidade e excelência operacional que a empresa pratica, em 2003, decidimos ampliar o monitoramento para fornecer aos usuários um indicador de disponibilidade dos serviços de TI. Levantamos tudo que eram utilizado e solicitamos aos executivos que o identificasse e classificasse o grau de importância para o negócio.
Após a tabulação, definimos por meio de média ponderada todos os serviços para que pudéssemos medir sua disponibilidade e atuar na solução de problemas de acordo com este grau de importância. Foram detectados 18 serviços, mapeados por meio de 196 métricas, que eram monitoradas individualmente. Para melhor entendimento, um dos serviços, que denominamos como Outlook (Exchange), era constituído por aproximadamente 16 métricas monitoradas.
Nesse período, eram expurgados os tempos de backup e downtime para intervenções técnicas, desde que comunicados com 24 horas de antecedência, porém, por sugestão de alguns executivos, a partir de 2005, não mais retirávamos este tempo, incluindo-os como indisponibilidade. Este foi mais um desafio para alcançar a meta que estipulamos empiricamente: ter a disponibilidade de todos os serviços de TI igual ou superior a 98%. Todas as informações coletadas 24 horas, no intervalo médio de dez minutos eram transformadas no índice de disponibilidade de TI e comunicada de forma resumida mensalmente para os usuários pelo portal. Assim, demonstramos transparência e comprometimento na busca de melhores resultados.
Com a ajuda da metodologia 6Sigma (ferramenta muito disseminada em toda a empresa), estudamos o processo de medição dos indicadores de TI com objetivo de buscar a visão dos indicadores relacionada à cadeia de valor da empresa. Desta forma, conseguimos definir para cada processo os serviços e os horários importantes e, assim, ter um indicador específico daquele processo.
Isso foi de extrema importância. Conseguimos, por exemplo, medir a disponibilidade da internet com diferentes visões para a área comercial e para a produção, pois a necessidade deste serviço é diferente, fazendo com que o indicador reflita à realidade do processo. Outra modificação foi ampliar o nível de detalhamento, incluindo o monitoramento de todos os pontos que possibilitam a sua operacionalidade. Se pensarmos no processo de disponibilidade do serviço de correio eletrônico para os colaboradores, temos de lembrar que, para que eles possam utilizá-lo em sua plenitude, precisamos medir desde a conexão no switch de borda onde está conectada a estação até nossa comunicação com a internet.
Para cada processo da cadeia de valor, teremos a média de todos os serviços importantes medidos. A média dos indicadores de todos os processos será a média de disponibilidade da empresa. Mantemos ainda um sistema de semáforos para verificar diariamente se algum serviço está abaixo de 98%. Atualmente, temos um total de 196 visões dos serviços em diferentes processos e aproximadamente 2,8 mil métricas, que compõem todos estes cenários e, igualmente ao modelo anterior, ficam disponíveis os valores acumulados mensalmente em nosso portal.
Devemos sempre buscar melhorias na disponibilidade do ambiente computacional vital para o negócio da Carbocloro, criando rotinas e procedimentos que otimizem a detecção e resolução dos problemas. Um ambiente 100% virtualizado permite uma alta disponibilidade dos servidores e a integração com nosso sistema de help desk propicia a abertura automática de tickets para os analistas responsáveis. Isto possibilita a solução rápida de problemas e dá a oportunidade de dedicarmos mais tempo para novos desafios em vez de ficar apagando incêndios.
*Paulo Roberto Domingues Caetano é graduado em tecnologia de processamento de dados pela UNESP Bauru e é responsável pelo suporte técnico e pela infraestrutura de TI da Carbocloro, empresa em que atua desde 1985. Norivaldo Ribeiro Lourenço é graduado em matemática com ênfase em processamento de dados e pós-graduado em ciência da computação pela Universidade Santa Cecília em Santos. Trabalha na Carbocloro desde 1989; foi analista de centro de informações, analista-sênior de sistemas e, atualmente, exerce a função de analista-sênior na área de suporte técnico e infraestrutura. Eles escreveram com exclusividade para InformationWeek Brasil.