e-commerce (Reprodução)
Da Redação
Publicado em 26 de março de 2014 às 13h25.
Saber do que é composta a web brasileira não é uma tarefa fácil, mas uma empresa nacional decidiu tentar descobrir. A BigData Corp. faz pesquisas semanais, analisando dados de milhões de sites. O primeiro resultado dos estudos foi divulgado no mês passado e mostrou que no País predominam páginas ativas: 53,84% dos 4 milhões de sites analisadas eram atualizadas ao menos uma vez por semana.
Já em termos de tipos de sites, blogs dominam com quase 40% de presença na web nacional. Eles vêm seguidos de sites corporativos, que têm quase 20% do espaço, e pelos de e-commerce, com pouco mais de 16%. Essas páginas estão, majoritariamente, hospedadas no exterior (66%), embora domínios .com.br componham mais de 80%. Em redes sociais, a integração com o Facebook é a que predomina, estando presente em quase 50% dos sites bem a frente de Twitter (quase 40%), YouTube (cerca de 35%) e Orkut (10%).
Apesar de terem começado com 4 milhões de endereços, as análises da BigData Corp. já envolvem hoje cerca de 20 milhões páginas. Para explicar melhor o processo por trás desses estudos, INFO entrevistou Thoran Rodrigues, o CEO da companhia.
INFO: O estudo inicial divulgado pela empresa envolveu mais ou menos 4 milhões de sites para coletar dados. De onde surgiu a ideia de fazer essa varredura de endereços e como foi o processo?
Thoran Rodrigues: Nosso estudo, na verdade, teve origem em uma pergunta que um cliente nos fez certa vez: quantos sites de comércio eletrônico existem no Brasil? Logo pensamos que seria algo fácil de responder, e conversamos com quem entende do assunto para tentar descobrir. Mas conforme fomos perguntando, vimos que o pessoal não tinha ideia. Recebemos todo tipo de resposta: de 2 mil a 3 milhões. E então percebemos que essa informação não estava disponível em lugar nenhum no mercado. Resolvemos, portanto, montar algo que pudesse fornecer esse tipo de dado. Seria um processo de crawl, como o Google faz, visitando sites. Mas em vez de tirarmos parte do texto para indexar, fizemos uma classificação dos endereços, como e-commerce, blog, site corporativo. Depois, resolvemos podíamos ir além. Quais os meios de pagamento que o site de e-commerce aceita? Quais os cartões que passam? Que produtos vendem? Quanto eles cobram? A que redes estão integrados? Hoje temos um banco de dados atualizado todo semana, e já visitamos mais de 20 milhões de sites uma vez por semana para o banco de dados com mais de cinco mil atributos diferentes de segmentação.
INFO: Como vocês definiram essa quantidade inicial de sites para analisar?
Thoran Rodrigues: Na verdade, quando começamos, tínhamos 10 mil sites, o que era bem pouco. Para cada endereço que registrávamos, nós pegamos todos os outros para os quais esse site apontava e fomos incluindo na rodada da semana seguinte. E assim a varredura cresceu de forma exponencial. Conforme visitávamos, mais links encontrávamos. Quando chegamos em 4 ou 5 milhões de sites, vimos que a base já dava uma cobertura grande o suficiente dos brasileiros para começar a gerar estudos, relatórios, e a apresentar números mais concretos de mercado.
INFO: Com 20 milhões de sites, esse estudo pode se expandir ainda mais?
Thoran Rodrigues: As possibilidades de pesquisa são praticamente infinitas. Agora, trata-se simplesmente uma questão de perguntas diferentes para gerar novas informações. Por exemplo: um pessoal pediu para nós um estudo sobre o mercado de CAPTCHA. Queriam saber quais sites estavam usando, quais os tipos de endereços que mais utilizam... Queriam entender como era o comportamento dessa tecnologia no mercado brasileiro. Então, ajustamos o processo para pegar esse dado, e em uma semana tínhamos o relatório formatado. Também temos clientes que perguntam sobre mercado de hospedagem e de e-mails. Onde as pessoas têm o e-mail hospedado? Elas trabalham com servidor interno ou externo? O pessoal usa mais servidor Windows ou Linux? Quais as bibliotecas de JavaScript que mais usam? Qual a rede social integrada a mais sites? É um mar sem fim. Qualquer tipo de informação que conseguimos pegar olhando o código-fonte da página, conseguimos capturar e incluir na nossa base de dados para trabalhar depois.
INFO: Quanto tempo leva para visitar todos os sites registrados no banco de dados?
Thoran Rodrigues: Hoje, rodamos tudo dentro da infraestrutura da Amazon, e a empresa tem escalabilidade infinita lançamos e trabalhamos com quantos servidores quisermos. Então montamos um processo que é igualmente escalável. Para esses 20 milhões de sites, disparamos de 2 a 3 mil servidores por semana e, em 48 horas, eles visitam todos os sites e nós os desligamos, acabando com o custo.
INFO: Nessa primeira pesquisa divulgada, quase metade dos sites visitados estava inativa. Páginas do tipo continuam nas análises de vocês?
Thoran Rodrigues: Mantemos esses sites dentro da lista de visitação porque o endereço que está inativo hoje pode voltar à atividade amanhã. O que a gente faz é rastrear essa movimentação ao longo do tempo. Só cortamos a página da lista quando não encontramos referência para ele em lugar nenhum.
INFO: E quanto tempo um site precisa ficar inativo para entrar nessa categoria do estudo de vocês?
Thoran Rodrigues: Para essa classificação, a página precisa ficar parada por um mês seguido, ou quatro varreduras. Aí nós a jogamos dentro dos inativos. Aliás, algo interessante que o estudo não mostrou é o ciclo de vida dos sites que visitamos costuma ser só de dois meses. Você vê uma rotatividade bem alta no mercado.
INFO: Quais os tipos de sites que mais aparecem entre os inativos hoje? E quais duram mais?
Thoran Rodrigues: Os blogs dominam a internet como um todo e entre os inativos também são muitos. Mas também temos muitos sites corporativos e de comércio eletrônicos que tendem a entrar e sair dessa classe. Em termos de tempo de vida, um blog tende a durar um pouco mais do que os outros sites, porque uma pessoa monta um e vai postando todo dia. Depois, vai diminuindo, mas a página ainda leva um pouco mais de tempo para morrer. Já em um site corporativo ou de e-commerce, é dinheiro da empresa que está sendo gasto. Então, assim que veem que não está dando certo, já fecham a página.
INFO: Sites menores, como blogs, que abrem lojinhas usando plugins de WordPress, também entram na categoria de e-commerce de vocês?
Thoran Rodrigues: Nosso modelo de classificação tenta olhar para a categoria dominante. Então, se um blog é predominantemente um blog, onde o dono faz mais postagens do que vende produtos, definimos a categoria como blog. Só conta como e-commerce para nós um site que faz todo o processo de venda pela internet. Por isso, temos até um flag separado na nossa base de dados para as páginas que têm 95% do processo de venda online, mas que no fim de tudo apresenta um botão para você pedir um orçamento ou pede para que você vá até a loja para finalizar a compra.
INFO: Por fim, quais aspectos você achou mais surpreendentes nos resultados do estudo inicial?
Thoran Rodrigues: Acho que temos duas características bem marcantes que eu não tinha ideia que existiam quando iniciamos o trabalho. A primeira é o uso de e-commerce como uma plataforma de empreendedorismo. Quando pensamos em comércio eletrônico hoje, pensamos em lojas gigantes. Mas o grosso desse tipo de site é formado pelos pequenos. É alguém que tem uma lojinha online para vender artesanato, por exemplo. Muitas vezes são as pessoas, e não as empresas, que estão vendendo coisinhas online, e usando o e-commerce como uma maneira de empreender com custo muito menor do que o de abrir uma loja física. O segundo ponto que achamos bastante interessante foi a característica bem social que existe no comércio eletrônico no Brasil. Vemos claramente que as lojas que têm melhor desempenho e que duram mais são as que têm maior engajamento social com os clientes, seja em redes sociais, através de um blog ou postagem de vídeos. Esse engajamento é algo que o consumidor demanda muito. Isso premia o empreendedor quando coloca isso em prática no ambiente online dele.