Quants gostam de dados, da mesma maneira que eu gosto de hambúrgueres. Quants gostam de consumir dados para encontrar maneiras de prever o mercado. O conjunto de dados mais importante é geralmente aquele que apresenta dados de mercado. No entanto, existem todos os tipos de dados interessantes que podem ser usados ​​para ajudar a prever os preços de mercado. Nos últimos anos, a área de dados alternativos explodiu. Existem muitos conjuntos de dados disponíveis a partir de fornecedores de dados alternativos. Obviamente, um Quant quer uma base de dados que possa trazer dinheiro! Mas antes desse estágio, a questão é, se você é um Quant, quais conjuntos de dados valem a pena serem investigados na busca por alpha?

Precisamos de uma maneira de reduzir essa enorme lista de dados alternativos antes de chegarmos perto de um script Python! Simplesmente não há tempo suficiente para investigar minuciosamente cada conjunto de dados para encontrar alpha (podemos fazer testes bastante padronizados, como encontrar a correlação com a série de preços da ação etc., mas eles não necessariamente nos dirão se existe uma regra de negociação lucrativa específica que podemos aplicar). Para fornecedores de dados alternativos, o que eles precisam fazer para tornar seus dados utilizáveis ​​pelos Quants? Por isso, há muitas perguntas que precisamos fazer sobre um conjunto de dados, queremos inclusive investigar se ele consegue fornecer informações úteis para previsão dos mercados. A seguir, fornecemos uma lista de perguntas que um Quant pode querer responder, na busca por alpha, sobre um conjunto de dados.

Dados históricos de um conjunto de dados

Um dos pontos mais importantes é o tamanho do conjunto de dados. Se quisermos que nossos dados prevejam os preços diariamente, com apenas um mês de dados disponíveis, isso não será realmente útil. Um mês simplesmente não é suficiente para avaliar a robustez desse conjunto: idealmente, gostaríamos de vários anos de dados para fazer um backtest histórico. Há um equilíbrio, no entanto, porque, se o conjunto de dados se tornar valioso, será que realmente queremos esperar 10 anos até que haja dados históricos suficientes para usá-lo? Isso é complicado!


Timeliness
e point-in-time

Quando os dados estarão disponíveis? Se demorar muitas semanas, com um atraso muito grande, será mais difícil negociar com bases neles. Além disso, o conjunto de dados apresenta o registro de data e hora corretamente? Precisamos saber o horário em que o dado é liberado para os usuários, não apenas quando ele é coletado. Isso é crucial para fins de trading. Além disso, os dados históricos não devem ser continuamente alterados no futuro, caso contrário, torna-se difícil ter alguma credibilidade no backtest. Para declarar o óbvio: não podemos negociar com dados que são liberados no futuro (ou alterados no futuro).


Quantas pessoas usam isso?

Se a capacidade das estratégias está baseada em um conjunto de dados, podermos concluir que é vantajoso que menos pessoas tenham acesso a ele (se todos estão procurando por uma porta muito pequena, os resultados não são bons). Alguns fornecedores de dados limitarão, portanto, o número de clientes que podem se inscrever em conjuntos de dados específicos, de tal maneira a não acontecer uma perda de alpha. Eu diria que ter poucas pessoas usando um conjunto de dados não será tão importante se houver muitas estratégias que podem consumir esses mesmos dados. Afinal, existem estratégias que usam conjuntos de dados comuns e ainda são lucrativas. Há também uma questão de saber se um conjunto de dados deve ser totalmente exclusivo? Ao longo do tempo, o que antes era um conjunto de dados alternativo muito incomum, muitas vezes pode se tornar convencional. Devemos lembrar que não é apenas porque um conjunto de dados é "incomum" que ele apresentará algum alpha (mesmo que pareça "legal")!


Qual é o valor específico entregue pelo fornecedor de dados?

Existem várias maneiras pelas quais um fornecedor de dados pode entregar valor para um conjunto de dados específico. A primeira é através dos dados brutos em si. Alguns dados podem ser relativamente comoditizados, portanto, podemos obtê-los de vários fornecedores (o que obviamente reduz o custo). Por outro lado, em alguns casos pode haver muito poucos fornecedores que ofereçam esses dados, nesse caso mesmo sem qualquer estruturação adicional, os dados brutos podem ser valiosos por si só. A segunda maneira que um fornecedor de dados pode agregar valor é através da limpeza e estruturação de um conjunto de dados. Nenhum Quant gosta de perder tempo limpando os dados. Se um fornecedor puder fazer muito desse trabalho, os Quants ficarão agradecidos. Os fornecedores de dados também podem estruturar os dados em formulários mais acessíveis, o que facilita o processamento. Você poderia argumentar que alguns grandes fundos Quant talvez prefiram fazer sua própria estruturação, mas isso obviamente requer uma quantidade decente de recursos.


Como os dados foram coletados? Existe anonimidade?

Este é um ponto importante: dadas as questões de privacidade de dados, os Quants não devem receber dados que, na sua forma atual, estejam protegidos. Para um fundo, eles querem encontrar sinais vindos dos dados. Portanto, dados que foram tornados anônimos são bons. No entanto, o fornecedor de dados realmente faz um bom trabalho para garantir que os dados sejam anonimizados corretamente antes de fornecê-los a quem utiliza?


O fornecedor de dados nos forneceu pistas sobre como usar esses dados com os de mercado?

Alguns Quants podem discordar disso. No entanto, se um fornecedor de dados tiver feito uma pesquisa para mostrar como os dados podem ser usados ​​para o trading, ele fornecerá pelo menos algumas informações que podemos usar como iniciais. Não precisamos necessariamente fazer exatamente o que eles sugerem, mas eu diria que isso aumenta minha confiança de que há algo útil naquele conjunto. (e, obviamente, se você é fornecedor de dados, você pode solicitar à Cuemacro que faça um trabalho de pesquisa no seu conjunto de dados, para mostrar como ele pode ser usado para o trading).


Qual é o preço do conjunto de dados alternativo?

Ok, este é um ponto óbvio, mas o preço de um conjunto de dados alternativo está relacionado com o valor (e também o quão difundido ele é, até certo ponto). Se for um conjunto de dados muito caro, ele precisará fornecer * muito * de benefício alfa adicional para justificar uma compra. Todo mundo acha que eles têm um conjunto de dados muito valioso, obviamente - nem todos os quants concordariam com essa noção, e isso requer testes extensivos para ver se o valor é justificado.


Apenas agora, podemos testá-lo!

Só depois de respondermos às várias perguntas acima (e muita outras) é que poderíamos realmente aplicar o backtest em um conjunto de dados, para ver se isso pode nos ajudar a prever os mercados. Em particular, nossa tarefa é facilitada se pudermos ter ideias intuitivas para verificar isso. Isso pode ser mais fácil com alguns conjuntos de dados do que outros. Ter uma justificativa nos ajuda a reduzir muito a chance de datamining. Com alguns conjuntos de dados, eles podem ser simplesmente muito grandes e complexos, para que possamos elaborar uma lógica específica e, potencialmente, poderemos usar o aprendizado de máquina para inferir relacionamentos. A desvantagem disso é que o nosso sinal pode se tornar um pouco de uma caixa preta. Ou podemos tentar fazer uma mistura, usando o aprendizado de máquina para estruturar os dados em algo mais simples e, em seguida, usando técnicas mais tradicionais. Esta é a abordagem que pode ser usada com algo como dados de notícias.

Tudo o que resta para dizer é boa sorte em sua busca por alpha em conjuntos de dados alternativos (e tenha um bom hambúrguer enquanto você está pesquisando!)

 

Este artigo teve tradução livre por parte do stratsphera.  A reprodução deste conteúdo foi devidamente autorizada pelo seu autor e o artigo original, em inglês, pode ser encontrado aqui.
BrazilUSA