Wednesday 8 November 2017

Moving average spark


Time Series for Spark (distribuído como o pacote spark-ts) é uma biblioteca Scala / Java / Python para analisar grandes séries de dados em séries temporais. Está hospedado aqui. Envie perguntas e comentários ao grupo do Google. Ou enviá-los diretamente para ltmailto: spark-tsgooglegroups. Confira o repositório de exemplos para um gostinho do que é como usar a biblioteca. Time Series for Spark oferece: Um conjunto de abstrações para manipular dados de séries de tempo, semelhante ao que é fornecido para conjuntos de dados menores em Pandas. Matlab. E Rs zoo e xts pacotes. Modelos, testes e funções que permitem lidar com séries de tempo de uma perspectiva estatística, semelhante ao que é fornecido em StatsModels e uma variedade de pacotes Matlab e R. A biblioteca está voltada para casos de uso em finanças (munging tick data, building risk models), mas pretende ser bastante geral para que outros campos com dados de séries temporais contínuas, como a meteorologia, possam usá-lo. A biblioteca atualmente espera que séries de tempo univariadas individuais podem facilmente caber na memória em cada máquina, mas que as coleções de séries temporais univariadas podem precisar ser distribuídas em muitas máquinas. Enquanto as séries de tempo que violam essa expectativa representam um monte de problemas de programação distribuídos divertidos, eles não tendem a surgir com muita freqüência em finanças, onde uma matriz com um valor para cada minuto de cada dia de negociação por dez anos precisa de menos de um par de milhões de elementos . Dependências A biblioteca fica em algumas outras excelentes bibliotecas Java e Scala. Breeze para álgebra linear tipo NumPy, BLAS. JodaTime para datas e horários. Apache Commons Math para matemática geral e estatística funcionalidade. Apache Spark para computação distribuída com recursos em memória. Funcionalidade Manipulação de séries temporais Alinhamento Retardamento Corte por data-hora Imputação de valor faltante Conversão entre diferentes layouts de dados de séries temporais Series de tempo Matemática e estatísticas Modelos de média móvel ponderada exponencialmente (EWMA) Modelos de média móvel automática auto-regressiva (ARIMA) Modelos heterocedastrados condororregressivos generalizados Missing data imputation Teste aumentado de Dickey-Fuller Teste de Durbin-Watson Teste de Breusch-Godfrey Teste de Breusch-PaganSpark-Timeseries é uma biblioteca de Python e Scala para analisar séries de dados em grande escala. Está hospedado aqui. O Scaladoc está disponível aqui. Python doc está disponível aqui. Um conjunto de abstrações para manipular dados de séries temporais, semelhante ao que é fornecido para conjuntos de dados menores em Pandas. Matlab. E Rs zoo e xts pacotes. Modelos, testes e funções que permitem lidar com séries de tempo de uma perspectiva estatística, semelhante ao que é fornecido em StatsModels e uma variedade de pacotes Matlab e R. A biblioteca está voltada para casos de uso em finanças (munging tick data, building risk models), mas pretende ser bastante geral para que outros campos com dados de séries temporais contínuas, como a meteorologia, possam usá-lo. A biblioteca atualmente espera que séries de tempo univariadas individuais podem facilmente caber na memória em cada máquina, mas que as coleções de séries temporais univariadas podem precisar ser distribuídas em muitas máquinas. Enquanto as séries de tempo que violam essa expectativa representam um monte de problemas de programação distribuídos divertidos, eles não tendem a surgir com muita freqüência em finanças, onde uma matriz com um valor para cada minuto de cada dia de negociação por dez anos precisa de menos de um par de milhões de elementos . Dependências A biblioteca fica em algumas outras excelentes bibliotecas Java e Scala. Breeze para álgebra linear tipo NumPy, BLAS. JodaTime para datas e horários. Apache Commons Math para matemática geral e estatística funcionalidade. Apache Spark para computação distribuída com recursos em memória. Funcionalidade Manipulação de séries temporais Alinhamento Retardamento Corte por data-hora Imputação de valor faltante Conversão entre diferentes layouts de dados de séries temporais Series de tempo Matemática e estatísticas Modelos de média móvel ponderada exponencialmente (EWMA) Modelos de média móvel automática auto-regressiva (ARIMA) Modelos heterocedastrados condororregressivos generalizados Faltando a imputação de dados Teste aumentado de Dickey-Fuller Teste de Durbin-Watson Teste de Breusch-Godfrey Teste de Breusch-Pagan Tenho dados de streaming em tempo real entrando em centelha e eu gostaria de fazer uma previsão de média móvel sobre os dados da série de tempo. Existe alguma maneira de implementar esta faísca usando em Java Ive já referido. Gist. github / samklr / 27411098f04fc46dcd05 / revisões e Apache Spark Moving Average, mas ambos os códigos são escritos em Scala. Desde Im não familiarizado com Scala, Im não é capaz de julgar se eu achar útil ou mesmo converter o código para Java. Existe alguma implementação direta de previsão em Spark Java pediu Aug 12 15 at 12:44

No comments:

Post a Comment