Desempenho da faísca para Scala vs Python
Prefiro Python a Scala. Mas, como Spark é nativamente escrito em Scala, eu estava esperando meu código para correr mais ... boa notícia para mim é que me deu uma boa motivação para fica com o Python. A má notícia é que não percebi bem porquê?
Como imprimir o conteúdo do RDD?
Estou a tentar imprimir o conteúdo de uma colecção na consola de faíscas.
tenho um tipo:
linesWithSessionId: org.apa ... [ 4] no mapa a :19
Como posso escrever o RDD para consolar ou gravá-lo em disco para que eu possa ver o seu conteúdo?
Como montar uma faísca nas janelas?
Estou a tentar configurar o Apache Spark nas janelas.
Depois de procurar um pouco, entendo que o modo autônomo é o que ... página de download spark.
Não tenho referências na web a isto. Um guia passo a passo para isso é altamente apreciado.
Concatenate columns in Apache Spark DataFrame
Como combinamos duas colunas num DataFrame Apache?
Existe alguma função em Spark SQL que possamos usar?
Como verificar a versão Spark [fechado]
Quero ver a versão spark em cdh 5.7.0. Procurei na internet, mas não consegui entender. Ajudar.
Obrigado.
Como escrever testes de unidade em Spark 2.0+?
Tenho tentado encontrar uma forma razoável de testar a estrutura de testes JUnit. Embora pareça haver bons exemplos para ... o que está a ser carregado exista ou não; numa SparkSession devidamente configurada, será lançado um erro mais sensato .
O que é RDD em faísca
A definição diz:
A RDD é uma colecção distribuída imutável de objectos
Não percebo bem o que significa. É como o ... or
Estou realmente confuso por entender o RDD em geral e em relação à faísca e à hadoop.
Alguém me ajude, por favor.
O que é o Spark Job?
Já fiz a instalação da faísca e executei algumas testas a definir os nós mestre e trabalhador. Dito isto, eu tenho uma c ... aísca porque eu já tentei. Embora as perguntas pareçam ingénuas, mas ainda assim Preciso de mais clareza na compreensão.
O que significa "local [*]" em faísca?
Encontrei um código para começar a disparar localmente com:
val conf = new SparkConf().setAppName("test").setMaster("local[*]")
val ctx = new SparkContext(conf)
O que significa o [*]?
SparkSQL vs colmeia em Spark-Difference e prós e contras?
o SparkSQL CLI utiliza internamente o HiveQL e, no caso do Hive on spark(Colmeia-7292) , o hive usa o spark como motor d ... lançar um pouco mais de luz, como exatamente estes dois cenários são diferentes e prós e contras de ambas as abordagens?
Gerente Independente Vs Fios Vs. Mesos
em 3 nós Spark/Hadoop cluster que scheduler(Gestor) irá funcionar de forma eficiente?
Atualmente Eu estou usando Gerenc ... á correndo 10X mais lento do que Gerente autônomo.
Posso ajudar?
Detalhes Do Agregado:
Faísca 1.2.1 e
Hadoop 2.7.1
Como salvar um DataFrame spark como csv em disco?
por exemplo, o resultado disto:
df.filter("project = 'en'").select("title","count").groupBy("title").sum()
devolveria uma matriz.
Como gravar um ficheiro csv em disco ?
O Apache spark pode fugir sem o hadoop?
existem dependências entre Faísca e Hadoop?
Se não, vou sentir falta de alguma coisa quando correr. faísca Sem Hadoop?
Como obter uma amostra com um tamanho exato de amostra em Spark RDD?
porque é que a função rdd.sample() na Spark RDD devolve um número diferente de elementos, mesmo que o parâmetro da frac ... s. Alguém me pode dizer Como posso obter uma amostra com o tamanho da amostra exactamente igual a 1000? Muito obrigado.
Onde você precisa usar lit () em Pyspark SQL?
estou a tentar perceber onde é que precisas de usar um valor lit, que é definido como a literal column na documentação. ... ste um lugar onde eu possa aprender melhor as regras duras e rápidas de quando usar lit e possivelmente col como então?
Valor da pasta CONF Hadoop do agregado
configurei um aglomerado(fio) usando Ambari com 3 VMs como hospedeiros.
Onde posso encontrar o valor do HADOOP_ CONF_D ... also be `yarn-client` for client mode
--executor-memory 20G \
--num-executors 50 \
/path/to/examples.jar \
1000
Conteúdo de saída do DStream em Scala Apache Spark
abaixo do Código Spark não parece efectuar qualquer operação num ficheiro example.txt
val conf = new org.apache.spark. ... ?
actualização 2:
Talvez isto esteja relacionado com o facto de eu estar a correr este código no ambiente do Windows?
Como configurar o Hive para usar o Spark?
Tenho um problema em usar a colmeia com faísca. Instalei um único nó HDP 2.1 (Hadoop 2.4) via Ambari no meu CentOS 6.5. ... meia use faísca em vez de MapReduce? Há outras formas de o mudar? (Eu já tentei mudá-lo via ambari e no hive-site.xml)
Como posso usar a base de testes de faísca com o Maven?
Gostava de descobrir como testar o mesmo código de ignição. Pesquisei no Google e encontrei a base de faísca. Bem, agora ... s parece que não foi executada. Porquê? Como eu disse, é apenas o mínimo exmaple e não depende do meu principal codigo.
Como esvaziar o lixo no hadoop quando a quota de espaços de nomes for excedida?
Quero começar um trabalho de streaming hadoop, mas não se queixa.:
15/05/19 23:17:34 ERROR streaming.StreamJob: Error La ... fault: Created trash checkpoint: /user/myname/.Trash/150519231233
Mas continuo a ter o erro original. O que devo fazer?
- 1
- 2