Como montar uma faísca nas janelas?

Estou a tentar configurar o Apache Spark nas janelas.

Depois de procurar um pouco, entendo que o modo autônomo é o que eu quero. Quais os binários que eu faço download para executar Apache spark em janelas? Vejo distribuições com hadoop e cdh na página de download spark.

Não tenho referências na web a isto. Um guia passo a passo para isso é altamente apreciado.

Author: Mukesh Ram, 2014-08-25

10 answers

Encontrei a solução mais fácil no Windows é construir a partir do Código.

Podes basicamente seguir este guia: http://spark.apache.org/docs/latest/building-spark.html

Transferir e instalar o Maven, e ajustar MAVEN_OPTS ao valor indicado no Guia.

Mas se está apenas a brincar com o Spark, e não precisa dele para correr no Windows por qualquer outra razão que a sua própria máquina esteja a rodar o Windows, sugiro fortemente que instale o Spark num linux. maquina. A maneira mais simples de começar provavelmente é baixar as imagens prontas feitas por Cloudera ou Hortonworks, e ou usar a versão empacotada de Spark, ou instalar o seu próprio a partir da fonte ou os binários compilados que você pode obter a partir do site spark.
 30
Author: jkgeyti, 2015-03-26 18:57:23

Passos para instalar faísca no modo local:

  1. Instale Java 7 ou mais tarde. Para testar a instalação do java está completa, open command prompt type java e carregue em enter. Se receber uma mensagem 'Java' is not recognized as an internal or external command., terá de configurar as suas variáveis de ambiente, JAVA_HOME e PATH para apontar o caminho do jdk.

  2. Transferir e instalar o Scala .

    Definir SCALA_HOME em Control Panel\System and Security\System Ir para "configuração do sistema Adv" e adicionar %SCALA_HOME%\bin na variável PATH no ambiente variavel.

  3. Instale o Python 2. 6 ou mais tarde a partir de Python Download link .

  4. telecarregamento SBT . Instale-o e defina SBT_HOME como uma variável de ambiente com o valor <<SBT PATH>>.
  5. Download winutils.exe de HortonWorks repo ou git repo . Uma vez que não temos uma instalação local do Hadoop no Windows, temos de fazer o download winutils.exe e colocá-la num directório bin sob um directório pessoal criado Hadoop. Definir HADOOP_HOME = <<Hadoop home directory>> no ambiente
 127
Author: Ani Menon, 2016-08-07 14:48:05

Podes baixar a faísca daqui:

Http://spark.apache.org/downloads.html

Eu recomendo esta versão: Hadoop 2 (HDP2, CDH5)

Desde a versão 1.0.0 existem .scripts cmd para executar faíscas no windows.

Desempacote com 7zip ou semelhante.

Para iniciar pode executar /bin/spark-shell.cmd -- master local[2]

Para configurar a sua instância, poderá seguir esta ligação: http://spark.apache.org/docs/latest/

 20
Author: ajnavarro, 2014-08-26 07:24:26

Pode usar as seguintes formas de configurar a faísca:

  • Edifício A partir da fonte
  • a utilizar a versão pré-construída

Embora haja várias maneiras de Construir faísca a partir da fonte.
Primeiro tentei construir uma fonte de faísca com o SBT, mas isso requer o hadoop. Para evitar esses problemas, usei o lançamento pré-construído.

Em vez do Código, baixei o lançamento do prebuilt para o hadoop 2.X version and ran it. Para isso, você precisa instalar Scala como pré-requisito.

Reuni todos os passos aqui :
Como executar a faísca Apache em Windows7 no modo standalone

Espero que te ajude..!!!
 17
Author: Nishu Tayal, 2015-04-16 17:40:04
A tentar trabalhar com o spark-2.x, construir código fonte de faísca não funcionou comigo.
  1. Por isso, embora não vá usar o Hadoop, descarreguei a faísca pré-construída com o hadoop emboded.: spark-2.0.0-bin-hadoop2.7.tar.gz

  2. Ponto SPARK_HOME na pasta extraída, em seguida, adicionar a PATH: ;%SPARK_HOME%\bin;

  3. Obtenha o executável winutils do repositório Hortonworks, ou da plataforma Amazon AWS winutils .

  4. Criar um pasta onde coloca os winutils executáveis.exe. Por exemplo, C:\SparkDev\x64. Adicione a variável de ambiente %HADOOP_HOME% que aponta para esta pasta e depois adicione %HADOOP_HOME%\bin à localização.

  5. Usando a linha de comandos, crie a pasta:

    mkdir C:\tmp\hive
    
  6. Usando o executável que transferiu, adicione permissões completas à pasta de ficheiros que criou, mas usando o formalismo unixiano:

    %HADOOP_HOME%\bin\winutils.exe chmod 777 /tmp/hive
    
  7. Escreva o seguinte comando linha:

    %SPARK_HOME%\bin\spark-shell
    

A entrada da linha de comandos Scala deve ser mostrada automaticamente.

Observação: Você não precisa configurar o Scala separadamente. Também está incorporada.

 6
Author: Farah, 2018-03-14 17:13:28

Aqui estão as correcções para o fazer correr no Windows sem reconstruir tudo - como se não tivesse uma versão recente do MS-VS. (irá precisar de um compilador Win32 C++, mas poderá instalar o MS VS Community Edition GRATUITAMENTE.)

Eu tentei isso com Spark 1.2.2 e mahout 0.10.2, bem como com as últimas versões em novembro de 2015. Há uma série de problemas, incluindo o fato de que o código Scala tenta executar um script bash (mahout/bin/mahout) que não funciona, é claro, os scripts do sbin não foram portados para o windows, e os winutils estão faltando se o hadoop não estiver instalado.

(1) instale scala, em seguida, unzip spark/hadoop / mahout na raiz de C: sob seus respectivos nomes de produtos.

(2) mudar o nome \mahout\bin\mahout para mahout.sh. was (não vamos precisar dele)

(3) Compile o seguinte programa Win32 C++ e copie o executável para um ficheiro chamado C:\mahout\bin\mahout (isso mesmo - não .sufixo exe, como um Executável Linux)

#include "stdafx.h"
#define BUFSIZE 4096
#define VARNAME TEXT("MAHOUT_CP")
int _tmain(int argc, _TCHAR* argv[]) {
    DWORD dwLength;     LPTSTR pszBuffer;
    pszBuffer = (LPTSTR)malloc(BUFSIZE*sizeof(TCHAR));
    dwLength = GetEnvironmentVariable(VARNAME, pszBuffer, BUFSIZE);
    if (dwLength > 0) { _tprintf(TEXT("%s\n"), pszBuffer); return 0; }
    return 1;
}

(4) Crie o programa \mahout\bin\mahout.bat e colar no conteúdo abaixo, embora os nomes exatos dos frascos nos caminhos de classe _CP irá depender das versões de spark e mahout. Actualize quaisquer localizações por sua instalação. Use 8.3 nomes de caminho sem espaços neles. Observe que você não pode usar wildcards/asterisks nos fechos aqui.

set SCALA_HOME=C:\Progra~2\scala
set SPARK_HOME=C:\spark
set HADOOP_HOME=C:\hadoop
set MAHOUT_HOME=C:\mahout
set SPARK_SCALA_VERSION=2.10
set MASTER=local[2]
set MAHOUT_LOCAL=true
set path=%SCALA_HOME%\bin;%SPARK_HOME%\bin;%PATH%
cd /D %SPARK_HOME%
set SPARK_CP=%SPARK_HOME%\conf\;%SPARK_HOME%\lib\xxx.jar;...other jars...
set MAHOUT_CP=%MAHOUT_HOME%\lib\xxx.jar;...other jars...;%MAHOUT_HOME%\xxx.jar;...other jars...;%SPARK_CP%;%MAHOUT_HOME%\lib\spark\xxx.jar;%MAHOUT_HOME%\lib\hadoop\xxx.jar;%MAHOUT_HOME%\src\conf;%JAVA_HOME%\lib\tools.jar
start "master0" "%JAVA_HOME%\bin\java" -cp "%SPARK_CP%" -Xms1g -Xmx1g org.apache.spark.deploy.master.Master --ip localhost --port 7077 --webui-port 8082 >>out-master0.log 2>>out-master0.err
start "worker1" "%JAVA_HOME%\bin\java" -cp "%SPARK_CP%" -Xms1g -Xmx1g org.apache.spark.deploy.worker.Worker spark://localhost:7077 --webui-port 8083 >>out-worker1.log 2>>out-worker1.err
...you may add more workers here...
cd /D %MAHOUT_HOME%
"%JAVA_HOME%\bin\java" -Xmx4g -classpath "%MAHOUT_CP%" "org.apache.mahout.sparkbindings.shell.Main"

O nome da variável MAHOUT_CP não deve ser alterado, uma vez que é referenciado no c++ codigo.

É claro que você pode comentar o código que lança o Spark master e o worker porque Mahout vai executar Spark conforme necessário; Eu apenas colocá-lo no lote de trabalho para mostrar como lançá-lo se você queria usar Spark sem Mahout.

(5) o seguinte tutorial é um bom lugar para começar:

https://mahout.apache.org/users/sparkbindings/play-with-shell.html

Podes falar da instância da faísca de Mahout em:

"C:\Program Files (x86)\Google\Chrome\Application\chrome" --disable-web-security http://localhost:4040
 3
Author: Emul, 2015-11-24 15:49:51
Aqui estão sete passos para instalar faísca no windows 10 e executá - la a partir de python:

Passo 1: baixe a faísca 2.2.0 tar (tape Archive) gz arquivo para qualquer pasta de F a partir deste link - https://spark.apache.org/downloads.html. Descompacte e copie a pasta descompactada para a pasta desejada A. Mudar o nome de faísca-2.2.0-bin-hadoop2.7 pasta para o spark.

Deixe o caminho para a pasta de faíscas ser C:\Users\Desktop\A\spark

Passo 2: transferir o ficheiro hardoop 2. 7. 3 tar GZ para o mesmo pasta de F a partir deste link - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz. Descompacte e copie a pasta descompactada para a mesma pasta a. Mude o nome da pasta a partir do Hadoop-2.7.3.tar to hadoop. Deixar a localização da pasta hadoop ser C:\Users\Desktop\A\hadoop

Passo 3: Criar um novo ficheiro de texto do bloco de notas. Grava este ficheiro de bloco de notas vazio como winutils.exe (com Gravar Como Tipo: todos os ficheiros). Copiar este winutils de O KB.ficheiro exe na sua pasta do bin em spark - C:\Users\Desktop\A\spark\bin

Passo 4: Agora, temos que adicionar essas pastas ao ambiente do sistema.

4a: criar uma variável do sistema (não a variável do utilizador, dado que a variável do utilizador herdará todas as propriedades da variável do sistema) nome da variável: SPARK_HOME Valor da variável: C:\Users\Desktop\A\spark

Encontre a variável do sistema de localização e carregue em Editar. Você verá vários caminhos. Não apague nenhum dos caminhos. Adicionar este valor variável -; C:\Users\Desktop\A\spark\bin

4b: Criar uma variável do sistema

Nome da variável: HADOOP_HOME Valor da variável: C:\Users\Desktop\A\hadoop

Encontre a variável do sistema de localização e carregue em Editar. Adicionar este valor variável -; C:\Users\Desktop\A\hadoop\bin

4c: criar uma variável de Sistema nome variável: JAVA_HOME Procurar Java no windows. Carregue com o botão direito e carregue em Abrir a localização do ficheiro. Você terá que novamente clicar com o botão direito em qualquer um dos arquivos java e clicar em Abrir a localização do arquivo. Você estará usando o caminho desta pasta. Ou podes procurar por C:\Program ficheiros\Java. A minha versão Java instalada no sistema é jre1. 8. 0_131. Valor da variável: C:\Program ficheiros\Java\jre1. 8. 0_131\bin

Encontre a variável do sistema de localização e carregue em Editar. Adicionar este valor variável -; C:\Program ficheiros\Java\jre1. 8. 0_131\bin

Passo 5: Abrir a linha de comandos e ir para a sua pasta spark bin (tipo cd C:\Users\Desktop\A\spark\bin). Tipo spark-shell.

C:\Users\Desktop\A\spark\bin>spark-shell

Pode levar tempo e dar alguns avisos. Finalmente, vai mostrar bem-vindo à spark version 2.2.0

Passo 6: Tipo saída() ou reiniciar a linha de comandos e ir para a pasta spark bin novamente. Tipo pyspark:

C:\Users\Desktop\A\spark\bin>pyspark
Ele vai mostrar alguns avisos e erros, mas ignorar. Funciona. Passo 7: o download está completo. Se você quiser executar diretamente faísca do shell python, em seguida,: vá para os programas na sua pasta python e escreva
pip install findspark

No comando imediato.

Na shell python

import findspark
findspark.init()

Importar os módulos necessários

from pyspark import SparkContext
from pyspark import SparkConf

Se quiser para saltar os passos para a importação de findspark e inicializá - lo, em seguida, siga o procedimento indicado em importar o pyspark na linha de comandos python

 1
Author: Aakash Saxena, 2017-07-30 21:49:04

O Guia de Ani Menon (thx!) quase trabalhei para mim no windows 10, Eu só tinha que obter um novo winutils.remover esse git (actualmente hadoop-2.8.1): https://github.com/steveloughran/winutils

 1
Author: Chris, 2017-10-26 08:57:54

Aqui está um programa mínimo simples para executar a partir de qualquer consola python. Ele assume que você extraiu as bibliotecas Spark que você descarregou em C:\Apache\spark-1.6.1.

Isto funciona nas janelas sem construir nada e resolve problemas onde a Spark se queixaria de pickling recursivo.
import sys
import os
spark_home = 'C:\Apache\spark-1.6.1'

sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'python\lib\pyspark.zip')) 
sys.path.insert(0, os.path.join(spark_home, 'python\lib\py4j-0.9-src.zip')) 

# Start a spark context:
sc = pyspark.SparkContext()

# 
lines = sc.textFile(os.path.join(spark_home, "README.md")
pythonLines = lines.filter(lambda line: "Python" in line)
pythonLines.first()
 0
Author: HansHarhoff, 2016-06-28 17:27:57
A Cloudera e a Hortonworks são as melhores ferramentas para começar com o HDFS no Microsoft Windows. Você também pode usar VMWare ou VBox para iniciar máquina Virtual para estabelecer build para seu HDFS e Spark, Hive, HBase, Pig, Hadoop com Scala, R, Java, Python.
 0
Author: Divine, 2018-07-05 04:59:36