Spark est un logiciel d’analyse de données de grande taille. Ce logiciel peut être utilisé soit avec R, Java ou encore Python. Cependant plusieurs sommes-nous à galérer pour pouvoir bien installer ce module qui reste crucial dans la vie du Data scientist. En effet, avec de multiples systèmes d’exploitation qui s’offrent à nous aujourd’hui, cet atout devient très vite un cauchemar pour la plupart d’entre nous. Ainsi donc, à travers ce tutoriel, vous devriez en principe oublier tout ce casse-tête. Vous saurez dès la fin de ce tutoriel savoir bien installer Spark sur un système d’exploitation Windows sans aucun problème. Nous allons dans la suite faire un bref descriptif de la méthode utilisée pour installer Spark en local pour l’utiliser avec R tout en donnant quelques pistes de solutions en ce qui concerne les erreurs courantes d’installation de Spark sur les ordinateurs personnels.
Pour installer Spark en local, deux grandes options s’offrent à vous :
- Depuis Rstudio ou rGui;
- Utiliser la méthode classique.
Installation classique
Pour installer Spark sur votre bureau personnel sans passer par R, nous vous conseillons de suivre les étapes suivantes tout en vous référant au lien ci-dessous:
- Installer Java script (JDK)
- Installer Scala
- Installer Spark
Lien : http://www.the-lazy-dev.com/fr/spark-pour-les-debutants-installation-sous-windows-10/
Problèmes rencontrés : la majeure partie des problèmes lors de cette installation est due au mauvais adressage de chemin d’accès vers le répertoire de Spark.
Méthode de résolution : Assurer vous que dans votre path situé dans “paramètre système avancés”-> “variables d’environnement” les éléments suivants s’y trouvent :
- chemin vers jdk
- chemin vers scala
- chemin vers votre système
- chemin vers Spark
- chemin vers Windows
Exemple: mon bureau personnel
Installation à partir de Rstudio
L’installation de Spark depuis Rstudio se faire en entrant le code suivant sur la console : Vous avez le choix de la version de Spark que vous souhaitez utiliser.
installation de sparklyr sous Rstudio
- install.packages(“sparklyr”)
Appel aux libraires
- library(sparklyr)
- spark_install(version = “2.1.0”)
- library(dplyr)
- library(magrittr)
- library(ggplot2)
- library(lubridate)
Cette procédure est utile pour ceux qui ont du mal à réinstaller Spark après des tentatives échouées.
Procédure de réinstallation de Spark après plusieurs tentative échouées
- remove.packages(“sparklyr”)
- remove.packages(“devtools”)
- install.packages(“devtools”)
- install.packages(“sparklyr”)
- library(sparklyr)
- spark_install(version = “2.1.0”)
- devtools::install_github(“rstudio/sparklyr”)
- library(sparklyr)
- install.packages(c(“nycflights13”, “Lahman”))
- library(nycflights13)
- library (Lahman)
- library(dplyr)
Connexion à Spark Pour se connecter à Spark, vous pouvez soit le faire à partir de Rstudio ou utiliser Spark Hadoop depuis le terminal R ou même depuis votre invite de commande “cmd”.
Depuis l’invite de commande ou le terminal R Pour se connecter à Spark depuis l’invite de commande, il suffit d’aller dans le dossier bin de Spark en question et de taper le code suivant : spark-shell.
Vous pouvez l’appercevoir sur la figure ci-dessous :
Depuis Rstudio Cette méthode semble plus flexible pour les débutant sur Spark. En effet, vous n’avez qu’à installer les packages nécessaires, appelé les library et d’essayer de vous connecter. Voici le code permettant de se connecter :
Connexion à Spark
- sc <- spark_connect(master = “local”,version = “2.1.0”)
ou
- sc=spark_connect(master=“Local”)
Egalement, vous Ci-dessous une image de ma tentative de connexion.
Importation de données
- spark_read_csv(sc,Names,path)