Spaces:

deagar
/

spark_sandbox

Sleeping

deagar commited on Jan 21

Commit

c02076c

1 Parent(s): 96e2e87

fixed paths on parquet write section

Files changed (2) hide show

notebooks/assesment.ipynb CHANGED Viewed

@@ -256,10 +256,10 @@
    "source": [
     "# 7. Writing to Parquet\n",
     "# =====================\n",
-    "# We'll write the cleaned Spark DataFrame to a Parquet file (e.g. \"titanic_merged_clean.parquet\").\n",
     "\n",
     "# 7.1 TODO: Write spark_merged_clean to Parquet\n",
-    "# e.g., spark_merged_clean.write.mode(\"overwrite\").parquet(\"titanic_merged_clean.parquet\")\n",
     "\n",
     "# 7.2 TODO: Read it back into a new Spark DataFrame called 'spark_parquet_df'\n",
     "# spark_parquet_df = ?\n",

    "source": [
     "# 7. Writing to Parquet\n",
     "# =====================\n",
+    "# We'll write the cleaned Spark DataFrame to a Parquet file (e.g. \"../titanic_merged_clean.parquet\").\n",
     "\n",
     "# 7.1 TODO: Write spark_merged_clean to Parquet\n",
+    "# e.g., spark_merged_clean.write. ...\n",
     "\n",
     "# 7.2 TODO: Read it back into a new Spark DataFrame called 'spark_parquet_df'\n",
     "# spark_parquet_df = ?\n",

notebooks/solutions.ipynb CHANGED Viewed

@@ -221,7 +221,7 @@
    "source": [
     "#Write spark df to parquet\n",
     "\n",
-    "spark_merged_clean.write.mode(\"overwrite\").parquet(\"titanic_merged_clean.parquet\")"
    ]
   },
   {
@@ -232,7 +232,7 @@
    "source": [
     "#Read parquet back in\n",
     "\n",
-    "spark_parquet_df = spark.read.parquet(\"titanic_merged_clean.parquet\")\n",
     "print(\"spark_parquet_df count:\", spark_parquet_df.count())\n",
     "spark_parquet_df.show(5)\n"
    ]

    "source": [
     "#Write spark df to parquet\n",
     "\n",
+    "spark_merged_clean.write.mode(\"overwrite\").parquet(\"../titanic_merged_clean.parquet\")"
    ]
   },
   {
    "source": [
     "#Read parquet back in\n",
     "\n",
+    "spark_parquet_df = spark.read.parquet(\"../titanic_merged_clean.parquet\")\n",
     "print(\"spark_parquet_df count:\", spark_parquet_df.count())\n",
     "spark_parquet_df.show(5)\n"
    ]