Edit on GitHub

sqlglot.dataframe.sql

View Source

 1from sqlglot.dataframe.sql.column import Column
 2from sqlglot.dataframe.sql.dataframe import DataFrame, DataFrameNaFunctions
 3from sqlglot.dataframe.sql.group import GroupedData
 4from sqlglot.dataframe.sql.readwriter import DataFrameReader, DataFrameWriter
 5from sqlglot.dataframe.sql.session import SparkSession
 6from sqlglot.dataframe.sql.window import Window, WindowSpec
 7
 8__all__ = [
 9    "SparkSession",
10    "DataFrame",
11    "GroupedData",
12    "Column",
13    "DataFrameNaFunctions",
14    "Window",
15    "WindowSpec",
16    "DataFrameReader",
17    "DataFrameWriter",
18]

class SparkSession: View Source

 21class SparkSession:
 22    DEFAULT_DIALECT = "spark"
 23    _instance = None
 24
 25    def __init__(self):
 26        if not hasattr(self, "known_ids"):
 27            self.known_ids = set()
 28            self.known_branch_ids = set()
 29            self.known_sequence_ids = set()
 30            self.name_to_sequence_id_mapping = defaultdict(list)
 31            self.incrementing_id = 1
 32            self.dialect = Dialect.get_or_raise(self.DEFAULT_DIALECT)
 33
 34    def __new__(cls, *args, **kwargs) -> SparkSession:
 35        if cls._instance is None:
 36            cls._instance = super().__new__(cls)
 37        return cls._instance
 38
 39    @property
 40    def read(self) -> DataFrameReader:
 41        return DataFrameReader(self)
 42
 43    def table(self, tableName: str) -> DataFrame:
 44        return self.read.table(tableName)
 45
 46    def createDataFrame(
 47        self,
 48        data: t.Sequence[t.Union[t.Dict[str, ColumnLiterals], t.List[ColumnLiterals], t.Tuple]],
 49        schema: t.Optional[SchemaInput] = None,
 50        samplingRatio: t.Optional[float] = None,
 51        verifySchema: bool = False,
 52    ) -> DataFrame:
 53        from sqlglot.dataframe.sql.dataframe import DataFrame
 54
 55        if samplingRatio is not None or verifySchema:
 56            raise NotImplementedError("Sampling Ratio and Verify Schema are not supported")
 57        if schema is not None and (
 58            not isinstance(schema, (StructType, str, list))
 59            or (isinstance(schema, list) and not isinstance(schema[0], str))
 60        ):
 61            raise NotImplementedError("Only schema of either list or string of list supported")
 62        if not data:
 63            raise ValueError("Must provide data to create into a DataFrame")
 64
 65        column_mapping: t.Dict[str, t.Optional[str]]
 66        if schema is not None:
 67            column_mapping = get_column_mapping_from_schema_input(schema)
 68        elif isinstance(data[0], dict):
 69            column_mapping = {col_name.strip(): None for col_name in data[0]}
 70        else:
 71            column_mapping = {f"_{i}": None for i in range(1, len(data[0]) + 1)}
 72
 73        data_expressions = [
 74            exp.tuple_(
 75                *map(
 76                    lambda x: F.lit(x).expression,
 77                    row if not isinstance(row, dict) else row.values(),
 78                )
 79            )
 80            for row in data
 81        ]
 82
 83        sel_columns = [
 84            (
 85                F.col(name).cast(data_type).alias(name).expression
 86                if data_type is not None
 87                else F.col(name).expression
 88            )
 89            for name, data_type in column_mapping.items()
 90        ]
 91
 92        select_kwargs = {
 93            "expressions": sel_columns,
 94            "from": exp.From(
 95                this=exp.Values(
 96                    expressions=data_expressions,
 97                    alias=exp.TableAlias(
 98                        this=exp.to_identifier(self._auto_incrementing_name),
 99                        columns=[exp.to_identifier(col_name) for col_name in column_mapping],
100                    ),
101                ),
102            ),
103        }
104
105        sel_expression = exp.Select(**select_kwargs)
106        return DataFrame(self, sel_expression)
107
108    def sql(self, sqlQuery: str) -> DataFrame:
109        expression = sqlglot.parse_one(sqlQuery, read=self.dialect)
110        if isinstance(expression, exp.Select):
111            df = DataFrame(self, expression)
112            df = df._convert_leaf_to_cte()
113        elif isinstance(expression, (exp.Create, exp.Insert)):
114            select_expression = expression.expression.copy()
115            if isinstance(expression, exp.Insert):
116                select_expression.set("with", expression.args.get("with"))
117                expression.set("with", None)
118            del expression.args["expression"]
119            df = DataFrame(self, select_expression, output_expression_container=expression)  # type: ignore
120            df = df._convert_leaf_to_cte()
121        else:
122            raise ValueError(
123                "Unknown expression type provided in the SQL. Please create an issue with the SQL."
124            )
125        return df
126
127    @property
128    def _auto_incrementing_name(self) -> str:
129        name = f"a{self.incrementing_id}"
130        self.incrementing_id += 1
131        return name
132
133    @property
134    def _random_branch_id(self) -> str:
135        id = self._random_id
136        self.known_branch_ids.add(id)
137        return id
138
139    @property
140    def _random_sequence_id(self):
141        id = self._random_id
142        self.known_sequence_ids.add(id)
143        return id
144
145    @property
146    def _random_id(self) -> str:
147        id = "r" + uuid.uuid4().hex
148        self.known_ids.add(id)
149        return id
150
151    @property
152    def _join_hint_names(self) -> t.Set[str]:
153        return {"BROADCAST", "MERGE", "SHUFFLE_HASH", "SHUFFLE_REPLICATE_NL"}
154
155    def _add_alias_to_mapping(self, name: str, sequence_id: str):
156        self.name_to_sequence_id_mapping[name].append(sequence_id)
157
158    class Builder:
159        SQLFRAME_DIALECT_KEY = "sqlframe.dialect"
160
161        def __init__(self):
162            self.dialect = "spark"
163
164        def __getattr__(self, item) -> SparkSession.Builder:
165            return self
166
167        def __call__(self, *args, **kwargs):
168            return self
169
170        def config(
171            self,
172            key: t.Optional[str] = None,
173            value: t.Optional[t.Any] = None,
174            *,
175            map: t.Optional[t.Dict[str, t.Any]] = None,
176            **kwargs: t.Any,
177        ) -> SparkSession.Builder:
178            if key == self.SQLFRAME_DIALECT_KEY:
179                self.dialect = value
180            elif map and self.SQLFRAME_DIALECT_KEY in map:
181                self.dialect = map[self.SQLFRAME_DIALECT_KEY]
182            return self
183
184        def getOrCreate(self) -> SparkSession:
185            spark = SparkSession()
186            spark.dialect = Dialect.get_or_raise(self.dialect)
187            return spark
188
189    @classproperty
190    def builder(cls) -> Builder:
191        return cls.Builder()

DEFAULT_DIALECT = 'spark'

read: DataFrameReader View Source

39    @property
40    def read(self) -> DataFrameReader:
41        return DataFrameReader(self)

def table(self, tableName: str) -> DataFrame: View Source

43    def table(self, tableName: str) -> DataFrame:
44        return self.read.table(tableName)

def createDataFrame( self, data: Sequence[Union[Dict[str, <MagicMock id='139981980193248'>], List[<MagicMock id='139981980193248'>], Tuple]], schema: Optional[<MagicMock id='139981978717392'>] = None, samplingRatio: Optional[float] = None, verifySchema: bool = False) -> DataFrame: View Source

 46    def createDataFrame(
 47        self,
 48        data: t.Sequence[t.Union[t.Dict[str, ColumnLiterals], t.List[ColumnLiterals], t.Tuple]],
 49        schema: t.Optional[SchemaInput] = None,
 50        samplingRatio: t.Optional[float] = None,
 51        verifySchema: bool = False,
 52    ) -> DataFrame:
 53        from sqlglot.dataframe.sql.dataframe import DataFrame
 54
 55        if samplingRatio is not None or verifySchema:
 56            raise NotImplementedError("Sampling Ratio and Verify Schema are not supported")
 57        if schema is not None and (
 58            not isinstance(schema, (StructType, str, list))
 59            or (isinstance(schema, list) and not isinstance(schema[0], str))
 60        ):
 61            raise NotImplementedError("Only schema of either list or string of list supported")
 62        if not data:
 63            raise ValueError("Must provide data to create into a DataFrame")
 64
 65        column_mapping: t.Dict[str, t.Optional[str]]
 66        if schema is not None:
 67            column_mapping = get_column_mapping_from_schema_input(schema)
 68        elif isinstance(data[0], dict):
 69            column_mapping = {col_name.strip(): None for col_name in data[0]}
 70        else:
 71            column_mapping = {f"_{i}": None for i in range(1, len(data[0]) + 1)}
 72
 73        data_expressions = [
 74            exp.tuple_(
 75                *map(
 76                    lambda x: F.lit(x).expression,
 77                    row if not isinstance(row, dict) else row.values(),
 78                )
 79            )
 80            for row in data
 81        ]
 82
 83        sel_columns = [
 84            (
 85                F.col(name).cast(data_type).alias(name).expression
 86                if data_type is not None
 87                else F.col(name).expression
 88            )
 89            for name, data_type in column_mapping.items()
 90        ]
 91
 92        select_kwargs = {
 93            "expressions": sel_columns,
 94            "from": exp.From(
 95                this=exp.Values(
 96                    expressions=data_expressions,
 97                    alias=exp.TableAlias(
 98                        this=exp.to_identifier(self._auto_incrementing_name),
 99                        columns=[exp.to_identifier(col_name) for col_name in column_mapping],
100                    ),
101                ),
102            ),
103        }
104
105        sel_expression = exp.Select(**select_kwargs)
106        return DataFrame(self, sel_expression)

def sql(self, sqlQuery: str) -> DataFrame: View Source

108    def sql(self, sqlQuery: str) -> DataFrame:
109        expression = sqlglot.parse_one(sqlQuery, read=self.dialect)
110        if isinstance(expression, exp.Select):
111            df = DataFrame(self, expression)
112            df = df._convert_leaf_to_cte()
113        elif isinstance(expression, (exp.Create, exp.Insert)):
114            select_expression = expression.expression.copy()
115            if isinstance(expression, exp.Insert):
116                select_expression.set("with", expression.args.get("with"))
117                expression.set("with", None)
118            del expression.args["expression"]
119            df = DataFrame(self, select_expression, output_expression_container=expression)  # type: ignore
120            df = df._convert_leaf_to_cte()
121        else:
122            raise ValueError(
123                "Unknown expression type provided in the SQL. Please create an issue with the SQL."
124            )
125        return df

builder: SparkSession.Builder View Source

189    @classproperty
190    def builder(cls) -> Builder:
191        return cls.Builder()

class SparkSession.Builder: View Source

158    class Builder:
159        SQLFRAME_DIALECT_KEY = "sqlframe.dialect"
160
161        def __init__(self):
162            self.dialect = "spark"
163
164        def __getattr__(self, item) -> SparkSession.Builder:
165            return self
166
167        def __call__(self, *args, **kwargs):
168            return self
169
170        def config(
171            self,
172            key: t.Optional[str] = None,
173            value: t.Optional[t.Any] = None,
174            *,
175            map: t.Optional[t.Dict[str, t.Any]] = None,
176            **kwargs: t.Any,
177        ) -> SparkSession.Builder:
178            if key == self.SQLFRAME_DIALECT_KEY:
179                self.dialect = value
180            elif map and self.SQLFRAME_DIALECT_KEY in map:
181                self.dialect = map[self.SQLFRAME_DIALECT_KEY]
182            return self
183
184        def getOrCreate(self) -> SparkSession:
185            spark = SparkSession()
186            spark.dialect = Dialect.get_or_raise(self.dialect)
187            return spark

SQLFRAME_DIALECT_KEY = 'sqlframe.dialect'

dialect

def config( self, key: Optional[str] = None, value: Optional[Any] = None, *, map: Optional[Dict[str, Any]] = None, **kwargs: Any) -> SparkSession.Builder: View Source

170        def config(
171            self,
172            key: t.Optional[str] = None,
173            value: t.Optional[t.Any] = None,
174            *,
175            map: t.Optional[t.Dict[str, t.Any]] = None,
176            **kwargs: t.Any,
177        ) -> SparkSession.Builder:
178            if key == self.SQLFRAME_DIALECT_KEY:
179                self.dialect = value
180            elif map and self.SQLFRAME_DIALECT_KEY in map:
181                self.dialect = map[self.SQLFRAME_DIALECT_KEY]
182            return self

def getOrCreate(self) -> SparkSession: View Source

184        def getOrCreate(self) -> SparkSession:
185            spark = SparkSession()
186            spark.dialect = Dialect.get_or_raise(self.dialect)
187            return spark

class DataFrameNaFunctions: View Source

839class DataFrameNaFunctions:
840    def __init__(self, df: DataFrame):
841        self.df = df
842
843    def drop(
844        self,
845        how: str = "any",
846        thresh: t.Optional[int] = None,
847        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
848    ) -> DataFrame:
849        return self.df.dropna(how=how, thresh=thresh, subset=subset)
850
851    def fill(
852        self,
853        value: t.Union[int, bool, float, str, t.Dict[str, t.Any]],
854        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
855    ) -> DataFrame:
856        return self.df.fillna(value=value, subset=subset)
857
858    def replace(
859        self,
860        to_replace: t.Union[bool, int, float, str, t.List, t.Dict],
861        value: t.Optional[t.Union[bool, int, float, str, t.List]] = None,
862        subset: t.Optional[t.Union[str, t.List[str]]] = None,
863    ) -> DataFrame:
864        return self.df.replace(to_replace=to_replace, value=value, subset=subset)

DataFrameNaFunctions(df: DataFrame) View Source

840    def __init__(self, df: DataFrame):
841        self.df = df

def drop( self, how: str = 'any', thresh: Optional[int] = None, subset: Union[str, Tuple[str, ...], List[str], NoneType] = None) -> DataFrame: View Source

843    def drop(
844        self,
845        how: str = "any",
846        thresh: t.Optional[int] = None,
847        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
848    ) -> DataFrame:
849        return self.df.dropna(how=how, thresh=thresh, subset=subset)

def fill( self, value: Union[int, bool, float, str, Dict[str, Any]], subset: Union[str, Tuple[str, ...], List[str], NoneType] = None) -> DataFrame: View Source

851    def fill(
852        self,
853        value: t.Union[int, bool, float, str, t.Dict[str, t.Any]],
854        subset: t.Optional[t.Union[str, t.Tuple[str, ...], t.List[str]]] = None,
855    ) -> DataFrame:
856        return self.df.fillna(value=value, subset=subset)

def replace( self, to_replace: Union[bool, int, float, str, List, Dict], value: Union[bool, int, float, str, List, NoneType] = None, subset: Union[str, List[str], NoneType] = None) -> DataFrame: View Source

858    def replace(
859        self,
860        to_replace: t.Union[bool, int, float, str, t.List, t.Dict],
861        value: t.Optional[t.Union[bool, int, float, str, t.List]] = None,
862        subset: t.Optional[t.Union[str, t.List[str]]] = None,
863    ) -> DataFrame:
864        return self.df.replace(to_replace=to_replace, value=value, subset=subset)

class Window: View Source

15class Window:
16    _JAVA_MIN_LONG = -(1 << 63)  # -9223372036854775808
17    _JAVA_MAX_LONG = (1 << 63) - 1  # 9223372036854775807
18    _PRECEDING_THRESHOLD = max(-sys.maxsize, _JAVA_MIN_LONG)
19    _FOLLOWING_THRESHOLD = min(sys.maxsize, _JAVA_MAX_LONG)
20
21    unboundedPreceding: int = _JAVA_MIN_LONG
22
23    unboundedFollowing: int = _JAVA_MAX_LONG
24
25    currentRow: int = 0
26
27    @classmethod
28    def partitionBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
29        return WindowSpec().partitionBy(*cols)
30
31    @classmethod
32    def orderBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
33        return WindowSpec().orderBy(*cols)
34
35    @classmethod
36    def rowsBetween(cls, start: int, end: int) -> WindowSpec:
37        return WindowSpec().rowsBetween(start, end)
38
39    @classmethod
40    def rangeBetween(cls, start: int, end: int) -> WindowSpec:
41        return WindowSpec().rangeBetween(start, end)

unboundedPreceding: int = -9223372036854775808

unboundedFollowing: int = 9223372036854775807

currentRow: int = 0

@classmethod

def partitionBy( cls, *cols: Union[<MagicMock id='139981978118480'>, List[<MagicMock id='139981978118480'>]]) -> WindowSpec: View Source

27    @classmethod
28    def partitionBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
29        return WindowSpec().partitionBy(*cols)

@classmethod

def orderBy( cls, *cols: Union[<MagicMock id='139981978118480'>, List[<MagicMock id='139981978118480'>]]) -> WindowSpec: View Source

31    @classmethod
32    def orderBy(cls, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
33        return WindowSpec().orderBy(*cols)

@classmethod

def rowsBetween(cls, start: int, end: int) -> WindowSpec: View Source

35    @classmethod
36    def rowsBetween(cls, start: int, end: int) -> WindowSpec:
37        return WindowSpec().rowsBetween(start, end)

@classmethod

def rangeBetween(cls, start: int, end: int) -> WindowSpec: View Source

39    @classmethod
40    def rangeBetween(cls, start: int, end: int) -> WindowSpec:
41        return WindowSpec().rangeBetween(start, end)

class WindowSpec: View Source

 44class WindowSpec:
 45    def __init__(self, expression: exp.Expression = exp.Window()):
 46        self.expression = expression
 47
 48    def copy(self):
 49        return WindowSpec(self.expression.copy())
 50
 51    def sql(self, **kwargs) -> str:
 52        from sqlglot.dataframe.sql.session import SparkSession
 53
 54        return self.expression.sql(dialect=SparkSession().dialect, **kwargs)
 55
 56    def partitionBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
 57        from sqlglot.dataframe.sql.column import Column
 58
 59        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
 60        expressions = [Column.ensure_col(x).expression for x in cols]
 61        window_spec = self.copy()
 62        partition_by_expressions = window_spec.expression.args.get("partition_by", [])
 63        partition_by_expressions.extend(expressions)
 64        window_spec.expression.set("partition_by", partition_by_expressions)
 65        return window_spec
 66
 67    def orderBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
 68        from sqlglot.dataframe.sql.column import Column
 69
 70        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
 71        expressions = [Column.ensure_col(x).expression for x in cols]
 72        window_spec = self.copy()
 73        if window_spec.expression.args.get("order") is None:
 74            window_spec.expression.set("order", exp.Order(expressions=[]))
 75        order_by = window_spec.expression.args["order"].expressions
 76        order_by.extend(expressions)
 77        window_spec.expression.args["order"].set("expressions", order_by)
 78        return window_spec
 79
 80    def _calc_start_end(
 81        self, start: int, end: int
 82    ) -> t.Dict[str, t.Optional[t.Union[str, exp.Expression]]]:
 83        kwargs: t.Dict[str, t.Optional[t.Union[str, exp.Expression]]] = {
 84            "start_side": None,
 85            "end_side": None,
 86        }
 87        if start == Window.currentRow:
 88            kwargs["start"] = "CURRENT ROW"
 89        else:
 90            kwargs = {
 91                **kwargs,
 92                **{
 93                    "start_side": "PRECEDING",
 94                    "start": (
 95                        "UNBOUNDED"
 96                        if start <= Window.unboundedPreceding
 97                        else F.lit(start).expression
 98                    ),
 99                },
100            }
101        if end == Window.currentRow:
102            kwargs["end"] = "CURRENT ROW"
103        else:
104            kwargs = {
105                **kwargs,
106                **{
107                    "end_side": "FOLLOWING",
108                    "end": (
109                        "UNBOUNDED" if end >= Window.unboundedFollowing else F.lit(end).expression
110                    ),
111                },
112            }
113        return kwargs
114
115    def rowsBetween(self, start: int, end: int) -> WindowSpec:
116        window_spec = self.copy()
117        spec = self._calc_start_end(start, end)
118        spec["kind"] = "ROWS"
119        window_spec.expression.set(
120            "spec",
121            exp.WindowSpec(
122                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
123            ),
124        )
125        return window_spec
126
127    def rangeBetween(self, start: int, end: int) -> WindowSpec:
128        window_spec = self.copy()
129        spec = self._calc_start_end(start, end)
130        spec["kind"] = "RANGE"
131        window_spec.expression.set(
132            "spec",
133            exp.WindowSpec(
134                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
135            ),
136        )
137        return window_spec

WindowSpec(expression: sqlglot.expressions.Expression = Window()) View Source

45    def __init__(self, expression: exp.Expression = exp.Window()):
46        self.expression = expression

expression

def copy(self): View Source

48    def copy(self):
49        return WindowSpec(self.expression.copy())

def sql(self, **kwargs) -> str: View Source

51    def sql(self, **kwargs) -> str:
52        from sqlglot.dataframe.sql.session import SparkSession
53
54        return self.expression.sql(dialect=SparkSession().dialect, **kwargs)

def partitionBy( self, *cols: Union[<MagicMock id='139981978118480'>, List[<MagicMock id='139981978118480'>]]) -> WindowSpec: View Source

56    def partitionBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
57        from sqlglot.dataframe.sql.column import Column
58
59        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
60        expressions = [Column.ensure_col(x).expression for x in cols]
61        window_spec = self.copy()
62        partition_by_expressions = window_spec.expression.args.get("partition_by", [])
63        partition_by_expressions.extend(expressions)
64        window_spec.expression.set("partition_by", partition_by_expressions)
65        return window_spec

def orderBy( self, *cols: Union[<MagicMock id='139981978118480'>, List[<MagicMock id='139981978118480'>]]) -> WindowSpec: View Source

67    def orderBy(self, *cols: t.Union[ColumnOrName, t.List[ColumnOrName]]) -> WindowSpec:
68        from sqlglot.dataframe.sql.column import Column
69
70        cols = flatten(cols) if isinstance(cols[0], (list, set, tuple)) else cols  # type: ignore
71        expressions = [Column.ensure_col(x).expression for x in cols]
72        window_spec = self.copy()
73        if window_spec.expression.args.get("order") is None:
74            window_spec.expression.set("order", exp.Order(expressions=[]))
75        order_by = window_spec.expression.args["order"].expressions
76        order_by.extend(expressions)
77        window_spec.expression.args["order"].set("expressions", order_by)
78        return window_spec

def rowsBetween(self, start: int, end: int) -> WindowSpec: View Source

115    def rowsBetween(self, start: int, end: int) -> WindowSpec:
116        window_spec = self.copy()
117        spec = self._calc_start_end(start, end)
118        spec["kind"] = "ROWS"
119        window_spec.expression.set(
120            "spec",
121            exp.WindowSpec(
122                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
123            ),
124        )
125        return window_spec

def rangeBetween(self, start: int, end: int) -> WindowSpec: View Source

127    def rangeBetween(self, start: int, end: int) -> WindowSpec:
128        window_spec = self.copy()
129        spec = self._calc_start_end(start, end)
130        spec["kind"] = "RANGE"
131        window_spec.expression.set(
132            "spec",
133            exp.WindowSpec(
134                **{**window_spec.expression.args.get("spec", exp.WindowSpec()).args, **spec}
135            ),
136        )
137        return window_spec

class DataFrameReader: View Source

15class DataFrameReader:
16    def __init__(self, spark: SparkSession):
17        self.spark = spark
18
19    def table(self, tableName: str) -> DataFrame:
20        from sqlglot.dataframe.sql.dataframe import DataFrame
21        from sqlglot.dataframe.sql.session import SparkSession
22
23        sqlglot.schema.add_table(tableName, dialect=SparkSession().dialect)
24
25        return DataFrame(
26            self.spark,
27            exp.Select()
28            .from_(
29                exp.to_table(tableName, dialect=SparkSession().dialect).transform(
30                    SparkSession().dialect.normalize_identifier
31                )
32            )
33            .select(
34                *(
35                    column
36                    for column in sqlglot.schema.column_names(
37                        tableName, dialect=SparkSession().dialect
38                    )
39                )
40            ),
41        )

DataFrameReader(spark: SparkSession) View Source

16    def __init__(self, spark: SparkSession):
17        self.spark = spark

spark

def table(self, tableName: str) -> DataFrame: View Source

19    def table(self, tableName: str) -> DataFrame:
20        from sqlglot.dataframe.sql.dataframe import DataFrame
21        from sqlglot.dataframe.sql.session import SparkSession
22
23        sqlglot.schema.add_table(tableName, dialect=SparkSession().dialect)
24
25        return DataFrame(
26            self.spark,
27            exp.Select()
28            .from_(
29                exp.to_table(tableName, dialect=SparkSession().dialect).transform(
30                    SparkSession().dialect.normalize_identifier
31                )
32            )
33            .select(
34                *(
35                    column
36                    for column in sqlglot.schema.column_names(
37                        tableName, dialect=SparkSession().dialect
38                    )
39                )
40            ),
41        )

class DataFrameWriter: View Source

 44class DataFrameWriter:
 45    def __init__(
 46        self,
 47        df: DataFrame,
 48        spark: t.Optional[SparkSession] = None,
 49        mode: t.Optional[str] = None,
 50        by_name: bool = False,
 51    ):
 52        self._df = df
 53        self._spark = spark or df.spark
 54        self._mode = mode
 55        self._by_name = by_name
 56
 57    def copy(self, **kwargs) -> DataFrameWriter:
 58        return DataFrameWriter(
 59            **{
 60                k[1:] if k.startswith("_") else k: v
 61                for k, v in object_to_dict(self, **kwargs).items()
 62            }
 63        )
 64
 65    def sql(self, **kwargs) -> t.List[str]:
 66        return self._df.sql(**kwargs)
 67
 68    def mode(self, saveMode: t.Optional[str]) -> DataFrameWriter:
 69        return self.copy(_mode=saveMode)
 70
 71    @property
 72    def byName(self):
 73        return self.copy(by_name=True)
 74
 75    def insertInto(self, tableName: str, overwrite: t.Optional[bool] = None) -> DataFrameWriter:
 76        from sqlglot.dataframe.sql.session import SparkSession
 77
 78        output_expression_container = exp.Insert(
 79            **{
 80                "this": exp.to_table(tableName),
 81                "overwrite": overwrite,
 82            }
 83        )
 84        df = self._df.copy(output_expression_container=output_expression_container)
 85        if self._by_name:
 86            columns = sqlglot.schema.column_names(
 87                tableName, only_visible=True, dialect=SparkSession().dialect
 88            )
 89            df = df._convert_leaf_to_cte().select(*columns)
 90
 91        return self.copy(_df=df)
 92
 93    def saveAsTable(self, name: str, format: t.Optional[str] = None, mode: t.Optional[str] = None):
 94        if format is not None:
 95            raise NotImplementedError("Providing Format in the save as table is not supported")
 96        exists, replace, mode = None, None, mode or str(self._mode)
 97        if mode == "append":
 98            return self.insertInto(name)
 99        if mode == "ignore":
100            exists = True
101        if mode == "overwrite":
102            replace = True
103        output_expression_container = exp.Create(
104            this=exp.to_table(name),
105            kind="TABLE",
106            exists=exists,
107            replace=replace,
108        )
109        return self.copy(_df=self._df.copy(output_expression_container=output_expression_container))

DataFrameWriter( df: DataFrame, spark: Optional[SparkSession] = None, mode: Optional[str] = None, by_name: bool = False) View Source

45    def __init__(
46        self,
47        df: DataFrame,
48        spark: t.Optional[SparkSession] = None,
49        mode: t.Optional[str] = None,
50        by_name: bool = False,
51    ):
52        self._df = df
53        self._spark = spark or df.spark
54        self._mode = mode
55        self._by_name = by_name

def copy(self, **kwargs) -> DataFrameWriter: View Source

57    def copy(self, **kwargs) -> DataFrameWriter:
58        return DataFrameWriter(
59            **{
60                k[1:] if k.startswith("_") else k: v
61                for k, v in object_to_dict(self, **kwargs).items()
62            }
63        )

def sql(self, **kwargs) -> List[str]: View Source

65    def sql(self, **kwargs) -> t.List[str]:
66        return self._df.sql(**kwargs)

def mode( self, saveMode: Optional[str]) -> DataFrameWriter: View Source

68    def mode(self, saveMode: t.Optional[str]) -> DataFrameWriter:
69        return self.copy(_mode=saveMode)

byName View Source

71    @property
72    def byName(self):
73        return self.copy(by_name=True)

def insertInto( self, tableName: str, overwrite: Optional[bool] = None) -> DataFrameWriter: View Source

75    def insertInto(self, tableName: str, overwrite: t.Optional[bool] = None) -> DataFrameWriter:
76        from sqlglot.dataframe.sql.session import SparkSession
77
78        output_expression_container = exp.Insert(
79            **{
80                "this": exp.to_table(tableName),
81                "overwrite": overwrite,
82            }
83        )
84        df = self._df.copy(output_expression_container=output_expression_container)
85        if self._by_name:
86            columns = sqlglot.schema.column_names(
87                tableName, only_visible=True, dialect=SparkSession().dialect
88            )
89            df = df._convert_leaf_to_cte().select(*columns)
90
91        return self.copy(_df=df)

def saveAsTable( self, name: str, format: Optional[str] = None, mode: Optional[str] = None): View Source

 93    def saveAsTable(self, name: str, format: t.Optional[str] = None, mode: t.Optional[str] = None):
 94        if format is not None:
 95            raise NotImplementedError("Providing Format in the save as table is not supported")
 96        exists, replace, mode = None, None, mode or str(self._mode)
 97        if mode == "append":
 98            return self.insertInto(name)
 99        if mode == "ignore":
100            exists = True
101        if mode == "overwrite":
102            replace = True
103        output_expression_container = exp.Create(
104            this=exp.to_table(name),
105            kind="TABLE",
106            exists=exists,
107            replace=replace,
108        )
109        return self.copy(_df=self._df.copy(output_expression_container=output_expression_container))