Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación de los datos con SQL en Studio
Amazon SageMaker Studio incluye una extensión SQL integrada. Esta extensión permite a los científicos de datos realizar tareas como el muestreo, el análisis exploratorio y la ingeniería de características directamente desde sus JupyterLab cuadernos. Aprovecha las AWS Glue conexiones para mantener un catálogo de fuentes de datos centralizado. El catálogo almacena metadatos sobre diversos orígenes de datos. A través de este entorno de SQL, los científicos de datos pueden navegar por los catálogos de datos, explorar sus datos, crear consultas de SQL complejas y procesar adicionalmente los resultados en Python.
En esta sección, se explica cómo configurar la extensión de SQL en Studio. Describe las capacidades que ofrece esta integración de SQL y proporciona instrucciones para ejecutar consultas SQL en JupyterLab cuadernos.
Para habilitar el análisis de datos de SQL, los administradores deben configurar primero AWS Glue las conexiones a las fuentes de datos pertinentes. Estas conexiones permiten a los científicos de datos acceder sin problemas a los conjuntos de datos autorizados desde dentro JupyterLab.
Además de las AWS Glue conexiones configuradas por el administrador, la extensión SQL permite a los científicos de datos individuales crear sus propias conexiones de fuentes de datos. Estas conexiones creadas por los usuarios pueden administrarse de forma independiente y ajustarse al perfil del usuario con políticas de control de acceso basadas en etiquetas. Este modelo de conexión de doble nivel, con conexiones configuradas por el administrador y creadas por el usuario, proporciona a los científicos de datos un acceso más amplio a los datos que necesitan para sus tareas de análisis y modelado. Los usuarios pueden configurar las conexiones necesarias a sus propias fuentes de datos dentro de la interfaz de usuario (UI) del JupyterLab entorno, sin depender únicamente de las conexiones centralizadas establecidas por el administrador.
importante
La capacidad de creación de conexiones definidas por el usuario está disponible como conjunto de bibliotecas independientes en PyPI. Para utilizar esta funcionalidad, debe instalar las siguientes bibliotecas en su JupyterLab entorno:
Puede instalar estas bibliotecas ejecutando los siguientes comandos en su JupyterLab terminal:
pip install amazon-sagemaker-sql-editor>=0.1.13 pip install amazon-sagemaker-sql-execution>=0.1.6 pip install amazon-sagemaker-sql-magic>=0.1.3
Tras instalar las bibliotecas, tendrá que reiniciar el JupyterLab servidor para que los cambios surtan efecto.
restart-jupyter-server
Con el acceso configurado, JupyterLab los usuarios pueden:
-
Ver y explorar orígenes de datos preconfigurados.
-
Buscar, filtrar e inspeccionar elementos de información de la base de datos, como tablas, esquemas y columnas.
-
Generar automáticamente parámetros de conexión a un origen de datos.
-
Crear consultas de SQL complejas mediante las características de resaltado de sintaxis, autocompletar y formato de SQL del editor de SQL de la extensión.
-
Ejecutar sentencias SQL desde las celdas del JupyterLab cuaderno.
-
Recupere los resultados de las consultas SQL pandas DataFrames para su posterior procesamiento, visualización y otras tareas de aprendizaje automático.
Para acceder a la extensión, seleccione el icono de la extensión SQL (
) en el panel de navegación izquierdo de JupyterLab la aplicación en Studio. Al pasar el ratón sobre el icono, aparece la información sobre la herramienta Detección de datos.
importante
-
La JupyterLab imagen de SageMaker Studio contiene la extensión SQL de forma predeterminada, empezando por SageMaker AI Distribution
1.6. La extensión solo funciona con Python y SparkMagic kernels. -
La interfaz de usuario de la extensión para explorar las conexiones y los datos solo está disponible JupyterLab en Studio. Es compatible con Amazon Redshift
, Amazon Athena y Snowflake .
-
Si es administrador y desea crear conexiones genéricas a orígenes de datos para la extensión de SQL, siga estos pasos:
-
Active la comunicación de red entre su dominio de Studio y los orígenes de datos a los que desee conectarse. Para obtener más información sobre los requisitos de red, consulte Configuración del acceso a la red entre Studio y los orígenes de datos (para administradores).
-
Compruebe las propiedades de conexión y las instrucciones para crear un secreto para su origen de datos en Creación de secretos para las credenciales de acceso a bases de datos en Secrets Manager.
-
Cree las AWS Glue conexiones a sus fuentes de datos enCree AWS Glue conexiones (para administradores).
-
Otorgue a la función de ejecución de su SageMaker dominio o perfiles de usuario los permisos necesarios enConfiguración de los permisos de IAM para acceder a los orígenes de datos (para administradores).
-
-
Si es científico de datos y desea crear sus propias conexiones a orígenes de datos para la extensión de SQL, siga estos pasos:
-
Haga que su administrador:
-
Active la comunicación de red entre su dominio de Studio y los orígenes de datos a los que desee conectarse. Para obtener más información sobre los requisitos de red, consulte Configuración del acceso a la red entre Studio y los orígenes de datos (para administradores).
-
Otorgue los permisos necesarios a la función de ejecución de su SageMaker dominio o perfiles de usuarioConfiguración de los permisos de IAM para acceder a los orígenes de datos (para administradores).
nota
Los administradores pueden restringir el acceso de los usuarios a las conexiones creadas en la JupyterLab aplicación configurando el control de acceso basado en etiquetas en la función de ejecución.
-
-
Compruebe las propiedades de conexión y las instrucciones para crear un secreto para su origen de datos en Creación de secretos para las credenciales de acceso a bases de datos en Secrets Manager.
-
Cree su conexión en la JupyterLab interfaz de usuario siguiendo las instrucciones deCree conexiones definidas por el usuario AWS Glue.
-
-
Si es un científico de datos que desea explorar y consultar sus orígenes de datos mediante la extensión de SQL, asegúrese de que usted o su administrador hayan configurado primero las conexiones a sus orígenes de datos. A continuación, siga estos pasos:
-
Cree un espacio privado para iniciar la JupyterLab aplicación en Studio con la imagen de SageMaker distribución de la versión 1.6 o superior.
-
Si es usuario de la versión 1.6 de la imagen de SageMaker distribución, cargue la extensión SQL en un JupyterLab bloc de notas ejecutándola
%load_ext amazon_sagemaker_sql_magicen una celda de un bloc de notas.Para los usuarios de las versiones 1.7 y posteriores de la imagen de SageMaker distribución, no es necesario realizar ninguna acción: la extensión SQL se carga automáticamente.
-
Familiarícese con las funciones de la extensión de SQL en Características y uso de la extensión de SQL.
-