首页 > 解决方案 > 在 google colab 上导入自己的 ipynb 文件

问题描述

我正在使用 google colab 使用 jupyter notebook(所有文件都在驱动器中)。我有 2 个文件:Exploratory_Data_Analysis.ipynb 和 PCA.ipynb。我想导入以在第二个中使用来自第一个的数据。仅在本地使用 jupyter 笔记本(不使用 google colaboratory),只需执行以下操作即可导入:

!pip install import-ipynb
import import_ipynb
import Exploratory_Data_Analysis as eda

但是使用 google colab 我尝试了以下方法:

!pip install import-ipynb
import import_ipynb

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
import os
import pandas as pd
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

listed = drive.ListFile({'q': "'1CXqv7-PZmYrWes4MOk' in 
parents and trashed=false"}).GetList()
for file in listed:
    print('title {}, id {}'.format(file['title'], file['id']))

eda = os.path.join(download_path, 'Exploratory_Data_Analysis.ipynb')
temp_eda = drive.CreateFile({'id': '1YpDhXGeJVtzuxUJS5gKsUbm'})
temp_eda.GetContentFile(eda)

import Exploratory_Data_Analysis

得到这个:

importing Jupyter notebook from Exploratory_Data_Analysis.ipynb
NotJSONError: Notebook does not appear to be JSON: ''...

还有其他方法可以在google colab上导入自己的ipynb文件吗?

标签: pythonjupyter-notebookgoogle-colaboratory

解决方案


您是否设法将您的 notebook/ipynb 文件导入到 Google Colab 项目中?我将本地 jupyter-notebook 中正在进行的工作迁移到 Google Colab 的方式是使用 Github 和 Clouderizer。这种方法还允许我在 jupyter notebook 环境中工作,就像我在本地做一样,但能够立即将我的工作同步到 Google Colab 。此外,此方法允许我将模块 .ipynb/.py 导入我正在处理的笔记本中,只需执行类似. 我会推荐这种设置,而不是在 Google Colab 上使用毛茸茸的 linux 命令行。 import <my own python/ipynb module>

以下是如何使用 Clouderizer 轻松将笔记本从 github 设置到 Google Colab 的教程:Medium 教程

基本上,这些是使用 Clouderizer 设置 ipynb 笔记本以及数据集文件夹所需的步骤:

用于 Google Colab 项目的 Clouderizer

先决条件

  1. 注册 google/gmail 帐户
  2. 注册Clouderizer 帐户[链接]
  3. 在您的 github 上创建一个存储库并将您的项目(所有 ipynb、py 模块,甚至数据集(如果 < 1GB 时压缩它))上传到您的存储库。

设置 Clouderizer 项目

  1. 登录到 Clouderizer 控制台。首次登录时,系统会提示您将 Google Drive 与 Clouderizer 链接。按照屏幕上的说明进行操作。如果它没有提示链接,您可以通过转到 Clouderizer 仪表板-> 侧边栏菜单-> Clouderizer Drive 来配置您的 Google Drive。Clouderizer 将在您的 Google Drive 中设置一个名为“clouderizer”的文件夹,以包含您的 ipynb 项目(无论是机器学习还是任何项目)
  2. 返回到 Clouderizer 仪表板。然后单击新建项目。当您按照说明进行操作时,您可以选择加载包含您打算上传到 Google Colab 的 ipynb 工作的整个 github 项目。
  3. 在第 5 步中,您可以通过指定数据集的 URL(例如,来自 kaggle 数据集 URL)来包含要处理的其他数据集。您还可以选择并指定是否要通过为数据集、主要代码/模块和输出文件设置单独的文件夹来重构您的项目。
  4. 接下来,前往 Google Colab/在 Google Drive 的任何位置创建一个 Google Colab 文件,然后执行: !wget NS -content disposition ' https://to_whatever_link_you_get_to_console '
  5. 最后,返回 Clouderizer 仪表板并检查您的项目环境是否已经在运行并同步到 Google Colab。然后单击该仪表板中的 jupyter notebook 图标,就在您提供的项目的标题名称旁边。现在,您可以像在本地机器上一样开始进行机器学习或任何您所做的工作,然后立即在 Google Colab 上进行同步。
  6. 最后,您将能够验证您的 .ipynb 是否可以工作,并且也能够在 Google Colab 中导入模块/数据集。只需返回 Google Drive->clouderizer 文件夹->您的项目。然后尝试运行并查看是否一切正常,就像在 jupyter notebook 中一样。

推荐阅读