python - 将文本文件从字符串转换为列表
问题描述
我需要帮助将此文本文件 ( https://www.gutenberg.org/files/768/768.txt ) 从字符串转换为 Google Colab 上的列表。我需要文本文件在“ccx074@pglaf.org”之后开始,并在“END OF THE PROJECT GUTENBERG EBOOK WUTHERING HEIGHTS”之前结束,以便获得准确的总字数。下面列出的是我到目前为止的编码。
# download and installing pyspark in colab
!pip install -q pyspark
# download Wuthering Heights, by Emily Bronte
!wget -q https://www.gutenberg.org/files/768/768.txt
from pyspark import SparkContext
sc = SparkContext()
import os.path
baseDir = os.path.join('data')
inputPath = os.path.join('/content/768.txt')
fileName = os.path.join(baseDir, inputPath)
with open('/content/768.txt','r') as f:
text = f.read()
#GET START LOC
start_loc = text.find("ccx074@pglaf.org") + len("ccx074@pglaf.org")
#GET END LOC
end_loc = text[start_loc:].find("***")
#SLICE THE TEXT STRING AND INDEXES
text[start_loc:start_loc+end_loc].replace("\n", " ")
解决方案
推荐阅读
- windows - Git Bash:需要 Microsoft Visual C++ 14.0,但我已经安装了它
- laravel - 如何为不同的 API 响应使用相同的 Laravel 资源
- swift - 问题:我的非可选变量为零。(展开时出现致命错误)
- c++ - 如何解释 GDB 中回溯的模板函数签名?
- kubernetes - 在 Kubernetes 的生产环境中部署 Schema Registry
- formatting - man 可以将选项传递给 roff 格式化程序吗?
- fiware - FIWARE 与 PAS182 有何不同?
- react-native - 执行 react-native run android 时出现问题
- r - R中的正则表达式:匹配节点词的搭配
- vue.js - 使用 VueJS 为用户显示图像 EXIF