本帖最后由 内容分析应用 于 2021-2-23 10:01 编辑

这篇文章:How I’m doing my own COVID-19 data analysis using Jupyter, Python, Pandas and Matplotlib, 收集了一些COVID-19的数据, 使用Jupyter Notebook, Python(pandas)处理数据, 并使用matplotlib来绘制数据。



数据分析过程
分析数据时,通常需要执行3个步骤:
1. 获取数据。您需要找到可靠的来源来获取最新数据。
2. 数据清理和转换。有了数据后,就必须对数据进行一些处理。这意味着清理数据,提取与您相关的数据,并确保其格式可用于下一步。
3. 演示和可视化。最后一步意味着以正确的格式显示数据。通常,在步骤2和3之间进行一些迭代,因为当您查看数据时,会发现要从中提取的新数据点。


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-2-23 10:21

沙发
内容分析应用 金牌会员 发表于 2021-2-23 09:59:50 | 只看该作者
本帖最后由 内容分析应用 于 2021-2-23 10:10 编辑

让我们看看该文如何使用COVID-19数据执行此操作。

步骤1:取得资料
有很多地方可以获取有关COVID-19的数据,本文使用以下两个数据集:
time_series_covid19_confirmed_US.csv
time_series_covid19_deaths_US.csv
要将数据集导入到Jupyter笔记本中,可以使用以下Python代码:
  1. %matplotlib inline
  2. import matplotlib
  3. import numpy as np
  4. import matplotlib.pyplot as plt
  5. import pandas as pd
  6. cases = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_US.csv')
  7. deaths = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_US.csv')
复制代码
前两行是import在Python中导入必要库的语句。之后,我们创建了两个对象,cases 并deaths代表原始数据集,加载到Pandas。
Pandas中的DataFrame是使用表格数据的非常有用的对象。我强烈建议在Coursera的以下课程中学习如何使用这些对象。
导入数据后,您可以使用以下命令查看数据:
  1. print(cases.head())
  2. print(deaths.head())
复制代码
这将显示数据的前5行,这对深入了解数据很有用。
现在已经加载了数据,我们可以继续下一步,数据清理和转换。
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2021-2-23 10:05:32 | 只看该作者
这个例子好棒!我刚看过这篇文章《Jupyter Notebook在机器学习领域的项目目录结构规划》,启发好大,我觉得作为数据分析师,先要学会有条不紊地管理好自己的分析项目。

我要利用这个数据集,题主介绍的分析过程,我自己摸索一遍,写成一个notebook。

如果有大神已经有写好的notebook,共享一下看看


举报 使用道具
地板
内容分析应用 金牌会员 发表于 2021-2-23 10:17:02 | 只看该作者
步骤2:资料清理与转换
接下来的步骤是清理数据。原文描述了逐步完成各个步骤及其对cases 对象的含义,然后向您展示如何在单个命令中对deaths 对象进行所有这些操作。
现在我们有了原始数据,我们可以开始使用它进行绘图了!(顺便说一句,这是一个迭代过程,我们将在第一张图之后返回到数据清理和转换。)

步骤3: 演示和可视化
在这一步中,我们将创建第一对图形。就我而言,我想显示离我最近的4个县的数据。为此,我将使用以下对象引用要可视化的县:
  1. counties = ['Alameda',
  2.              'San Francisco',
  3.              'San Mateo',
  4.              'Santa Clara']
复制代码
为了在图表中显示这四个县的情况,我们可以使用以下代码:
  1. plot = cases_clean[counties].plot()
  2. plot.set_title("COVID-19 cases in Bay Area Counties")
复制代码
这将生成一个不错的第一张图:





举报 使用道具
5#
内容分析应用 金牌会员 发表于 2021-2-23 10:21:29 | 只看该作者
分析的过程会做多次的迭代,在查看数据时,会发现要从中提取的新数据点,这时需要返回到第2步再次做Data cleanup and transformation。。。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 00:08