课程: 学习数据分析:1. 基础知识

货车竟长出根“尾巴”!为省钱司机竟悬空装载货物

课程: 学习数据分析:1. 基础知识

在Power Query中进行数据建模

百度 ”  战巡南海的空军战机中,具备制空作战和对地、海面目标精确打击能力的苏-35战机不断亮剑。

有时候,你可能无法访问后端数据库, 或者是使用查询工具对数据进行建模。 这个时候该怎么办呢? 你可以使用 Excel 内置的 Power Query 工具, 它能够将数据导入 Excel, 并且通过合并查询, 根据你的需求对数据进行建模。 比如,我们想结合工资数据和邮政编码信息 来分析数据。 我们现在新建了一个 Excel 工作簿。 首先我们要进入 Power Query。 我们切换到“数据”选项卡, 然后点击“获取数据”按钮, 我们选择“来自文件”, “从 Excel 工作簿”。 接下来,选择要处理的文件。 首先要处理的是邮政编码数据。 我们找到“练习文件”, 打开“0606”下面的“邮政编码数据”。 接下来在导航器中, 选中“邮政编码”工作表。 这个时候我发现,数据有点问题, 因为,邮政编码不应该只有三位数字。 我们点击“转换数据”, 来看一下问题出在什么地方。 在这里我们看到有一列 叫做“文本邮政编码”, 但实际上 Power Query 更改了它的数据类型。 这是因为它在尝试理解你的数据类型, 并且自动创建相应的数据类型。 在这里,我们不需要这种变化, 可以把对应的“更改的类型”这个步骤, 把它删除, 也就是点击前面这个叉。 删除以后, 你就会看到邮政编码前面的 0 又出现了。 为了保留这些前导 0 , 我们需要把这一列更改为文本类型, 还有,我们不需要邮编这一列的数据, 我们可以通过右键菜单把它删除。 最后,点击“关闭并上载”按钮。 我们把邮政编码数据导入到电子表格。 现在你会注意到, 它还保留了邮政编码的前导 0。 因为,它现在是文本类型, 如果是数字, Excel 就会把这个前导 0 删除。 好的,接下来我们来处理下一个数据集。 打开“数据”选项卡, 点击“获取数据”按钮, 选择“来自文件”, “从 Excel 工作簿”, 然后,选中要处理的“工资调查”, 把它导入进来。 我们选中“调查”工作表, 点击“转换数据”按钮。 可以看到, 在数据集中有 343 行调查数据。 首先我们要来检查邮政编码数据。 找到以后,在列标题上点击右键, 选择“移动”, 移到开头, 这样在后面合并的时候就会很方便。 然后,我发现, 这个邮政编码的数据类型是数字类型, 因为在列标题上显示了数字图标。 但是,我们要合并的数据列 必须是相同的数据类型。 所以,我们要把它改成文本类型。 这样,我们就准备好合并这两个数据集了。 我们打开菜单中的“合并查询”下拉列表, 选择“将查询合并为新查询”, 因为我希望把合并的数据集 作为单独的数据集来进行使用。 然后,在合并对话框中, 我们要选择合并的数据表。 上面是“调查”表, 在下面的下拉列表中我们选择“邮政编码”。 就像在查询中联接两个字段一样, 在这里,我们要选择匹配的字段。 上面的数据表中选中“邮政编码”这一列; 在下面,选中“文本邮政编码”这一列。 然后,在“联接种类”下拉列表中, 我们要确认现在选中的是“左外部”, 也就是第一个中的所有行, 第二个中的匹配行。 它就会选中所有的调查数据, 以及匹配的邮政编码数据。 在这个对话框的最下面, 我们看到, 它匹配了第一个表中的 337 行。 一共有 343 行。 它意味着,在数据集中 可能有错误的邮政编码, 或者是缺少的邮政编码。 我们点击“确定”。 现在,我们得到了一个新的查询。 我们把这个查询起名为“调查邮政编码”。 然后回车就可以了。 接下来,我们要创建另外一个查询, 因为我要分析阿拉巴马州的调查结果。 首先,我们打开“合并查询”下拉列表, 选择“将查询合并为新查询”。 然后我们来执行联接操作。 第一个表是调查表, 我们选中“邮政编码”这一列; 第二个表是邮政编码表, 我们选中“文本邮政编码”这一列, 联接种类是左外部。 在 Power Query 的界面上 没有左和右的选项。 但是,外联接操作是一样的。 我们不用关注是左表还是右表, 只需要注意联接种类, 和屏幕上的提示信息就可以了。 在这里,第一个表是左表,第二个表是右表。 我们要选中左外部联接,然后点击“确定”。 我们把这个查询改一下名称, 把它修改为“阿拉巴马调查结果”。 然后我们来看一下查询的返回结果。 我们到最后一列。 可以看到,这里有一个“邮政编码.1”, 实际上它是合并的邮政编码表。 我们点击列标题右边的“展开”按钮。 在这里,我们可以选择表中需要的字段, 比如我们需要“主要城市”、“州” 和“县”这三列。 我们选中这三列。 我想在地图上去展示这些数据, 所以,我可能还需要经纬度信息。 我把它们也选中。 然后,点击“确定”按钮。 这个时候我注意到, 在这几个字段的名称上还添加了 “邮政编码1”的前缀, 如果我们不想要在标题里面去含有这些名称, 可以把它们去掉。 我们打开这个步骤的设置按钮, 然后,在默认的列名前缀中 清空里面的内容。 点击“确定”就可以了。 你可以按照同样的步骤, 来处理调查邮政编码查询中的数据。 在最后,我们要筛选出 阿拉巴马州的调查结果。 我们找到“州”这一列, 然后打开它的下拉列表。 我们要选择阿拉巴马州的缩写, 也就是“AL”。 选中它,然后点击“确定”按钮。 最后,我们要把查询结果, 加载到电子表格中。 我们点击“关闭并上载”按钮。 现在,你可以保存一下这个文件。 多年以来,随着时间的推移, 数据建模已经变得越来越容易。 通过对数据进行建模, 我们为进一步的数据清理和创建报表, 做好了准备。 要记住的是,积累的知识 将会帮助你走得更远。

内容