英语翻译拍照Data Traveler怎么翻译?

我在学期中花了时间通过完成Coursera上的IBM数据科学专业证书课程来学习与数据科学相关的更多技能。 最后一个模块是一个顶峰项目,也是课程的重点,它通过将学到的技能应用到单个现实生活问题上,包括最大的学习效果。 从业务问题部分您将看到,我决定为标准课程分配增加一些复杂性。

我在这里介绍我的项目概述,并简要说明不同的方法。 如果您对扩展代码感兴趣,请查看我的 笔记本

该项目基于一个假设的业务案例。 一位最近在多伦多的一家服装店投资赚钱的加拿大投资者想在纽约市重复他的想法。

    the store he would also like to gain many regular customers. 由于他的品牌专有且价格昂贵,因此该地区应该是就业率最高且收入高于平均水平的最拥挤的地区之一。 他不仅喜欢游客在商店购物,而且还希望吸引许多固定顾客。 from other clothing stores. 距市中心或其他旅游热点不远,因此可从步行游客中受益。 到市区中心约20分钟步行路程。 如果可能,请远离其他服装店。

投资者首先要对纽约市进行宏观概览。 因此,我们正在探索社区区。

该项目看起来非常清晰,为意大利品牌服装店找到理想的地区,同时考虑到该位置应适合他对理想住所的想象,同时又让您感到安全。

该项目的核心将是社会经济数据框架。 作为补充,我们构建了一个从foursquare获取的场所数据框架,并探索了这些场所。 最终的场所框架将包含每个地区最常见的场所,我们将通过一种热门编码进行了解。 该数据帧是k-means算法根据区域特征对区域进行聚类以比较这些区域之间相似度的基础。

为了获得最佳结果,业务问题的分析解决方案是量化和评估客户的想法,以完全满足其需求。 为了评估他的标准,我们将创建一个特征加权矩阵 ,以科学的方式表达投资者的需求,然后将其与标准化的最终数据框相乘,以添加带有加权结果的额外列,从而为我们指明最佳地区。

为了确保商店的最佳位置,我决定为标准课程问题增加一些复杂性。 从投资者给出的标准可以看出,我们需要更多数据。

在项目开始时,我从许多不同的数据源中找到了数据,但决定主要从获取数据,原因是其数据源是美国人口普查局,并且该数据是由美国社区调查局获取的。 。 因此,我们可以确保数据是最新的,一致且可靠的。

首先,我们将建立一个干净的社会经济数据框架,其中包含与业务问题相关的所有必要信息。 因此,我们需要加载所有文件并删除所有不必要的列和行。

最终的社会经济数据框架

如前所述,Geocoder是获取纬度经度的好工具 如果查询太大,则可以使用速率限制器成功获取大量查询:

Folium是制作精美地图的理想选择。 我们将使用它来大致了解纽约市各区,以熟悉纽约市的结构以及交互式的十字形图。

纽约市59个社区区域的简单地图

通过为每个columnm添加chloropleth层,地图将变得更具交互性和信息量。 只需为每列添加一层,类似于下面的代码。

带复选框的Choropleth热图,用于可视化不同的列

使用“ 图层控件”,您将获得用于选择其他数据的复选框。

使用Foursquare,我们可以为每个地区提供多达100个场所,这是免费服务的绝佳选择。 我们将获取数据并创建一个场所数据框架,熊猫内置方法.get_dummies使我们可以轻松地使用一个热编码过程来量化场所。 在按区域对框架进行分组并计算平均值之后,我们可以完美地比较不同的区域。 在jupyter Notebook中,您可以详细了解场地。 但是又是什么一种热编码?

一种热编码是数据处理中的一种过程,用于分类数据,将其转换为二进制矢量表示形式,供机器学习算法使用

一键编码仅为每个可能的值创建一列,然后在适当的列中放入1或0。

一个带有平均值的热编码热图数据帧

为了比较各区,我们希望创建一个带有功能的表格,该功能为我们提供了每个区最常见的场所。 稍后我们可以使用此功能,根据其场所探索不同的集群。

社区地区最常见场馆的数据框

根据客户的需求,我们将更详细地了解城市中服装店,精品店和意大利餐厅的分布。

纽约市社区地区的服装店,精品店和意大利餐厅的分布

这个项目需要通过数据探索进行数据分析,我们将仅使用简单的分类算法,但主要部分不涉及机器学习模型。 我们将使用k-means聚类,然后进行更多数据探索和可视化,以扩大我们对城市数据和理解的感觉。

K均值是一种旨在将n个数据点划分为k个簇的方法,其中每个数据点均以最接近的均值分配给该簇。 目的是最小化群集内所有平方距离的总和。

要找到理想的簇数,最常用的方法是弯头方法。 因此,我们多次运行该算法,然后绘制相关分数。

如您所见,肘部方法有时不是很确定。 但是,有许多不同的方法可以确定最佳群集数。 我使用的第二种方法是Silhouette系数。

使用每个样本的平均集群内距离和平均最近集群距离来计算Silhouette系数。 对于每个点p,首先找到p和同一簇中所有其他点之间的平均距离,这是内聚力(A)的量度。 然后找到p与最近的群集中所有点之间的平均距离,这是与最近的其他群集(B)分离的量度。 p的轮廓系数定义为B和A之间的差(BA)除以两者中的最大值(max(A,B))

评估聚类结果的定量方法很多,如果您将其用作工具并充分了解其局限性,那么如果您知道实际检查结果的话,对比方法的组合可以提高选择的质量。通过对数据代表什么,集群代表什么以及将要实现的集群的理解进行人工检查和确定,您将找到理想数量的集群。

这是根据会场结构和相似性划分的每个社区区的聚类地图。

每个社区区的地图由会场结构和相似性组成。

上面的群集地图包括我们从Foursquare获取的所有场所,包括不相关的场所,但社会经济数据除外。 对于结果的质量,重要的是仅处理相关特征,这些特征会影响投资者的决策。 从这一部分开始,我们将部署最近提到的功能权重矩阵。

最初,我们准备并合并数据帧以仅包括必要的列。

功能扩展之前所有客户需求的数据框

对于下一部分, 功能缩放非常重要。

特征缩放是一种将数据集中的列的值更改为使用公共比例的技术,而不会丢失信息或扭曲值范围内的差异。 这可以通过标准化和标准化来实现

规范化是一种缩放技术,可以对特征进行重新缩放,以使数据落入[0,1]的范围内,以使它们达到可比的等级。

标准化是一种缩放技术,通过标准均值μ= 0标准偏差σ= 1,其中μ是平均值,而σ是与平均值的标准偏差。

因此,在标准化并在Area上设置索引后,我们的数据框如下所示:

功能扩展后所有客户需求的数据框

现在,我们可以将特征权重矩阵相乘并计算总分列,通过一些简单的可视化,数据框看起来很有用。

基于特征缩放帧乘以加权矩阵的热图数据帧

在应用了具有该数据框的k-means方法(删除总分列)后,将无法从数字上直观地看到最佳地区,但可以根据投资者的需求向我们显示哪些地区相似。 我们将重复前面提到的相同过程,并使用前面介绍的两种方法找到理想的簇数。

NYC地图显示基于缩放和加权数据框的聚类

红色簇0和中等水平簇的特征总平均值中等。 平均总分是1.39,但值得注意的是,它包括5个得分最高的地区,尤其是位于史坦顿岛的南海滩和托特维尔。 曼哈顿还包括3个排名较高的地区。 集群的其余部分为中等。

紫色的聚类1是排名最高的聚类,它仅由2个区域组成,中位数总分为1.97。 这个集群的炮台公园和中城商业区的地区得分很高,旅馆的发生率很高,但人口很少。

蓝色的簇2是不合标准的派系,平均总得分为0.67,除了人口,信任和公园之外,平均值非常低。

您可能会看到,向客户展示集群地图并不是结果,这是找到商店理想位置的良好基础。 但是加权热图非常有用。 我们将进一步探索该数据框架。 呈现具有总分的地图可为客户决策提供更多信息,将该地图与社会经济数据的choropleth地图相结合可以很好地可视化交互式数据框架。

前15个社区区域的热点地图数据框
带复选框的Choropleth热图,用于可视化不同的列

下面的条形图对地图的前15个结果进行了排序,以支持这些地图,以形成对比的数据视图。

前15个地区的每列的条形图
前15个地区的每列的条形图
按总分排序的前15个社区区的条形图

我们的分析表明,这家商店有几个很有希望的地区。 尤其是南海滩上西区炮台公园很高。 在圣乔治和中城商业区的精品店中,服装店的分布最高。

从地图上可以看到,集群0( 红色 )是满足客户需求的中型集群,它是一个很大的集群,其中包括一些得分最高的地区。 紫色星团大部分位于曼哈顿,仅由2个排名较高的地区组成。 的 蓝色簇应忽略。

位于史泰登岛的南海滩获得最高分。 意大利餐馆的出现频率很高,并且这是一个犯罪率低的好地方,这弥补了中等社会经济数据的不足。 选择这个位置可能意味着该商店将从常规客户那里获利,但是不会有像曼哈顿那样多的游客和步行者。

上西区的收入,人口和公园都很高,但该地区没有直接的酒店,这可能会减少游客人数。 另一方面,中央公园就在附近,这是一个旅游热点。 但可能比南滩更具旅游意义。 另一方面,这里是许多有钱人居住的地方,商店可以从普通顾客中受益。 如果客户更喜欢住在市中心,那将是一个理想的居住地。 靠近中央公园的旅游热点也许可以弥补旅游客户关系方面缺乏酒店的问题。

炮台公园是纽约的旅游热点,尽管人口稀少,是前三名地区,并且收入最高。 少数有能力在曼哈顿上山生活的人收入较高,此外,该地区及周边地区还有许多酒店,这些酒店保证了游客和固定客户的大量融合。

排名第四的托特维尔也在史坦顿岛,犯罪率最低,前15名的失业率最低。信任度也是最高的之一。 此外,它的总体得分很高,与南海滩非常相似。

该项目的目的是确定最适合客户多样化需求的地区。 通过使用加权矩阵评估和量化他的想象力,可以确定几个区域,这些区域结合了他对商店位置和个人生活愿望的要求。

为了找到理想的位置,我们现在必须更深入地分析更详细的前10至15个地区。 我们可以比较特定的社区,并添加更多详细数据(例如旅游频率),以最终找到商店的理想社区甚至最佳街道。

我要回帖

更多关于 英译汉在线翻译 的文章

 

随机推荐