Python数据可视化

　　欢迎各位阅读本篇文章，本篇文章讲述了教大家如何在from matplotlib import pyplot as plt中计划任务，课课家教育平台提醒各位：本篇文章纯干货~因此大家一定要认真阅读本篇文章哦

　　学到了一些用Matplotlib进行数据可视化的方法。在这里整理一下。

　　最开始，当然还是要导入我们需要的包：

　　# -*- coding=utf-8 -*-

　　from matplotlib import pyplot as plt

　　from sklearn.datasets import load_iris

　　import numpy as np

　　import itertools1234512345

　　1. 画散点图

　　画散点图用plt.scatter(x,y)。画连续曲线在下一个例子中可以看到，用到了plt.plot(x,y)。

　　plt.xticks(loc，label)可以自定义x轴刻度的显示，第一个参数表示的是第二个参数label显示的位置loc。

　　plt.autoscale(tight=True)可以自动调整图像显示的最佳化比例。

　　plt.scatter(x,y)

　　plt.title(“web traffic”)

　　plt.xlabel(“Time”)

　　plt.ylabel(“Hits/hour”)

　　plt.xticks([w*7*24 for w in range(10)],['week %i' %w for w in range(10)])

　　plt.autoscale(tight=True)

　　plt.grid()

　　##plt.show()1234567812345678

　　2. 式拟合并画出拟合曲线

　　## 多项式拟合

　　fp2 = np.polyfit(x,y,3)

　　f2 = np.poly1d(fp2)

　　fx = np.linspace(0,x[-1],1000)

　　plt.plot(fx,f2(fx),linewidth=4,color='g')

　　## f2.order: 函数的阶数

　　plt.legend([“d=%i” % f2.order],loc=”upper right”)

　　plt.show()12345678912345678

　　3. 画多个子图

　　这里用到的是sklearn的iris_dataset(鸢尾花数据集)。

　　此数据集包含四列，分别是鸢尾花的四个特征：

　　sepal length (cm)——花萼长度

　　sepal width (cm)——花萼宽度

　　petal length (cm)——花瓣长度

　　petal width (cm)——花瓣宽度

　　这里首先对数据进行一定的处理，主要就是对特征名称进行两两排列组合，然后任两个特征一个一个做x轴另一个做y轴进行画图。

　　# -*- coding=utf-8 -*-

　　from matplotlib import pyplot as plt

　　from sklearn.datasets import load_iris

　　import numpy as np

　　import itertools

　　data = load_iris()

　　#print(data.data)

　　#print(data.feature_names)

　　#print(data.target)

　　features = data['data']

　　feature_names = data['feature_names']

　　target = data['target']

　　labels = data['target_names'][data['target']]

　　print(data.data)

　　print(data.feature_names)123456789101112131415161718123456789101112131415161718

　　这里有一个排列组合参考代码，最后是取出了两两组合的情况。

Python数据可视化_大数据_数据分析_消费风险控制_课课家

　　排列组合的结果是feature_names_2包含了排列组合的所有情况，它的每一个元素包含了一个排列组合的所有情况，比如第一个元素包含了所有单个元素排列组合的情况，第二个元素包含了所有的两两组合的情况……所以这里取出了第二个元素，也就是所有的两两组合的情况

　　feature_names_2 = []

　　#排列组合

　　for i in range(1,len(feature_names)+1):

　　iter = itertools.combinations(feature_names,i)

　　feature_names_2.append(list(iter))

　　print(len(feature_names_2[1]))

　　for i in feature_names_2[1]:

　　print(i)123456789123456789

　　下面是在for循环里画多个子图的方法。对我来说，这里需要学习的有不少。比如

　　for i,k in enumerate(feature_names_2[1]):这一句老是记不住。

　　比如从列表中取出某元素所在的索引的方法：index1 = feature_names.index(k[0])，也即index = list.index(element)的形式。

　　比如for循环中画子图的方法：plt.subplot(2,3,1+i)

　　比如for循环的下面这用法：for t,marker,c in zip(range(3),”>ox”,”rgb”):

　　plt.figure(1)

　　for i,k in enumerate(feature_names_2[1]):

　　index1 = feature_names.index(k[0])

　　index2 = feature_names.index(k[1])

　　plt.subplot(2,3,1+i)

　　for t,marker,c in zip(range(3),”>ox”,”rgb”):

　　plt.scatter(features[target==t,index1],features[target==t,index2],marker=marker,c=c)

　　plt.xlabel(k[0])

　　plt.ylabel(k[1])

　　plt.xticks([])

　　plt.yticks([])

　　plt.autoscale()

　　plt.tight_layout()

　　plt.show()12345678910111213141234567891011121314

　　这里的可视化效果如下：

　　4. 画水平线和垂直线

　　比如在上面最后一幅图中，找到了一种方法可以把三种鸢尾花分出来，这是我们需要画出模型(一条直线)。这个时候怎么画呢?

　　下面需要注意的就是plt.vlines(x,y_min,y_max)和plt.hlines(y,x_min,x_max)的用法。

　　plt.figure(2)

　　for t,marker,c in zip(range(3),”>ox”,”rgb”):

　　plt.scatter(features[target==t,3],features[target==t,2],marker=marker,c=c)

　　plt.xlabel(feature_names[3])

　　plt.ylabel(feature_names[2])

#p#分页标题#e#

　　tuple一开始指向的list并没有改成别的list，所以，tuple所谓的“不变”是说，tuple的每个元素，指向永远不变。即指向’a’，就不能改成指向’b’，指向一个list，就不能改成指向其他对象，但指向的这个list本身是可变的!

　　理解了“指向不变”后，要创建一个内容也不变的tuple怎么做?那就必须保证tuple的每一个元素本身也不能变。

　　条件判断和循环

　　条件判断

　　计算机之所以能做很多自动化的任务，因为它可以自己做条件判断。

　　if语句

　　比如，输入用户年龄，根据年龄打印不同的内容，在Python程序中，可以用if语句实现：

　　age = 20

　　if age >= 18:

　　print 'your age is', age

　　print 'adult'

　　print 'END'

　　注意: Python代码的缩进规则。具有相同缩进的代码被视为代码块，上面的3，4行 print 语句就构成一个代码块(但不包括第5行的print)。如果 if 语句判断为 True，就会执行这个代码块。

　　缩进请严格按照Python的习惯写法：4个空格，不要使用Tab，更不要混合Tab和空格，否则很容易造成因为缩进引起的语法错误。

　　注意: if 语句后接表达式，然后用:表示代码块开始。

　　如果你在Python交互环境下敲代码，还要特别留意缩进，并且退出缩进需要多敲一行回车：

　　>>> age = 20

　　>>> if age >= 18:

　　… print 'your age is', age

　　… print 'adult'

　　…

　　your age is 20

　　adult

　　if-else语句

　　当 if 语句判断表达式的结果为 True 时，就会执行 if 包含的代码块：

　　if age >= 18:

　　print 'adult'

　　如果我们想判断年龄在18岁以下时，打印出 ‘teenager’，怎么办?

　　方法是再写一个 if:

　　if age < 18:

　　print 'teenager'

　　或者用 not 运算：

　　if not age >= 18:

　　print 'teenager'

　　细心的读者可以发现，这两种条件判断是“非此即彼”的，要么符合条件1，要么符合条件2，因此，完全可以用一个 if … else … 语句把它们统一起来：

　　if age >= 18:

　　print 'adult'

　　else:

　　print 'teenager'

　　利用 if … else … 语句，我们可以根据条件表达式的值为 True 或者 False ，分别执行 if 代码块或者 else 代码块。

　　注意: else 后面有个“:”。

　　if-elif-else语句

　　有的时候，一个 if … else … 还不够用。比如，根据年龄的划分：

　　条件1：18岁或以上：adult

　　条件2：6岁或以上：teenager

　　条件3：6岁以下：kid

　　我们可以用一个 if age >= 18 判断是否符合条件1，如果不符合，再通过一个 if 判断 age >= 6 来判断是否符合条件2，否则，执行条件3：

　　if age >= 18:

　　print 'adult'

　　else:

　　if age >= 6:

　　print 'teenager'

　　else:

　　print 'kid'

　　这样写出来，我们就得到了一个两层嵌套的 if … else … 语句。这个逻辑没有问题，但是，如果继续增加条件，比如3岁以下是 baby：

　　if age >= 18:

　　print 'adult'

　　else:

　　if age >= 6:

　　print 'teenager'

　　else:

　　if age >= 3:

　　print 'kid'

　　else:

　　print 'baby'

　　这种缩进只会越来越多，代码也会越来越难看。

　　要避免嵌套结构的 if … else … ，我们可以用 if … 多个 elif … else … 的结构，一次写完所有的规则：

　　if age >= 18:

　　print 'adult'

　　elif age >= 6:

　　print 'teenager'

　　elif age >= 3:

　　print 'kid'

　　else:

　　print 'baby'

　　elif 意思就是 else if。这样一来，我们就写出了结构非常清晰的一系列条件判断。

　　特别注意: 这一系列条件判断会从上到下依次判断，如果某个判断为 True，执行完对应的代码块，后面的条件判断就直接忽略，不再执行了。

　　循环

　　for循环

　　list或tuple可以表示一个有序集合。如果我们想依次访问一个list中的每一个元素呢?比如 list：

　　L = ['Adam', 'Lisa', 'Bart']

　　print L[0]

　　print L[1]

　　print L[2]

　　如果list只包含几个元素，这样写还行，如果list包含1万个元素，我们就不可能写1万行print。

　　这时，循环就派上用场了。

　　Python的 for 循环就可以依次把list或tuple的每个元素迭代出来：

　　L = ['Adam', 'Lisa', 'Bart']

　　for name in L:

　　print name

#p#分页标题#e#

　　注意: name 这个变量是在 for 循环中定义的，意思是，依次取出list中的每一个元素，并把元素赋值给 name，然后执行for循环体(就是缩进的代码块)。

　　这样一来，遍历一个list或tuple就非常容易了。

　　while循环

　　和 for 循环不同的另一种循环是 while 循环，while 循环不会迭代 list 或 tuple 的元素，而是根据表达式判断循环是否结束。

　　比如要从 0 开始打印不大于 N 的整数：

　　N = 10

　　x = 0

　　while x < N:

　　print x

　　x = x + 1

　　while循环每次先判断 x < N，如果为True，则执行循环体的代码块，否则，退出循环。

　　在循环体内，x = x + 1 会让 x 不断增加，最终因为 x < N 不成立而退出循环。

　　如果没有这一个语句，while循环在判断 x < N 时总是为True，就会无限循环下去，变成死循环，所以要特别留意while循环的退出条件。

　　break退出循环

　　用 for 循环或者 while 循环时，如果要在循环体内直接退出循环，可以使用 break 语句。

　　比如计算1至100的整数和，我们用while来实现：

　　sum = 0

　　x = 1

　　while True:

　　sum = sum + x

　　x = x + 1

　　if x > 100:

　　break

　　print sum

　　咋一看， while True 就是一个死循环，但是在循环体内，我们还判断了 x > 100 条件成立时，用break语句退出循环，这样也可以实现循环的结束。

　　continue继续循环

　　在循环过程中，可以用break退出当前循环，还可以用continue跳过后续循环代码，继续下一次循环。

　　假设我们已经写好了利用for循环计算平均分的代码：

　　L = [75, 98, 59, 81, 66, 43, 69, 85]

　　sum = 0.0

　　n = 0

　　for x in L:

　　sum = sum + x

　　n = n + 1

　　print sum / n

　　现在老师只想统计及格分数的平均分，就要把 x < 60 的分数剔除掉，这时，利用 continue，可以做到当 x < 60的时候，不继续执行循环体的后续代码，直接进入下一次循环：

　　for x in L:

　　if x < 60:

　　continue

　　sum = sum + x

　　n = n + 1

　　多重循环

　　在循环内部，还可以嵌套循环，我们来看一个例子：

　　for x in ['A', 'B', 'C']:

　　for y in ['1', '2', '3']:

　　print x + y

　　x 每循环一次，y 就会循环 3 次。

　　Dict类型

　　我们已经知道，list 和 tuple 可以用来表示顺序集合，例如，班里同学的名字：

　　['Adam', 'Lisa', 'Bart']

　　或者考试的成绩列表：

　　[95, 85, 59]

　　但是，要根据名字找到对应的成绩，用两个 list 表示就不方便。

　　如果把名字和分数关联起来，组成类似的查找表：

　　'Adam' ==> 95

　　'Lisa' ==> 85

　　'Bart' ==> 59

　　给定一个名字，就可以直接查到分数。

　　Python的 dict 就是专门干这件事的。用 dict 表示“名字”-“成绩”的查找表如下：

　　d = {

　　'Adam': 95,

　　'Lisa': 85,

　　'Bart': 59

　　我们把名字称为key，对应的成绩称为value，dict就是通过 key 来查找 value。

　　花括号 {} 表示这是一个dict，然后按照 key: value, 写出来即可。最后一个 key: value 的逗号可以省略。

　　由于dict也是集合，len() 函数可以计算任意集合的大小：

　　# plt.xticks([])

　　# plt.yticks([])

　　plt.autoscale()

　　plt.vlines(1.6, 0, 8, colors = “c”,linewidth=4,linestyles = “dashed”)

　　plt.hlines(2.5, 0, 2.5, colors = “y”,linewidth=4,linestyles = “dashed”)

　　plt.show() 12345678910111234567891011

　　此时可视化效果如下：

　　plt.ion()打开交互模式。plt.show()不再阻塞程序运行。

　　注意plt.axis()的用法。

　　plt.axis([0, 100, 0, 1])

　　plt.ion()

　　for i in range(100):

　　y = np.random.random()

　　plt.autoscale()

　　plt.scatter(i, y)

　　plt.pause(0.01)1234567812345678

　　可视化效果：

#p#分页标题#e#

　　相信最后大家阅读完毕本篇文章，肯定学到了不少知识吧?其实大家私下还得多多自学，当然如果大家还想了解更多方面的详细内容的话呢，不妨关注课课家教育平台，在这个学习知识的天堂中，您肯定会有意想不到的收获的!

当前位置：以往代写 > 大数据教程 >Python数据可视化