中文Python机器学习资料网站总汇教程变大神
中文Python机器学习资源网站
第一部分 IPython Notebook机器学习教程
1 数学
-
麻省理工学院线性代数(18.06)胡安H Klopper博士
麻省理工学院(MIT)OpenCourseWare(OCW)关于线性代数(18.06)的ipython笔记本讲座
http://www.juanklopper.com/opencourseware/mathematics-2/ipython-lecture-notes/
-
统计学导论Thomas Haslwanter
本书的最大特点是新,利用Python的最新的数值分析,统计库和可视化库来讲述统计学,理论和实战结合,让初学者容易上手。
http://work.thaslwanter.at/Stats/html/
https://github.com/thomas-haslwanter/statsintro
-
使用Python的统计简介
https://github.com/rouseguy/intro2stats
-
Python中的计算统计
使用的Python代码讲解统计学的原理,包括了蟒蛇入门的部分,非常细致。
https://people.duke.edu/~ccc14/sta-663/
-
Python中的统计信息
“统计在Python”euroscipy 2015教程的材料。
数据表示和交互
假设检验:比较两组
线性模型,多重因素和方差分析
更多的可视化:seaborn统计探索
测试交互
完整的例子
http://gaelvaroquaux.github.io/stats_in_python_tutorial/
2 Monte Carlo方法,随机优化Verena Kaynig-Fittkau和Pavlos Protopapas(AM207),2015
哈佛课程
http://am207.org/ https://github.com/diguabo/Monte-Carlo-Methods-Stochastic-Optimization-AM207-2015
3 CS 109数据科学,哈佛大学,2014
家庭作业和实验室是用ipython编写的
4 文学文本分析艺术,麦吉尔,2015年冬
寻找意义(搜索不同的单词形式和词义)
词类(分析词类(名词,形容词,动词等)的文件
重复短语(分析重复的单词序列)
情感分析(测量意见或文字的心情)
主题建模(找到重复的术语组)
文档相似性(测量和可视化文档之间的距离)
http://nbviewer.ipython.org/github/sgsinclair/alta/blob/master/ipynb/ArtOfLiteraryTextAnalysis.ipynb
5 频率主义和贝叶斯主义
https://jakevdp.github.io/blog/2014/03/11/frequentism-and-bayesianism-a-practical-intro/
http://jakevdp.github.io/blog/2014/06/06/frequentism-and-bayesianism-2-when-results-differ/
http://jakevdp.github.io/blog/2014/06/12/frequentism-and-bayesianism-3-confidence-credibility/
http://jakevdp.github.io/blog/2014/06/14/frequentism-and-bayesianism-4-bayesian-in-python/
Python中的6个贝叶斯统计分析
https://github.com/fonnesbeck/scipy2014_tutorial/tree/master/
视频:http : //pan.baidu.com/s/1o6j4HBG
-
Python中的贝叶斯建模
欢迎使用“Python中的贝叶斯建模”(Bayesian Modeling in Python) – 为那些有兴趣学习如何在python(PYMC3)中应用贝叶斯建模技术的人提供的教程。本教程并不旨在成为一个贝叶斯统计教程 – 而是为那些了解贝叶斯统计的基础,并希望学习如何使用python构建贝叶斯模型的人编写一本烹饪书。
https://github.com/markdregan/Bayesian-Modelling-in-Python
7 模式分类
一系列用于解决和理解机器学习和模式分类任务的教程和示例:
机器学习和模式分类简介
预处理
模型评估
参数估计
机器学习算法与分类模型
聚类
收集数据
数据可视化
统计模式分类的例子
会谈
应用资源
https://github.com/rasbt/pattern_classification#collecting-data
8 Nitin Borwankar学习数据科学
以IPython笔记本的形式收集数据科学学习资料。关联的数据集。
最初的测试版包含四个主要主题
-
线性回归
-
Logistic回归
-
随机森林
-
K均值聚类
以上每个IPython笔记本至少有三个覆盖
概述(对数学问题的技巧的阐述)
数据挖掘(现实世界中数据争夺的细节)
分析(使用技术来获得结果)
https://github.com/nborwankar/LearnDataScience
9 机器学习简介
数据集
用K-means聚类
用其他算法进行聚类
用k-最近的邻居分类
用其他算法分类
用决策树分类
随机森林分类
降维
https://github.com/Prooffreader/intro_machine_learning
10 用IPython介绍科学计算
**
IPython中进行机器学习方面的研究的入门教程。
http://nbviewer.ipython.org/github/diego898/ipython_intro_hawaii/blob/master/Introduction%20to%20IPython.ipynb,https://github.com/diego898/ipython_intro_hawaii
11 简单机器学习方法教程
0 – Python Intro.ipynb
1 – PCA.ipynb
2 – KMeans.ipynb
3a – 线性回归1D.ipynb
3b – 线性回归2D.ipynb
4 – Logistic Regression.ipynb
5 – k最近Neighbors.ipynb
https://github.com/temporaer/tutorial_ml_gkbionics/blob/master/README.md
12 机器学习
01_Introduction.ipynb
02_Linear_Regression.ipynb
03_Linear_Classification.ipynb
04_Neural_Networks.ipynb
05_Decision_Trees.ipynb
06_Graphical_Models.ipynb
Performance_Prediction.ipynb
REF_linear_algebra.ipynb
http://nbviewer.ipython.org/github/masinoa/machine_learning/tree/master/
13 挖掘社交网络(第2版)
这个挖掘社交网络的版本广泛使用IPython Notebook来促进学习和开发过程。
第0章 – 前言
第1章 – 挖掘Twitter:探索热门话题,发现人们在谈论什么,等等
第2章 – 挖掘Facebook:分析粉丝页面,检查友谊等等
第3章 – 挖掘LinkedIn:挖掘职位,聚类同事等等
第4章 – 挖掘Google+:计算文档相似性,提取搭配等等
第5章 – 挖掘网页:使用自然语言处理理解人类语言,总结博客文章等等
第6章 – 挖掘邮箱:分析谁在谈论什么,经常,甚至更多
第7章 – 挖掘GitHub:检查软件协作习惯,建立兴趣图,等等
第8章 – 挖掘语义标记的Web:提取微格式,通过RDF推断等等
第九章 – Twitter的食谱
附录A – 虚拟机体验
附录B – OAuth入门
附录C – Python和IPython笔记本提示
https://github.com/ptwobrussell/Mining-the-Social-Web-2nd-Edition
魏旭14社交媒体与文本分析
大数据社会科学
Twitter和Twitter API教程
社交媒体的自然语言处理(I,II,III)
案例分析 – 多推文摘要和PageRank算法
http://socialmedia-class.org/index.html
15 数据分析
发现强大的python数据分析库,包括numpy和pandas。学习如何操作和获取数据的见解(需要访问youtube.com)
https://www.dataquest.io/course/data-analysis
用Python实现数据挖掘 16
这个Refcard是关于在实际的数据挖掘中使用的工具,用Python来查找和描述数据中的结构模式。
导入和可视化数据
分类和集群数据
使用回归和相关度量来发现数据中的关系
降低数据的维度,以压缩和可视化所带来的信息
分析结构化数据
https://dzone.com/refcardz/data-mining-discovering-and
17 Scipy讲义
关于科学Python生态系统的教程:快速介绍中心工具和技术。
1.开始使用Python进行科学研究
1.1。科学计算与工具和工作流程
1.2。Python语言
1.3。NumPy:创建和操作数字数据
1.4。Matplotlib:绘图
1.5。Scipy:高级科学计算
1.6。获得帮助和查找文档
2.高级主题
2.1。高级Python构造
2.2。先进的Numpy
2.3。调试代码
2.4。优化代码
2.5。SciPy中的稀疏矩阵
2.6。使用Numpy和Scipy进行图像处理和处理
2.7。数学优化:找到函数的最小值
2.8。与C接口
3.软件包和应用程序
3.1。Python中的统计信息
3.2。Sympy:Python中的符号数学
3.3。Scikit-image:图像处理
3.4。特点:建立交互式对话框
3.5。与Mayavi 3D绘图
3.6。scikit-learn:Python中的机器学习
****
操作性很强
http://www.scipy-lectures.org/
18 计算和推理思维:数据科学的基础,2015年秋季
数据科学入门课程建立在三个相互关联的视角上:推理思维,计算思维和现实世界的相关性。
数据科学与计算
图片的力量和危险
有区别吗?
做预测
模型和选择
19 非参数方法
-
Dirichlet分布和Dirichlet过程:通过类比Dirichlet分布快速回顾Dirichlet分布和Dirichlet过程的介绍。
从分层Dirichlet过程抽样:代码演示如何从层次Dirichlet过程抽样,而不先生成无限数量的参数。
非参数潜在Dirichlet分配:使用Dirichlet过程的潜在Dirichlet分配的另一种观点,以及如何使用分层结构容易地扩展到非参数模型(其中主题的数量变为随机变量拟合)的演示Dirichlet过程。
http://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/tree/master/
https://github.com/tdhopper/notes-on-dirichlet-processes/tree/master/
-
非参数潜在狄利克雷分配
-
关于Hierarchal Dirichlet过程模型中Gibbs抽样的注记
-
显微镜-LDA
非参数(HDP)潜在狄利克雷分配(LDA)
https://github.com/datamicroscopes/lda,http://nbviewer.ipython.org/github/tdhopper/notes-on-dirichlet-processes/blob/master/2015-10-07-econtalk-topics.ipynb#主题= 6&拉姆达= 1&术语=
-
第十届贝叶斯非参数会议
将于2015年6月22 – 26日在美国北卡罗来纳州罗利北卡罗来纳州立大学举行。
讲座:https : //stat.duke.edu/bnp10/index.html%3Fpage_id=279.html
Part II。 机器学习库
-
数据科学之5个最佳的Python库,为初学者定制的教程
http://bi.dataguru.cn/article-6903-1.html
-
Add for Python,Numpy,Pandas和机器学习培训
https://github.com/addfor/tutorials
-
一系列教程和示例,用于解决和理解机器学习和模式分类任务
https://github.com/rasbt/pattern_classification
-
使用NumPy,Matplotlib和Pandas进行Python数据探索的最终指南
如何加载数据文件?
如何将变量转换为不同的数据类型?
如何转置表?
如何对数据进行排序?
如何创建情节(直方图,分散,框图)?
如何生成频率表?
如何做数据集的抽样?
如何删除一个变量的重复值?
如何将变量分组来计算count,average,sum?
如何识别和处理缺失值和异常值?
如何有效地合并/连接数据集?
-
Bot or Not:在Python中进行端到端的数据分析
建立一个分类器与熊猫,NLTK和scikit学会识别Twitter机器人
***
使用了三个简单的分类器。主要过程被证明。这不是一个可实现的ipn文件。
http://www.erinshellman.com/bot-or-not/
-
IPython中的笔记本电脑
关于:语言,机器学习练习,Spark大数据实验室等。
https://github.com/jdwittenauer/ipython-notebooks
-
概率,悖论和合理的人本原则
***
几个概率的悖论问题和使用代码的分析
http://nbviewer.ipython.org/url/norvig.com/ipython/Probability.ipynb
20只 熊猫
-
用大熊猫做Python数据分析和数据科学
新用户的IPython Notebook教程; pandas cookbook(IPython Notebook)
https://www.linkedin.com/pulse/doing-data-analysis-science-python-pandas-ali-syed
-
熊猫的事情我希望我早就知道了
-
14个最佳的Python Pandas功能
http://dataconomy.com/14-best-python-pandas-features
-
黑客教育与Python – 数据挖掘Coursera流行课程
http://adilmoujahid.com/posts/2015/03/coursera-data-mining/
-
熊猫教程
https://bitbucket.org/hrojas/learn-pandas
-
在Python Pandas中汇总,汇总和分组数据
http://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
-
10分钟到熊猫
http://pandas.pydata.org/pandas-docs/stable/10min.html
翻译:http://www.cnblogs.com/chaosimple/p/4153083.html
21 Scikit学习
-
学习scikit-learn:Python中的机器学习
本书每章的IPython来源(由RaúlGarreta和Guillermo Moncecchi提供)
https://github.com/gmonce/scikit-learn-book/tree/master/
-
PyCon 2015简介Scikit-Learn教程,由Jake VanderPlas提供
1.预赛
01-Preliminaries.ipynb
2.使用Scikit-Learn介绍机器学习
02.1,机器学习,Intro.ipynb
02.2-Basic的Principles.ipynb
3.深入监督学习
03.1分类,SVMs.ipynb
03.2回归 – Forests.ipynb
4.无监督学习深入
04.1维性,PCA.ipynb
04.2聚类,KMeans.ipynb
04.3密度,GMM.ipynb
5.模型验证深入
05-Validation.ipynb
https://github.com/jakevdp/sklearn_pycon2015
-
用scikit-learn介绍机器学习
简要介绍,包括视频,IPython笔记本,博客文章等
https://github.com/justmarkham/scikit-learn-videos/blob/master/README.md
-
介绍机器学习使用scikit学习
使用熊猫导入数据
建立一个初始的线性模型
了解如何评估模型
建立在线性模型上,并添加交叉验证和正则化
建立逻辑回归模型 – 交叉验证和正则化
构建决策树模型构建随机森林模型
-
SciPy 2015 Scikit-learn教程
https://github.com/amueller/scipy_2015_sklearn_tutorial,
ipn:http : //nbviewer.ipython.org/github/amueller/scipy_2015_sklearn_tutorial/tree/master/notebooks/
-
办公NFL池
一个有趣的熊猫和Scikit学习使用NFL数据的介绍。我会尝试定期更新玩家数据。
https://github.com/tanyaschlusser/office-nfl-pool
-
Sklearn-大熊猫
该模块为Scikit-Learn的机器学习方法和熊猫式数据框架提供了桥梁。
https://github.com/paulgb/sklearn-pandas
-
10 Scikit学习案例研究,示例和教程
http://www.baglom.com/b/10-scikit-learn-case-studies-examples-tutorials-cm572/
-
5使用SciKit学习的文本分类案例研究
-
2015年开放数据科学大会的幻灯片和笔记本
https://github.com/amueller/odscon-sf-2015
-
深入机器学习
****
用Jupyter笔记本,Python和scikit-learn进入机器学习领域。
系统性的简要介绍机器学习的路径,包含了大量实用的,操作性强的链接。
22 PyMC
作为概率编程语言之一,PyMC是贝叶斯的首选工具。它包括用于模型收敛的贝叶斯模型,统计分布和诊断工具。它也包括一些分层模型。如果你想做贝叶斯分析,你应该检查出来。
http://pymc-devs.github.io/pymc/
https://pymc-devs.github.io/pymc3/
-
概率规划与黑客贝叶斯方法
从计算/理解第一和数学第二的角度介绍贝叶斯推理。
https://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/
-
橄榄球分析和FinTech – 教程
介绍使用pymc实现概率编程的方法,由3个例子组成。