首页 > 技术文章 > 机器学*

huanyi0723 2017-05-24 14:15 原文

学*路径
数学: 线性代数:矩阵的意义和计算(四则运算,矩阵的逆,转置矩阵),向量;
高数:微积分,求导(包括偏导),泰勒定理,麦克劳林公式,拉格朗日乘数法,方向导数与梯度算法,最小二乘法
概率与统计:分布函数(正态分布,伯努利分布,多项式分布,指数分布—时间间隔,泊松分布—时间段内事件发生),概率密度函数,概率质量函数,贝叶斯定理,条件概率,最大似然值,异常值检查(如z分数),数学期望,方差,标准差,相关系数
数值计算:牛顿法
信息论:信息熵的技术
机器学*算法:
线性回归,逻辑回归,局部加权线性回归,随机森林,贝叶斯分类器,gbdt,决策树,k-mean
编程语言:
Python,r,matlab
程序包:
Scikit-learn,Deeplearning4j,DataVec
基础框架:
Tensorflow,caffe,keras

参考资料
数学:线性代数及其应用(lay,strang),同济;高数(同济);统计(浙大);数学分析(Rudin著)
https://www.coursera.org/learn/machine-learning;NG
斯坦福深度学*自燃语言,http://cs224d.stanford.edu/syllabus.html,深度学*:比如递归、分类、聚类和预测
http://blog.csdn.net/zouxy09/article/details/48903179
http://www.cnblogs.com/DjangoBlog/p/6201663.html
以上是gbdt的python,使用scikit库,不错的例子
学*资料:http://blog.jobbole.com/56256/
http://www.infoq.com/cn/articles/deep-learning-time-series-anomaly-detection
Scikit-Learn库已经实现了所有基本机器学*的算法
http://www.csdn.net/article/2015-09-16/2825716
书籍:Introduction to Machine Learning with Python;机器学*实战;机器学*
(周志华教授)

相关博客 http://www.cnblogs.com/denny402/

应用场景
广告点击率预测
营销效果预测
信用风险识别
故障预测
智能投顾
业务指标预测

机器学*

机器学*是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学*”为重点,一条自然、清晰的脉络。显然,机器学*是实现人工智能的一个途径,即以机器学*为手段解决人工智能中的问题。机器学*在*30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼*论、凸分析、计算复杂性理论等多门学科。机器学*理论主要是设计和分析一些让计算机可以自动“学*”的算法。机器学*算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学*算法中涉及了大量的统计学理论,机器学*与推断统计学联系尤为密切,也被称为统计学*理论。算法设计方面,机器学*理论关注可以实现的,行之有效的学*算法。很多推论问题属于无程序可循难度,所以部分的机器学*研究是开发容易处理的*似算法。
机器学*已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

目录
    1 定义
机器学*是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学*中改善具体算法的性能。
机器学*是对能通过经验自动改进的计算机算法的研究。
机器学*是用数据或以往的经验,以此优化计算机程序的性能标准。
    2 分类
监督学*从给定的训练数据集中学*出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学*的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学*算法包括回归分析和统计分类。
无监督学*与监督学*相比,训练集没有人为标注的结果。常见的无监督学*算法有聚类。
半监督学*介于监督学*与无监督学*之间。
增强学*通过观察来学*做成如何的动作。每个动作都会对环境有所影响,学*对象根据观察到的周围环境的反馈来做出判断。
    3 算法
    构造间隔理论分布:聚类分析和模式识别
        人工神经网络
        决策树
        感知器
        支持向量机
        集成学*AdaBoost
        降维与度量学*
        聚类
        贝叶斯分类器
    构造条件概率:回归分析和统计分类
        高斯过程回归
        线性判别分析
        最*邻居法
        径向基函数核
    通过再生模型构造概率密度函数:
        最大期望算法
        概率图模型:包括贝叶斯网和Markov随机场
        Generative Topographic Mapping
    *似推断技术:
        马尔可夫链
        蒙特卡罗方法
        变分法
    最优化:大多数以上方法,直接或者间接使用最优化算法。

培乐园课程

机器学*初级班
通过这个课程你可以对机器学*的领域中最为基础和广泛的几类算法有所了解,并能够独立实现相关算法,以及在实际工作中较熟练的进行相关知识的运用。同时可以令原本没有相关背景的人员建立一个较为完整机器学*的知识体系,为各类推荐,自然语言处理,互联网广告,视觉处理等应用领域的学*和工作提供必要的基础。

课程目录
章1机器学*基础和分类
1机器学*基础
2贝叶斯分类及应用
3K最*邻分类
4实训:训练朴素贝叶斯分类器进行文档分类

章2感知机和SVM
1线性感知机分类
2支持向量机
3理论性质和工具
4实训:SVM工具包使用

章3聚类
1聚类基础知识
2凝聚层次聚类
3K-means聚类
4基于GMM的聚类
5实训:利用K-means算法完成新闻聚类

章4回归
1线性回归
2逻辑回归
3正则化框架
4搜索广告算法
5实训:广告点击率预估

章5关联规则
1关联规则挖掘介绍
2Apriori算法
3FP-Growth算法
4协同过滤基础
5实训:电影演员关联规则挖掘

章6图模型与中文分词
1中文分词技术概述
2马尔科夫模型与语言模型
3隐马尔科夫模型及应用
4实训:训练HMM切词器,对任意输入字符串进行解码

机器学*高级班
通过这个课程你可以对机器学*算法或模型的原理及如何优化调整有更深刻的理解,然后在此基础上,创新地运用该技术解决更复杂的问题。特别针对专职进行算法研发方面的人员,以及有志于成为更高层次机器学*、数据挖掘方面人才的人员。

课程目录
章1主题模型
1概率图模型基础
2EM算法
3PLSA模型
4LDA模型
5实训:基于EM算法的PLSA训练程序并对新闻进行分类
6实训:基于Gibbs采样的LDA训练程序并对新闻进行分类

章2条件随机场与最大熵模型
1最大熵模型
2隐马模型
3条件随机场
4实训:基于尺度迭代法的最大熵模型的训练程序实现并用其进行新闻分类

章3SMO和CD算法
1SVM对偶问题
2SMO算法
3CD算法
4实训:编写基于SVM的单变量优化算法

章4L-BFGS迭代优化和OWLQN
1拟牛顿法
2L-BFGS算法
3OWLQN算法
4实训:基于LR回归问题,编写对应LBFGS算法

章5神经网络和深度学*
1神经网络
2什么是深度学*
3深层网络的基本构成单元
4深层网络的学*方法和应用成果
5实训1:基于MNIST数据集,写一个简单的单隐层神经网络分类算法;写一个自编码器学*MNIST特征
6实训2:用caffe进行imageNet分类和MNIST训练
7实训3:学*Theano基本操作,并用Theano写一个LSTM用于生成小说

章6决策树和模型融合
1决策树简介
2模型集成
3Bagging集成
4Boosting算法
5Tree-based&混合模型
6实训:使用Adaboost算法分类

相关资料网址

http://blog.csdn.net/jianjian1992/article/details/48688311

http://blog.csdn.net/a819825294?viewmode=contents

 

 

这样也可以出书?

 

https://www.zhihu.com/question/28544155/answer/125304347

 

博客 http://blog.greatgeekgrace.com/

 

https://www.zhihu.com/question/61732584

 

09年本科毕业,开发工作将*9年,最开始做过单片机,嵌入式Linux,后续做Android驱动以及系统开发,现在在阿里做Android开发工作。说实话,在阿里见识到了很多优秀的人,也让我有了很多思考。个人的开发经历(嵌入式Linux、android底层、Android APP开发)也算比较丰富了,总结一下这些经历,随着时间的推进,这些开发的门槛越来越低,最开始做单片机,每个寄存器都需要自己看看完以后才能搞功能,现在的单片机芯片,基本厂家都会提供一系列的驱动代码移植好的操作系统等,你只要关心自己的应用,随着时间的推移,现在有越来越多的应用代码框架开源出来,那么应用的门槛也会降低;Android系统的开发,说起来算是比较难的,但是需要的人有多少?无非国内几个手机厂商,而且随着google越抓越紧,系统开发工作也会越来越简单,APP开发就更明显门槛很低,而且以后会越来越低,做上多年以后发现你的技术,新人几个月就学会了,你跟新人差别不在技术上,而是在踩的坑多了,对问题思考比较深入。总的来讲这也是一个正常的趋势,一个行业最开始不成熟,需要大量优秀的人去做基础设施,基础设施越做越好,该行业就越来越简单,现在欧美等发达国家,少儿编程非常火热,也就是说我们现在的编程技能,以后会成为一个基础技能,就像现在大家都会用office一样。
那么问题来了,作为一个开发人员,知道这些趋势,该如何做职业规划,我现在的想法是去做算法,对于算法我个人的认为是,它是一个连接现实世界和计算机世界的桥梁,现实世界发现一个问题,那么我们怎么通过计算机来解决这个问题,与普通开发不同的是,普通开发是现有成熟技术的应用,而算法则需要自己去摸索并且实验找到一种方法来解决问题,往高了做,可以当做研究发paper,往低了做,可以做工具化降低高端技术应用门槛,是一个比较好的规划方向,也不知道我的想法对不对?
现在机器学*技术非常火热,总体来讲,往上它还有很多技术点没有攻破,比如训练所需资源太多,并不能像人一样思考等等,往下它已经开始工具化并且应用了,比如TensorFlow等各种开源框架,在语音识别,图像识别领域的应用等等。这个行业,可以说是正在基础建设的阶段,而不是像普通开发一样,已经成熟,并且在降低门槛的阶段,在将来的一段时间内,机器学*只要往高了走,还是相对门槛比较高的行业,但是不保证10年20年以后,人工智能已经非常强大,可以自己进化,不需要我们做研究了。既然想进入这个行业,那么问题来了,作为一个这么长时间开发经验的人来讲,年龄在这,开发功底在这,没有算法相关经验,怎么能进入这个行业呢?私下里我自学了一些机器学*方面的知识了:

自学
 自学andrew ng coursera上的机器学*课程,并完成所有作业。
 完成google 在Udacity上的深度学*课程,并完成所有作业。
 完成tensorflow官网的基础培训,包含tensorflow API以及tensorboard使用
 正在研读google出品的《深度学*》电子书,加深对深度学*的理解。

能力
 1.熟悉常用的机器学*算法:线性回归,逻辑回归,神经网络,SVM,KNN,K-means
 2.熟悉常见的降维方法:PCA,T-SNE
 3.熟悉常见的深度学*模型。CNN,RNN,LSTM
 4.熟悉基于内容的推荐系统,协同过滤算法。
 5.熟悉深度学*常见正则化方法:L1,L2
 6.熟悉tensorflow和tensorboard的用法。
 7.熟悉常见的图像处理模型(CNN+pool+dropout)以及自然语言处理常见模型(word2vec,语言生成模型)
 8.良好的Python基础,很强的编程能力
实践
 photoOCR 准确率:0.301
按照andrew ng课程里面讲解的方法实现,包含文字定位,文字分割和文字识别三部分,利用SVM作为分类器,使用MSCOCO数据库和自己创建数据库,可以做到定位并识别英文字母30.1%
 kaggle Digit Recognizer 竞赛成绩:0.99400 排名167/1696
使用tensorflow为深度学*框架,模型为:2层卷积+2层pool+2层全连接+dropout+L2正则化+softmax分类,最终获得0.99400 的准确率

 基于手机的AR(运动状态检测)算法 准确率:静止和步行90%+ 骑行和乘车:80%+
通过手机携带的加速度,陀螺仪,磁力计等传感器,来判断用户当前的运动状态(支持4种状态),研读论文提取传感器数据特征(均值 方差 傅里叶变换 信息熵等等),然后做数据特征筛选,训练不同分类器的(KNN,SVM,随机森林等),做效果对比,最终选择出最佳的数据特征和分类器

但是!但是!但是!我并没有很多的实践经验,找工作时,很多公司都要有经验的,投了一些简历,有很HR聊过天,却没有一个面试通知,在这个艰难的阶段,怎么去做才能顺利的转行??我该找一份什么样的工作?大家有什么好的思路??

 

 

 

https://www.zhihu.com/question/47345129

 

作者:find goo
链接:https://www.zhihu.com/question/47345129/answer/132120680
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

古代有苗族人养蛊,现代有人工智能算法竞争法。

给个无法穷举的最优化问题,把下面的算法写好后相互pk,得到最后是最优的。

不管俗不俗,斗蟋蟀是一种乐趣,斗算法也是一种交流方式。高校好这口子,公司也爱开会交流,国家也希望创新,个人想搭顺风车。

天下熙熙,皆为利来,天下壤壤,皆为利往。

智能算法是个框,想装什么有什么,什么数学,哲学,生物,艺术,硬件,量化交易,工程,管理,产品,大数据,数据挖掘,在线分析,都可以往这个框子里装。


这些算法里面又有很多分支,光一个神经网络资料都是汗牛充栋,一个遗传算法论文更是普天盖地,更不要说被谷歌阿法狗引爆的深度学*了。

你可知道数学中一个无穷大,可以争论几个世纪。学过排列组合的都知道,在原料很多时会造成组合指数爆炸,几十种算法,加百种数学模型,而且新的算法模型不断涌现,够高校科研几百年的原料了,写满个图书馆没问题。

古来圣贤皆寂寞 惟有算法留其名

纯数学经历几百年的发展,理论体系都比较成熟稳定,纯理论创新比较难,这些理论比较抽象很难运用到现实当中,在有了计算机算法后,数学家发现算法是数学的伊甸园,发展空间很大,实际用处也大,所各种算法只会层出不穷,因为研究数学的圣贤太寂寞了。

很多软件或硬件产品,还只是采集信息作用,让人来决策,市面上真正做到半人工智能程度的产品都是凤毛麟角,多数是大公司的云计算包装过的智能算法,科技成果转化率特别低,因为要懂这些算法和原理,又要懂产品编程的人非常少。

随着程序员的技术素质和工作年限的不断提高,不满足于原有if-else,crud的码农模式,很多开始学*人工智能算法转型,加强产品核心竞争力,市场需要比较大。

gov军事为了应用无人机,各类飞行器,同美国竞争,必然有智能算法技术实力加强武器的不足,经济上为了提高国际上产品竞争力进而收税,所以对大数据,工业化和信息化交叉,各类软件,电子产品都希望有智能算法支撑。不要忘了螳螂捕蝉黄雀在后的税费。

多方作用结果,人工智能算法热是必然的,人工智能+云计算+大数据+移动互联网,这几项技术是未来很长一段时间发展趋势。

k*邻算法

支持向量机

PCA算法

决策树

随机森林

叶贝斯算法

模糊数学算法

*似度分类

遗传算法

人工鱼群算法

蛙跳算法

蝙蝠算法

萤火虫算法

布谷鸟搜索算法

禁忌搜索算法

蚁群算法

量子模拟退火算法

粒子群算法

杂草算法

细菌觅食算法

人工神经网络

人工蜂群算法

深度学*
 
http://www.thuir.org/group/~mzhang/
 

机器学*目标

 

岗位分析

滴滴出行效能平台招聘
资深机器学*/深度学*工程师

20k-40k /杭州 / 经验3-5年 / 本科及以上 / 全职

职位诱惑:
带薪休假,丰厚年终奖,弹性工作
   
职位描述:

工作职责:
1. 负责团队AI算法模型设计和实施,负责机器学*/深度学*项目落地应用,包括算法原理、模型设计、模型训练、算法应用等内容;
2. 应用深度学*模型对文本进行模型训练、建模开发,对候选人才进行智能解析、智能评估、匹配推荐,使用人工智能的方式来提升招聘效率;
3. 规划大数据人才库方向和应用,提升AI智能招聘的效率和准确率,提升AI智能招聘行业的影响力;
4. 项目需要大量用到NLP相关技术、数据挖掘、深度学*等相关技术,能带领团队快速落地算法模型;

要求:
1. 具备深度学*相关背景,熟悉深度学*在NLP领域的应用,有相关工作背景;
2. 有一流互联网公司深度学*/AI的相关工作背景,或者在该领域有较深的学术研究;
3. 具备机器学*/深度学*相关的工程能力,熟悉hadoop生态、scikit-learn、tensorflow、caffe等; 
4. 3年以上算法工作经验,本科以上学历;
    
工作地址
杭州 - 西湖区 - 西溪 - 杭州市西湖区紫霞街80号西溪谷商务中心G座8-10F

 

腾讯QQ音乐招聘
机器学*算法工程师

25k-35k /深圳 / 经验3-5年 / 硕士及以上 / 全职 

职位诱惑:
优秀平台

职位描述:
岗位描述:
1. 负责大规模分布式深度学*算法架构的设计,开发,及调优工作;
2. 负责针对大规模结构化/非结构化数据,进行数据清洗,数据标注,特征挖掘,模型建模,统计分析,形成可落地产品建议;
3. 负责参与海量用户行为挖掘及建模,构建全维度用户画像系统,构建完备用户生命周期管理体系;
4. 负责机器学*尤其是深度学*前沿问题的探索与研究,结合可能的实际应用场景提供完备的技术解决方案;
5. 对音视频处理、自然语言处理等领域提供算法模型支持。

岗位要求:
1. 名校机器学*、人工智能、数据挖掘、自然语言处理等领域的计算机科学或其它人工智能相关专业硕士及以上学历;
2. 扎实可靠的编程能力,精通C/C++/JAVA/Python至少一门编程语言;
3. 有机器学*、人工智能、自然语言处理等领域领先企业的工作经验者优先;
4. 熟悉Hadoop、Hive、Spark等大规模数据处理技术;
5. 熟练掌握Tensorflow/Caffe/Theano等一个或多个深度学*平台的使用;
6. 有责任心,沟通能力佳,抗压能力强,表达能力出众者优先。

工作地址
深圳 - 南山区 - 科技园 - 万利达大厦

 

推荐阅读