Kaggle实战之Titanic 置顶 | 发表于 2019-02-27 | | 热度: ℃ 字数统计: 1.7k 字 | 阅读时长 ≈ 8 分钟 题目来自:Titanic参考资料来自:An Interactive Data Science TutorialTitanic 生存预测比赛是一个二分类问题,根据乘客的信息来判断是否在沉船事故中存活了下来。 首先还是导入必要的库: 12345678910111213141516171819202122 ... 阅读全文 »
主成成分分析 PCA 发表于 2019-03-30 | | 热度: ℃ 字数统计: 968 字 | 阅读时长 ≈ 3 分钟 概念PCA(Principal components analysis)是一种分析和简化数据的技术,常用于减少数据集的维度,同时保持数据集中对方差贡献最大的特征,用数据里最主要的方面来代替原始数据,在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用. 其方法主要是通过对协方差矩阵进行特征分解,以得 ... 阅读全文 »
词嵌入模型Word2vec 发表于 2019-03-24 | | 热度: ℃ 字数统计: 783 字 | 阅读时长 ≈ 2 分钟 从one-hot 说起要想把自然语言交给机器学习来处理,就必须得先将语言数值化,将语言转为数值的产物也就是词向量. 最简单的词向量就是one-hot,顾名思义,每个词向量的长度是整个词典的大小,其中只有一个1,其余全为0,1所对应的位置也就是这个词在词典中的位置. one-hot 有两个缺点: o ... 阅读全文 »
五天数据清理挑战 发表于 2019-03-01 | | 热度: ℃ 字数统计: 1.8k 字 | 阅读时长 ≈ 8 分钟 具体内容来源及文件下载请到:Data Cleaning Challenge Day1:Handling missing valuesTake a first look at the data导入库和读取csv文件不再赘述!首先,检查是否有缺失值 12# 查看5行数据nfl_data.sample(5 ... 阅读全文 »
《廖雪峰:SQL教程》笔记 发表于 2019-02-10 | | 热度: ℃ 字数统计: 2.5k 字 | 阅读时长 ≈ 9 分钟 什么是SQL 简单地说,SQL就是访问和处理关系数据库的计算机标准语言具体来说,SQL是结构化查询语言Structured Query Language的缩写,用来访问和操作数据库系统。SQL语句既可以查询数据库中的数据,也可以添加、更新和删除数据库中的数据,还可以对数据库进行管理和维护操作。 数 ... 阅读全文 »
《廖雪峰:Git教程》笔记 发表于 2019-02-03 | | 热度: ℃ 字数统计: 1.5k 字 | 阅读时长 ≈ 5 分钟 Git是什么? Git是目前世界上最先进的分布式版本控制系统 什么是版本控制系统? 对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理 集中式和分布式版本控制系统有什么区别? CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统集中式版本控制系统,版本库是集中存放在 ... 阅读全文 »
Python之pandas 发表于 2019-01-29 | | 热度: ℃ 字数统计: 3.9k 字 | 阅读时长 ≈ 20 分钟 Series series是一个像数组一样的一维序列,并伴有一个数组表示label,叫做index,默认的index是0,1,2…,当然也可以在创建Series时设定好index 123456789101112131415obj = pd.Series([4, 7, 5, -3])obj# 0 ... 阅读全文 »
LeetCode之哈希表 发表于 2019-01-27 | | 热度: ℃ 字数统计: 5.1k 字 | 阅读时长 ≈ 23 分钟 705. 设计哈希集合难度:容易要求 不使用任何内建的哈希表库设计一个哈希集合具体地说,你的设计应该包含以下的功能add(value):向哈希集合中插入一个值。contains(value) :返回哈希集合中是否存在这个值。remove(value):将给定值从哈希集合中删除。如果哈希集合中没有这个 ... 阅读全文 »
Python之numpy 发表于 2019-01-26 | | 热度: ℃ 字数统计: 990 字 | 阅读时长 ≈ 4 分钟 numpy.randomnumpy.random.rand() numpy.random.rand(d0,d1,…,dn) 根据给定维度生成[0,1)之间的数据,包含0,不包含1 返回值为指定维度的array 1234np.random.rand(3,2)# array([[0.77342926 ... 阅读全文 »
人工智能复习笔记 发表于 2019-01-26 | | 热度: ℃ 字数统计: 2.5k 字 | 阅读时长 ≈ 8 分钟 四大流派:符号主义(专家系统),连接主义(人工神经网络),行为主义(机器人),统计主义(机器学习)机器学习:监督,半监督,非监督,强化,迁移线性回归 model: loss function: 参数更新: 逻辑回归 model: loss function: 参数更新: 推导为什么不能用均方差代替 ... 阅读全文 »