Kaggle精选:6门极好的数据科学课程
发布时间:2021-06-04 18:53:00 所属栏目:大数据 来源:互联网
导读:Kaggle Kaggle是可以了解数据科学的网站,你可以在上面查看其他数据科学家们开发的机器学习模型,也可以查看数百行代码,参加机器学习竞赛,从大量有用的数据集中下载资源,最终修炼成更优秀的数据科学家。 其上有许多直击重点的好课,不同于其他常见的数据
Kaggle
Kaggle是可以了解数据科学的网站,你可以在上面查看其他数据科学家们开发的机器学习模型,也可以查看数百行代码,参加机器学习竞赛,从大量有用的数据集中下载资源,最终修炼成更优秀的数据科学家。
其上有许多直击重点的好课,不同于其他常见的数据科学课程,你不必花上数周或数月,可以在几小时或几天内就完成整套课程。
课程
这些课程中有些非常简单,而有些则在学习数据科学和实践技能方面具有独特性和优势,能让你成为与众不同的数据科学家。这些课程由数据科学、机器学习和人工智能的领军者教授或创建。向下拉动课程列表就可以在开始新课程之前看到所需要的必备技能。
其他平台上的许多课程可能会注重特定的函数、列表、数组、查询技术,但是Kaggle的这些课程始终注重它们与数据科学项目的联系,以帮助学习者了解和改进整个数据科学过程。下面列出这14门课程:
Python
机器学习基础
中级机器学习
数据可视化
Pandas
特征工程
深度学习
SQL基础
高级SQL
地理空间分析
微挑战
机器学习的可解释性
自然语言处理
游戏人工智能和强化学习基础
Kaggle精选:6门精品数据科学课程
其中有6门我力荐的精品课程:
1. 特征工程
这门课程之所以重要,是因为大多数数据科学家们在职业生涯中都不会收到一个完美的精选数据集,能够直接纳入他们的模型。它在实际应用中是不可或缺的,你总是需要完善特征工程的艺术。本课程重点介绍基线模型、分类编码、特征生成和特征选择的过程。
基线模型:在基线模型部分,学习者会练习加载数据、准备目标列、转换时间戳、准备分类变量、创建训练、验证和测试拆分、训练模型,以及对该模型进行预测和评估。
分类编码:特征工程这部分的优势是假定学习者熟悉独热编码(one-hot encoding)和级别编码(level encoding)。它提出了一些笔者以前不知道的新方法,包括计数编码、目标编码和CatBoost编码。
特征生成:现在将介绍本课程真正精妙的部分,即生成特征。该主题涵盖交互(结合分类变量)以及时间和数字特征(与课程的特定示例相关)。
特征选择:特征太多会导致模型不佳并难以使用。本部分介绍单变量特征选择和L1正则化。虽然笔者知道并曾使用过这些方法,但完全不了解sklearn中的feature_selection库,包括SelectKBest、f_classif和SelectFromModel。
![]() (编辑:广安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |