2020年入门数据分析选择Python还是SQL？七个常用操作对比！

SQL和Python几乎是当前数据分析师必须要了解的两门语言，它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作，希望可以帮助掌握其中一种语言的读者快速了解另一种方法!

成都创新互联公司专业提供电信机房托管服务，为用户提供五星数据中心、电信、双线接入解决方案，用户可自行在线购买电信机房托管服务，并享受7*24小时金牌售后服务。

在阅读本文前，你可以访问下方网站下载本文使用的示例数据，并导入MySQL与pandas中，一边敲代码一边阅读!

https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中，我们可以使用SELECT语句从表选择数据，结果被存储在一个结果表中，语法如下：

 
 
 
 
  
  
  
  SELECT column_name,column_name
  
  
  
  FROM table_name;

如果不想显示全部的记录，可以使用TOP或LIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

 
 
 
 
  
  
  
  SELECT total_bill, tip, smoker, time
  
  
  
  FROM tips
  
  
  
  LIMIT 5;

而在pandas中，我们可以通过将列名列表传递给DataFrame来完成列选择

在SQL中，进行选择的同时还可以进行计算，比如添加一列

 
 
 
 
  
  
  
  SELECT *, tip/total_bill as tip_rate
  
  
  
  FROM tips
  
  
  
  LIMIT 5;

在pandas中使用DataFrame.assign()同样可以完成这个操作

二、查找

1. 单条件查找

在SQL中，WHERE子句用于提取那些满足指定条件的记录，语法如下

 
 
 
 
  
  
  
  SELECT column_name,column_name
  
  
  
  FROM table_name
  
  
  
  WHERE column_name operator value;

比如查找示例数据中time = dinner的记录

 
 
 
 
  
  
  
  SELECT *
  
  
  
  FROM tips
  
  
  
  WHERE time = 'Dinner'
  
  
  
  LIMIT 5;

而在pandas中，按照条件进行查找则可以有多种形式，比如可以将含有True/False的Series对象传递给DataFrame，并返回所有带有True的行

2. 多条件查找

在SQL中，进行多条件查找可以使用AND/OR来完成

在pandas中也有类似的操作

3. 查找空值

在pandas检查空值是使用notna()和isna()方法完成的。

 
 
 
 
  
  
  
  frame[frame['col1'].notna()]

在SQL中可以使用IS NULL和IS NOT NULL完成

 
 
 
 
  
  
  
  SELECT *
  
  
  
  FROM frame
  
  
  
  WHERE col2 IS NULL;
  
  
  
  
  
  
  
  SELECT *
  
  
  
  FROM frame
  
  
  
  WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATE

 
 
 
 
  
  
  
  UPDATE tips
  
  
  
  SET tiptip = tip*2
  
  
  
  WHERE tip < 2;

而在pandas中则有多种方法，比如使用loc函数

 
 
 
 
  
  
  
  tips.loc[tips['tip'] < 2, 'tip'] *= 2

四、删除

在SQL中使用DELETE

 
 
 
 
  
  
  
  DELETE FROM tips
  
  
  
  WHERE tip > 9;

在pandas中，我们选择应保留的行，而不是删除它们

 
 
 
 
  
  
  
  tipstips = tips.loc[tips['tip'] <= 9]

五、分组

在pandas中，使用groupby()方法实现分组。groupby()通常是指一个过程，在该过程中，我们希望将数据集分为几组，应用某些功能(通常是聚合)，然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如，通过对性别进行分组查询

 
 
 
 
  
  
  
  SELECT sex, count(*)
  
  
  
  FROM tips
  
  
  
  GROUP BY sex;

在pandas中的等价操作为

注意，在上面代码中，我们使用size()而不是count() 这是因为count()将函数应用于每一列，并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()或merge()进行连接，每种方法都有参数，可让指定要执行的联接类型(LEFT，RIGHT，INNER，FULL)或要联接的列。

现在让我们重新创建两组示例数据，分别用代码来演示不同的连接

 
 
 
 
  
  
  
  df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
  
  
  
     ....:                     'value': np.random.randn(4)})
  
  
  
     ....: 
  
  
  
  
  
  
  
  df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
  
  
  
     ....:                     'value': np.random.randn(4)})

1. 内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行，在SQL中实现内连接使用INNER JOIN

 
 
 
 
  
  
  
  SELECT *
  
  
  
  FROM df1
  
  
  
  INNER JOIN df2
  
  
  
    ON df1.key = df2.key;

在pandas中可以使用merge()

merge()提供了一些参数，可以将一个DataFrame的列与另一个DataFrame的索引连接在一起

2. 左/右外联接

在SQL中实现左/右外连接可以使用LEFT OUTER JOIN和RIGHT OUTER JOIN

 
 
 
 
  
  
  
  SELECT *
  
  
  
  FROM df1
  
  
  
  LEFT OUTER JOIN df2
  
  
  
    ON df1.key = df2.key;
  
  
  
    
  
  
  
  SELECT *
  
  
  
  FROM df1
  
  
  
  RIGHT OUTER JOIN df2
  
  
  
    ON df1.key = df2.key;

在pandas中实现同样可以使用merge()并指定how关键字为left或者right即可

3. 全连接

全连接返回左表和右表中的所有行，无论是否匹配，但并不是所有的数据库都支持，比如mysql就不支持，在SQL中实现全连接可以使用FULL OUTER JOIN

 
 
 
 
  
  
  
  SELECT *
  
  
  
  FROM df1
  
  
  
  FULL OUTER JOIN df2
  
  
  
    ON df1.key = df2.key;

在pandas中实现同样可以使用merge()并指定how关键字为outer

七、合并

SQL中UNION操作用于合并两个或多个SELECT语句的结果集，UNION与UNION ALL类似，但是UNION将删除重复的行。示例代码如下

 
 
 
 
  
  
  
  SELECT city, rank
  
  
  
  FROM df1
  
  
  
  UNION ALL
  
  
  
  SELECT city, rank
  
  
  
  FROM df2;
  
  
  
  /*
  
  
  
           city  rank
  
  
  
        Chicago     1
  
  
  
  San Francisco     2
  
  
  
  New York City     3
  
  
  
        Chicago     1
  
  
  
         Boston     4
  
  
  
    Los Angeles     5
  
  
  
  */

在pandas中可以使用concat()实现UNION ALL

上面是UNION ALL保留重复值，如果希望删除可以使用 drop_duplicates()

以上就是本文的全部内容，可以看到在不同的场景下不同的语言有着不同的特性，如果你想深入学习了解可以进一步查阅官方文档并多加练习!

网页题目：2020年入门数据分析选择Python还是SQL？七个常用操作对比！
本文链接：http://www.36103.cn/qtweb/news38/30338.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容