数据处理
数据转换
1 | import pandas |
数据运算
1 | #将总价*10000 |
切分
1 | #以“元”为分界对s进行切分,并获取切分后的第一个字符 |
匿名函数
1 | def removeDollar(e): |
其他
1 | def square(e): |
- 行列最值
1 | df = pandas.DataFrame([ |
1 | #对df的每一行数据应用匿名函数进行计算,匿名函数实现对每一行数据的最大值与最小值计算 |
例题
导入数据
1 | import pandas |
实操
1 | import numpy as np |
时间转换
1 | #导入时间处理库datetime |
时间<—->String
1 | #将时间转换成字符串 |
时间回溯
1 | from datetime import timedelta |
时间戳
1 | from time import mktime |
例题
数据导入
1 | import pandas |
时间转换
1 | #将df的'张贴日期'列转换成日期(datetime)形式 |
数据重塑
数据导入
1 | import pandas as pd |
数据操作
- one-hot
1 | #将df的"朝向"列数据进行one-hot处理,即转换成虚拟变量 |
- 删除数据
1 | #删除df的'朝向'数据 |
数据透视表
1 | #利用数据透视表绘制以下表格 |
- 转换
1 | #将上面表格的行索引与列索引进行对换 |
利用转置函数实现上面的行索引与列索引对换
1 | df2.T |
- 表
1 | #调整上面的参数,绘制以下表格 |
- unstack函数
1 | #利用unstack函数转换成宽表格 |
- stack函数
1 | #利用stack转换成长表格 |
综合练习
1 | import pandas |
整理文章关键词
空单元格处理
1 | #判断df中每一列是否有空的单元格 |
关键字处理
1 | df['keyword'].head(5) |
正则表达法抽取时间与源数据
1 | df['source'].head() |
转换时间格式
1 | #将pandas整列数据转换成日期格式 |
刪除Source
1
2
3
4
#删除source列数据
del df['source']
df.head(3)
1 | #删除source列数据 |
数据