import pandas as pd
import numpy as np

d = {'int': pd.Series([1, None], dtype=np.dtype("object")),
    'float': pd.Series([3.0, np.NaN], dtype=np.dtype("float")),
    'float2': pd.Series([3.0, None], dtype=np.dtype("float")),
    'str': pd.Series(['test', None], dtype=np.dtype("str")),
    'str2': pd.Series(['test', np.NaN], dtype=np.dtype("str")),
    "bool": pd.Series([True, np.nan], dtype=np.dtype("object")),
    "date": pd.Series(['1/1/2000', np.NaN], dtype=np.dtype("datetime64[ns]")),
    "date2": pd.Series(['1/1/2000', None], dtype=np.dtype("datetime64[ns]"))}
df1 = pd.DataFrame(data=d)

df1['date'] = pd.to_datetime(df1['date'], errors='coerce')
df1.info()
df1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   int     1 non-null      object        
 1   float   1 non-null      float64       
 2   float2  1 non-null      float64       
 3   str     1 non-null      object        
 4   str2    1 non-null      object        
 5   bool    1 non-null      object        
 6   date    1 non-null      datetime64[ns]
 7   date2   1 non-null      datetime64[ns]
dtypes: datetime64[ns](2), float64(2), object(4)
memory usage: 256.0+ bytes


df1[['int', 'str', 'str2', 'bool', 'date']] = df1[['int', 'str', 'str2', 'bool', 'date']].convert_dtypes()
df1[['float', 'float2']] = df1[['float', 'float2']].convert_dtypes(convert_integer=False)
df1.info()
df1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   int     1 non-null      Int64         
 1   float   1 non-null      Float64       
 2   float2  1 non-null      Float64       
 3   str     1 non-null      string        
 4   str2    1 non-null      string        
 5   bool    1 non-null      boolean       
 6   date    1 non-null      datetime64[ns]
 7   date2   1 non-null      datetime64[ns]
dtypes: Float64(2), Int64(1), boolean(1), datetime64[ns](2), string(2)
memory usage: 250.0 bytes


# import the famous Iris dataset
df_iris = pd.read_csv('iris.data')
df_iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   5.1          149 non-null    float64
 1   3.5          149 non-null    float64
 2   1.4          149 non-null    float64
 3   0.2          149 non-null    float64
 4   Iris-setosa  149 non-null    object 
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


df_iris = df_iris.mask(np.random.random(df_iris.shape) < .1)
df_iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   5.1          134 non-null    float64
 1   3.5          135 non-null    float64
 2   1.4          139 non-null    float64
 3   0.2          133 non-null    float64
 4   Iris-setosa  137 non-null    object 
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


df_iris.isnull().head()


df_iris.notnull().head()


df_iris.isnull().sum()

5.1            15
3.5            14
1.4            10
0.2            16
Iris-setosa    12
dtype: int64


df_iris_no_nulls = df_iris.dropna()
print(df_iris_no_nulls.shape)
df_iris_no_nulls.isnull().sum()

(92, 5)

5.1            0
3.5            0
1.4            0
0.2            0
Iris-setosa    0
dtype: int64


df_iris['0.2'].mean()

1.2067669172932338


df_iris['0.2'].isnull().sum()

16


df_iris['0.2'] = df_iris['0.2'].replace(np.NaN, df_iris['0.2'].mean())


df_iris['0.2'].isnull().sum()

0


df_iris['0.2'].value_counts().head()

0.200000    25
1.206767    16
1.300000    12
1.500000    10
1.800000     9
Name: 0.2, dtype: int64


df_iris['Iris-setosa'].isnull().sum()

12


df_iris['Iris-setosa'] = df_iris['Iris-setosa'].fillna('na')


df_iris[df_iris['Iris-setosa'] == 'na'].count()[4]

12

Understanding Nulls In Pandas

Working with Nulls¶

Finding nulls¶

Handling Nulls¶

Deleting Rows¶

Replacing with mean or median¶

Give nulls your own value¶

Isnull vs isna and notnull vs notna¶

	int	float	float2	str	str2	bool	date	date2
0	1	3.0	3.0	test	test	True	2000-01-01	2000-01-01
1	None	NaN	NaN	None	NaN	NaN	NaT	NaT

	5.1	3.5	1.4	0.2	Iris-setosa
0	True	False	False	False	True
1	False	True	False	False	False
2	False	False	False	True	False
3	False	False	False	False	True
4	False	False	True	False	False