{"cells": [{"cell_type": "markdown", "metadata": {"tags": ["module-prog", "module-dsml"]}, "source": ["(Merging_combining_grouping_sorting)=\n", "# Merging, combining, grouping and sorting\n", "[<!-- module-prog badge --><span class=\"module module-prog\">Programming for Geoscientists</span>](module-prog) [<!-- module-dsml badge --><span class=\"module module-dsml\">Data Science and Machine Learning for Geoscientists</span>](module-dsml) \n", "\n", "(Merging)=\n", "## Merging\n", "``` {index} Pandas: merging\n", "```\n", "Let's look at New Zealand earthquake data:"]}, {"cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th>year</th>\n", "      <th>month</th>\n", "      <th>day</th>\n", "      <th>utc_time</th>\n", "      <th>mag</th>\n", "      <th>lat</th>\n", "      <th>lon</th>\n", "      <th>depth_km</th>\n", "      <th>region</th>\n", "      <th>iris_id</th>\n", "      <th>timestamp</th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th>0</th>\n", "      <td>2009</td>\n", "      <td>7</td>\n", "      <td>15</td>\n", "      <td>09:22:31</td>\n", "      <td>7.8</td>\n", "      <td>-45.8339</td>\n", "      <td>166.6363</td>\n", "      <td>20.9</td>\n", "      <td>OFF W. COAST OF S. ISLAND, N.Z.</td>\n", "      <td>2871698</td>\n", "      <td>1247649751</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1</th>\n", "      <td>2016</td>\n", "      <td>11</td>\n", "      <td>13</td>\n", "      <td>11:02:59</td>\n", "      <td>7.8</td>\n", "      <td>-42.7245</td>\n", "      <td>173.0647</td>\n", "      <td>22.0</td>\n", "      <td>SOUTH ISLAND, NEW ZEALAND</td>\n", "      <td>5197722</td>\n", "      <td>1479034979</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2</th>\n", "      <td>2003</td>\n", "      <td>8</td>\n", "      <td>21</td>\n", "      <td>12:12:47</td>\n", "      <td>7.2</td>\n", "      <td>-45.0875</td>\n", "      <td>167.0892</td>\n", "      <td>6.8</td>\n", "      <td>SOUTH ISLAND, NEW ZEALAND</td>\n", "      <td>1628007</td>\n", "      <td>1061467967</td>\n", "    </tr>\n", "    <tr>\n", "      <th>3</th>\n", "      <td>2001</td>\n", "      <td>8</td>\n", "      <td>21</td>\n", "      <td>06:52:06</td>\n", "      <td>7.1</td>\n", "      <td>-36.8010</td>\n", "      <td>-179.7230</td>\n", "      <td>33.5</td>\n", "      <td>EAST OF NORTH ISLAND, N.Z.</td>\n", "      <td>1169374</td>\n", "      <td>998376726</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["   year  month  day  utc_time  mag      lat       lon  depth_km  \\\n", "0  2009      7   15  09:22:31  7.8 -45.8339  166.6363      20.9   \n", "1  2016     11   13  11:02:59  7.8 -42.7245  173.0647      22.0   \n", "2  2003      8   21  12:12:47  7.2 -45.0875  167.0892       6.8   \n", "3  2001      8   21  06:52:06  7.1 -36.8010 -179.7230      33.5   \n", "\n", "                            region  iris_id   timestamp  \n", "0  OFF W. COAST OF S. ISLAND, N.Z.  2871698  1247649751  \n", "1        SOUTH ISLAND, NEW ZEALAND  5197722  1479034979  \n", "2        SOUTH ISLAND, NEW ZEALAND  1628007  1061467967  \n", "3       EAST OF NORTH ISLAND, N.Z.  1169374   998376726  "]}, "execution_count": 1, "metadata": {}, "output_type": "execute_result"}], "source": ["import pandas as pd\n", "import numpy as np\n", "\n", "nz_eqs = pd.read_csv(\"../../geosciences/data/nz_largest_eq_since_1970.csv\")\n", "nz_eqs.head(4)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Let's create a second DataFrame that has latitude, longitude and depth (km) columns. And add an extra column with square root of depth:"]}, {"cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th>year</th>\n", "      <th>month</th>\n", "      <th>day</th>\n", "      <th>utc_time</th>\n", "      <th>mag</th>\n", "      <th>lat</th>\n", "      <th>lon</th>\n", "      <th>depth_km</th>\n", "      <th>region</th>\n", "      <th>iris_id</th>\n", "      <th>timestamp</th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th>0</th>\n", "      <td>2009</td>\n", "      <td>7</td>\n", "      <td>15</td>\n", "      <td>09:22:31</td>\n", "      <td>7.8</td>\n", "      <td>-45.8339</td>\n", "      <td>166.6363</td>\n", "      <td>20.9</td>\n", "      <td>OFF W. COAST OF S. ISLAND, N.Z.</td>\n", "      <td>2871698</td>\n", "      <td>1247649751</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1</th>\n", "      <td>2016</td>\n", "      <td>11</td>\n", "      <td>13</td>\n", "      <td>11:02:59</td>\n", "      <td>7.8</td>\n", "      <td>-42.7245</td>\n", "      <td>173.0647</td>\n", "      <td>22.0</td>\n", "      <td>SOUTH ISLAND, NEW ZEALAND</td>\n", "      <td>5197722</td>\n", "      <td>1479034979</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2</th>\n", "      <td>2003</td>\n", "      <td>8</td>\n", "      <td>21</td>\n", "      <td>12:12:47</td>\n", "      <td>7.2</td>\n", "      <td>-45.0875</td>\n", "      <td>167.0892</td>\n", "      <td>6.8</td>\n", "      <td>SOUTH ISLAND, NEW ZEALAND</td>\n", "      <td>1628007</td>\n", "      <td>1061467967</td>\n", "    </tr>\n", "    <tr>\n", "      <th>3</th>\n", "      <td>2001</td>\n", "      <td>8</td>\n", "      <td>21</td>\n", "      <td>06:52:06</td>\n", "      <td>7.1</td>\n", "      <td>-36.8010</td>\n", "      <td>-179.7230</td>\n", "      <td>33.5</td>\n", "      <td>EAST OF NORTH ISLAND, N.Z.</td>\n", "      <td>1169374</td>\n", "      <td>998376726</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["   year  month  day  utc_time  mag      lat       lon  depth_km  \\\n", "0  2009      7   15  09:22:31  7.8 -45.8339  166.6363      20.9   \n", "1  2016     11   13  11:02:59  7.8 -42.7245  173.0647      22.0   \n", "2  2003      8   21  12:12:47  7.2 -45.0875  167.0892       6.8   \n", "3  2001      8   21  06:52:06  7.1 -36.8010 -179.7230      33.5   \n", "\n", "                            region  iris_id   timestamp  \n", "0  OFF W. COAST OF S. ISLAND, N.Z.  2871698  1247649751  \n", "1        SOUTH ISLAND, NEW ZEALAND  5197722  1479034979  \n", "2        SOUTH ISLAND, NEW ZEALAND  1628007  1061467967  \n", "3       EAST OF NORTH ISLAND, N.Z.  1169374   998376726  "]}, "execution_count": 2, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs = pd.read_csv(\"../../geosciences/data/nz_largest_eq_since_1970.csv\")\n", "nz_eqs.head(4)"]}, {"cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th>lat</th>\n", "      <th>lon</th>\n", "      <th>depth_km</th>\n", "      <th>depth_sqrt</th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th>0</th>\n", "      <td>-45.8339</td>\n", "      <td>166.6363</td>\n", "      <td>20.9</td>\n", "      <td>4.571652</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1</th>\n", "      <td>-42.7245</td>\n", "      <td>173.0647</td>\n", "      <td>22.0</td>\n", "      <td>4.690416</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2</th>\n", "      <td>-45.0875</td>\n", "      <td>167.0892</td>\n", "      <td>6.8</td>\n", "      <td>2.607681</td>\n", "    </tr>\n", "    <tr>\n", "      <th>3</th>\n", "      <td>-36.8010</td>\n", "      <td>-179.7230</td>\n", "      <td>33.5</td>\n", "      <td>5.787918</td>\n", "    </tr>\n", "    <tr>\n", "      <th>4</th>\n", "      <td>-46.4964</td>\n", "      <td>164.8273</td>\n", "      <td>7.6</td>\n", "      <td>2.756810</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["       lat       lon  depth_km  depth_sqrt\n", "0 -45.8339  166.6363      20.9    4.571652\n", "1 -42.7245  173.0647      22.0    4.690416\n", "2 -45.0875  167.0892       6.8    2.607681\n", "3 -36.8010 -179.7230      33.5    5.787918\n", "4 -46.4964  164.8273       7.6    2.756810"]}, "execution_count": 3, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs2 = nz_eqs.iloc[:,5:8]\n", "nz_eqs2[\"depth_sqrt\"] = np.sqrt(nz_eqs2.depth_km)\n", "nz_eqs2.head()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Now, we would like to join the original 'nz_eqs' and 'nz_eqs2' DataFrames by common columns. We can use merge function that takes two DataFrames as arguments and we can decided which columns to merge with. In our case, nz_eqs and nz_eqs2 share three data columns: lat, lon, depth_km. If we choose to merge with latitude, longitude, the final DataFrame would keep depth_km columns from both DataFrames, named depth_km_x and depth_km_y. If we wanted to merge DataFrames with all three common columns, we can use:"]}, {"cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th>year</th>\n", "      <th>month</th>\n", "      <th>day</th>\n", "      <th>utc_time</th>\n", "      <th>mag</th>\n", "      <th>lat</th>\n", "      <th>lon</th>\n", "      <th>depth_km</th>\n", "      <th>region</th>\n", "      <th>iris_id</th>\n", "      <th>timestamp</th>\n", "      <th>depth_sqrt</th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th>0</th>\n", "      <td>2009</td>\n", "      <td>7</td>\n", "      <td>15</td>\n", "      <td>09:22:31</td>\n", "      <td>7.8</td>\n", "      <td>-45.8339</td>\n", "      <td>166.6363</td>\n", "      <td>20.9</td>\n", "      <td>OFF W. COAST OF S. ISLAND, N.Z.</td>\n", "      <td>2871698</td>\n", "      <td>1247649751</td>\n", "      <td>4.571652</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1</th>\n", "      <td>2016</td>\n", "      <td>11</td>\n", "      <td>13</td>\n", "      <td>11:02:59</td>\n", "      <td>7.8</td>\n", "      <td>-42.7245</td>\n", "      <td>173.0647</td>\n", "      <td>22.0</td>\n", "      <td>SOUTH ISLAND, NEW ZEALAND</td>\n", "      <td>5197722</td>\n", "      <td>1479034979</td>\n", "      <td>4.690416</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2</th>\n", "      <td>2003</td>\n", "      <td>8</td>\n", "      <td>21</td>\n", "      <td>12:12:47</td>\n", "      <td>7.2</td>\n", "      <td>-45.0875</td>\n", "      <td>167.0892</td>\n", "      <td>6.8</td>\n", "      <td>SOUTH ISLAND, NEW ZEALAND</td>\n", "      <td>1628007</td>\n", "      <td>1061467967</td>\n", "      <td>2.607681</td>\n", "    </tr>\n", "    <tr>\n", "      <th>3</th>\n", "      <td>2001</td>\n", "      <td>8</td>\n", "      <td>21</td>\n", "      <td>06:52:06</td>\n", "      <td>7.1</td>\n", "      <td>-36.8010</td>\n", "      <td>-179.7230</td>\n", "      <td>33.5</td>\n", "      <td>EAST OF NORTH ISLAND, N.Z.</td>\n", "      <td>1169374</td>\n", "      <td>998376726</td>\n", "      <td>5.787918</td>\n", "    </tr>\n", "    <tr>\n", "      <th>4</th>\n", "      <td>2004</td>\n", "      <td>11</td>\n", "      <td>22</td>\n", "      <td>20:26:23</td>\n", "      <td>7.1</td>\n", "      <td>-46.4964</td>\n", "      <td>164.8273</td>\n", "      <td>7.6</td>\n", "      <td>OFF W. COAST OF S. ISLAND, N.Z.</td>\n", "      <td>1888053</td>\n", "      <td>1101155183</td>\n", "      <td>2.756810</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["   year  month  day  utc_time  mag      lat       lon  depth_km  \\\n", "0  2009      7   15  09:22:31  7.8 -45.8339  166.6363      20.9   \n", "1  2016     11   13  11:02:59  7.8 -42.7245  173.0647      22.0   \n", "2  2003      8   21  12:12:47  7.2 -45.0875  167.0892       6.8   \n", "3  2001      8   21  06:52:06  7.1 -36.8010 -179.7230      33.5   \n", "4  2004     11   22  20:26:23  7.1 -46.4964  164.8273       7.6   \n", "\n", "                            region  iris_id   timestamp  depth_sqrt  \n", "0  OFF W. COAST OF S. ISLAND, N.Z.  2871698  1247649751    4.571652  \n", "1        SOUTH ISLAND, NEW ZEALAND  5197722  1479034979    4.690416  \n", "2        SOUTH ISLAND, NEW ZEALAND  1628007  1061467967    2.607681  \n", "3       EAST OF NORTH ISLAND, N.Z.  1169374   998376726    5.787918  \n", "4  OFF W. COAST OF S. ISLAND, N.Z.  1888053  1101155183    2.756810  "]}, "execution_count": 4, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs_merged = pd.merge(nz_eqs, nz_eqs2, how=\"left\",\n", "                         on=[\"lat\", \"lon\", \"depth_km\"])\n", "\n", "nz_eqs_merged.head()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["(Combining)=\n", "## Combining\n", "``` {index} Pandas: combining\n", "```\n", "If we want to join the same data from two tables, we can use the concat() function. Let's split the original data into two DataFrames and try to combine them back together:"]}, {"cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["Shapes of two DataFrames: (15000, 11) (13000, 11)\n", "Original DataFrame shape: (25000, 11)\n", "Concatenated DataFrame with duplicates shape: (28000, 11)\n", "Concatenated DataFrame without duplicates shape: (25000, 11)\n"]}], "source": ["# Extract two overlapping DataFrames\n", "nz_eqs3 = nz_eqs.iloc[:15000,:]\n", "nz_eqs4 = nz_eqs.iloc[12000:,:]\n", "\n", "print(\"Shapes of two DataFrames:\", nz_eqs3.shape, nz_eqs4.shape)\n", "\n", "# Reset the index from original DataFrame\n", "nz_eqs4.reset_index(drop=True, inplace=True)\n", "\n", "# Concatenate DataFrames\n", "# Use ignore_index to create a new index\n", "nz_eqs_concat = pd.concat([nz_eqs3, nz_eqs4], ignore_index=True)\n", "\n", "# Drop duplicates in the new DataFrame\n", "nz_eqs_concat_unique = nz_eqs_concat.drop_duplicates()\n", "\n", "print(\"Original DataFrame shape:\", nz_eqs.shape)\n", "print(\"Concatenated DataFrame with duplicates shape:\",\n", "      nz_eqs_concat.shape)\n", "print(\"Concatenated DataFrame without duplicates shape:\",\n", "      nz_eqs_concat_unique.shape)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["(Grouping)=\n", "## Grouping\n", "``` {index} Pandas: grouping\n", "```\n", "If we wanted to count how many times specific regions in New Zealand were hit by an earthquake, we can use groupby() function and count():"]}, {"cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [{"data": {"text/plain": ["region\n", "CHATHAM ISLANDS, N.Z. REGION          4\n", "COOK STRAIT, NEW ZEALAND           1381\n", "EAST OF NORTH ISLAND, N.Z.         1676\n", "NORTH ISLAND, NEW ZEALAND          6790\n", "NORTH OF NEW ZEALAND                 49\n", "NORTHWEST OF NEW ZEALAND              6\n", "OFF E. COAST OF N. ISLAND, N.Z.    7741\n", "OFF E. COAST OF S. ISLAND, N.Z.     182\n", "OFF W. COAST OF N. ISLAND, N.Z.     229\n", "OFF W. COAST OF S. ISLAND, N.Z.    1768\n", "SOUTH ISLAND, NEW ZEALAND          3119\n", "SOUTH OF CHATHAM ISLANDS              1\n", "SOUTH OF KERMADEC ISLANDS          2053\n", "SOUTHEAST OF AUSTRALIA                1\n", "Name: region, dtype: int64"]}, "execution_count": 6, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs.groupby('region').region.count()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["This analysis is also equivalent to pandas built-in value_counts() function:"]}, {"cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [{"data": {"text/plain": ["OFF E. COAST OF N. ISLAND, N.Z.    7741\n", "NORTH ISLAND, NEW ZEALAND          6790\n", "SOUTH ISLAND, NEW ZEALAND          3119\n", "SOUTH OF KERMADEC ISLANDS          2053\n", "OFF W. COAST OF S. ISLAND, N.Z.    1768\n", "EAST OF NORTH ISLAND, N.Z.         1676\n", "COOK STRAIT, NEW ZEALAND           1381\n", "OFF W. COAST OF N. ISLAND, N.Z.     229\n", "OFF E. COAST OF S. ISLAND, N.Z.     182\n", "NORTH OF NEW ZEALAND                 49\n", "NORTHWEST OF NEW ZEALAND              6\n", "CHATHAM ISLANDS, N.Z. REGION          4\n", "SOUTH OF CHATHAM ISLANDS              1\n", "SOUTHEAST OF AUSTRALIA                1\n", "Name: region, dtype: int64"]}, "execution_count": 7, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs.region.value_counts()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["We can also groupby two columns, e.g. region and year based on count, maximum and minimum depth in that year and region:"]}, {"cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th></th>\n", "      <th>len</th>\n", "      <th>min</th>\n", "      <th>max</th>\n", "    </tr>\n", "    <tr>\n", "      <th>region</th>\n", "      <th>year</th>\n", "      <th></th>\n", "      <th></th>\n", "      <th></th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th rowspan=\"3\" valign=\"top\">CHATHAM ISLANDS, N.Z. REGION</th>\n", "      <th>1992</th>\n", "      <td>1.0</td>\n", "      <td>33.0</td>\n", "      <td>33.0</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1993</th>\n", "      <td>1.0</td>\n", "      <td>33.0</td>\n", "      <td>33.0</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2003</th>\n", "      <td>2.0</td>\n", "      <td>33.0</td>\n", "      <td>33.0</td>\n", "    </tr>\n", "    <tr>\n", "      <th rowspan=\"2\" valign=\"top\">COOK STRAIT, NEW ZEALAND</th>\n", "      <th>1971</th>\n", "      <td>22.0</td>\n", "      <td>12.0</td>\n", "      <td>205.5</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1972</th>\n", "      <td>30.0</td>\n", "      <td>10.8</td>\n", "      <td>220.2</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["                                    len   min    max\n", "region                       year                   \n", "CHATHAM ISLANDS, N.Z. REGION 1992   1.0  33.0   33.0\n", "                             1993   1.0  33.0   33.0\n", "                             2003   2.0  33.0   33.0\n", "COOK STRAIT, NEW ZEALAND     1971  22.0  12.0  205.5\n", "                             1972  30.0  10.8  220.2"]}, "execution_count": 8, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs.groupby(['region', 'year']).depth_km.agg([len, min, max]).head()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["(Sorting)=\n", "## Sorting\n", "``` {index} Pandas: sorting\n", "```\n", "Groupby() function returns the values in the index order. Suppose we would like to know count of earthquakes in each year in descending order. We can use function sort_values() for that:"]}, {"cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th>len</th>\n", "      <th>min</th>\n", "      <th>max</th>\n", "    </tr>\n", "    <tr>\n", "      <th>year</th>\n", "      <th></th>\n", "      <th></th>\n", "      <th></th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th>1995</th>\n", "      <td>1631.0</td>\n", "      <td>0.0</td>\n", "      <td>403.5</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2001</th>\n", "      <td>941.0</td>\n", "      <td>0.0</td>\n", "      <td>430.7</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1985</th>\n", "      <td>892.0</td>\n", "      <td>0.0</td>\n", "      <td>362.4</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1997</th>\n", "      <td>794.0</td>\n", "      <td>0.0</td>\n", "      <td>600.0</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1984</th>\n", "      <td>724.0</td>\n", "      <td>0.0</td>\n", "      <td>448.6</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["         len  min    max\n", "year                    \n", "1995  1631.0  0.0  403.5\n", "2001   941.0  0.0  430.7\n", "1985   892.0  0.0  362.4\n", "1997   794.0  0.0  600.0\n", "1984   724.0  0.0  448.6"]}, "execution_count": 9, "metadata": {}, "output_type": "execute_result"}], "source": ["nz_eqs_years = nz_eqs.groupby(['year']).depth_km.agg([len, min, max])\n", "nz_eqs_years_sorted = nz_eqs_years.sort_values(by=\"len\", ascending=False)\n", "nz_eqs_years_sorted.head()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["# References\n", "The notebook was compiled based on:\n", "* [Pandas official Getting Started tutorials](https://pandas.pydata.org/docs/getting_started/index.html#getting-started)\n", "* [Kaggle tutorial](https://www.kaggle.com/learn/pandas)"]}], "metadata": {"celltoolbar": "Tags", "kernelspec": {"display_name": "Python 3", "language": "python", "name": "python3"}, "language_info": {"codemirror_mode": {"name": "ipython", "version": 3}, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.8"}}, "nbformat": 4, "nbformat_minor": 2}