# импорт библиотек
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display, Markdown
import os
import seaborn as sns
import numpy as np
from datetime import datetime as dt
import matplotlib.ticker as mticker
from plotly import graph_objects as go
import sys
from folium import Map, Choropleth, Marker, DivIcon
from folium.plugins import MarkerCluster
import scipy.stats as st

# проверка на возможность выполнения Mardown
if 'ipykernel' in sys.modules:
    flag_md = 1
else:
    flag_md = 0

# чтение файла с данными и сохранение в датафрейм
dir1 = '/datasets/'
dir2 = '/Users/alexslobodskoj/Data_Analyst/'
places_pth = 'moscow_places.csv'


if os.path.exists(dir1):
    df_places = pd.read_csv(dir1 + places_pth)
elif os.path.exists(dir2):
    df_places = pd.read_csv(dir2 + places_pth)
else:
    print('Something is wrong')

# датафрейм о заведениях
# вывод первых 5 строчек 
display(df_places.head())

# вывод основной информации
df_places.info()

# задание размера области графиков
plt.figure(figsize=(12, 8))

# гистограмма для столбца 'rating'
plt.subplot(2, 2, 1)
sns.histplot(df_places['rating'])
plt.title('Распределение заведений рейтингу')
plt.ylabel('Количество')
plt.xlabel('Рейтинг')

# гистограмма для столбца 'middle_avg_bill'
plt.subplot(2, 2, 2)
sns.histplot(df_places['middle_avg_bill'])
plt.title('Распределение заведений по среднему чеку')
plt.ylabel('Количество')
plt.xlabel('Средний чек, руб')

# гистограмма для столбца 'middle_coffee_cup'
plt.subplot(2, 2, 3)
sns.histplot(df_places['middle_coffee_cup'])
plt.title('Распределение заведений по стоимости чашки капучино')
plt.ylabel('Количество')
plt.xlabel('Стоимость чашки, руб')

# гистограмма для столбца 'seats'
plt.subplot(2, 2, 4)
sns.histplot(df_places['seats'])
plt.title('Распределение заведений по количеству мест')
plt.ylabel('Количество')
plt.xlabel('Количество посадочных мест')
plt.tight_layout()
plt.show()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               8406 non-null   object 
 1   category           8406 non-null   object 
 2   address            8406 non-null   object 
 3   district           8406 non-null   object 
 4   hours              7870 non-null   object 
 5   lat                8406 non-null   float64
 6   lng                8406 non-null   float64
 7   rating             8406 non-null   float64
 8   price              3315 non-null   object 
 9   avg_bill           3816 non-null   object 
 10  middle_avg_bill    3149 non-null   float64
 11  middle_coffee_cup  535 non-null    float64
 12  chain              8406 non-null   int64  
 13  seats              4795 non-null   float64
dtypes: float64(6), int64(1), object(7)
memory usage: 919.5+ KB

# запись названий столбцов в список
columns_to_convert = ['middle_avg_bill', 'middle_coffee_cup', 'seats']

# изменение типа данных в столбцах
for col in columns_to_convert:
    df_places[col] = \
    (
        df_places[col]
        .round()
        .astype(pd.Int64Dtype())
    )

category
кафе               2378
ресторан           2043
кофейня            1413
бар,паб             765
пиццерия            633
быстрое питание     603
столовая            315
булочная            256
Name: count, dtype: int64

district
Центральный административный округ         2242
Северный административный округ             900
Южный административный округ                892
Северо-Восточный административный округ     891
Западный административный округ             851
Восточный административный округ            798
Юго-Восточный административный округ        714
Юго-Западный административный округ         709
Северо-Западный административный округ      409
Name: count, dtype: int64

price
средние          2117
выше среднего     564
высокие           478
низкие            156
Name: count, dtype: int64

count         3149.0
mean      958.053668
std      1009.732845
min              0.0
25%            375.0
50%            750.0
75%           1250.0
max          35000.0
Name: middle_avg_bill, dtype: Float64

count         535.0
mean     174.721495
std       88.951103
min            60.0
25%           124.5
50%           169.0
75%           225.0
max          1568.0
Name: middle_coffee_cup, dtype: Float64

count        4790.0
mean     108.375574
std      122.863723
min             0.0
25%            40.0
50%            75.0
75%           140.0
max          1288.0
Name: seats, dtype: Float64

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# запись названий столбцов в список
columns_to_convert = ['middle_avg_bill', 'middle_coffee_cup', 'seats']

# изменение типа данных в столбцах
for col in columns_to_convert:
    df_places[col] = \
    (
        df_places[col]
        .round()
        .astype(pd.Int64Dtype())
    )

# создание столбца `street`
df_places['street'] = df_places['address'].str.extract(r',\s*([^,]+),')
df_places['street'] = df_places['street'].fillna(df_places['address'].str.split(', ').str[1])

# создание столбца `is_24_7`
df_places['is_24_7'] = (
    df_places['hours'].str.contains("ежедневно", na=False) &
    df_places['hours'].str.contains("круглосуточно", na=False)
)

# вывод названий таблиц и количество явных дубликатов в них
message = (
    f'Удалим **{df_places.duplicated().sum()}**'
    f' явных дубликатов строк'
) if df_places.duplicated().sum() > 0 else f'Нет явных дубликатов в таблице'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# запись названий столбцов в список
columns_to_convert = ['category', 'district', 'price']

# # вывод значений каждого столбца
for col in columns_to_convert:
    display(df_places[col].value_counts(sort=True, ascending=False, dropna=True))
    print()

category
кафе               2378
ресторан           2043
кофейня            1413
бар,паб             765
пиццерия            633
быстрое питание     603
столовая            315
булочная            256
Name: count, dtype: int64

district
Центральный административный округ         2242
Северный административный округ             900
Южный административный округ                892
Северо-Восточный административный округ     891
Западный административный округ             851
Восточный административный округ            798
Юго-Восточный административный округ        714
Юго-Западный административный округ         709
Северо-Западный административный округ      409
Name: count, dtype: int64

price
средние          2117
выше среднего     564
высокие           478
низкие            156
Name: count, dtype: int64

# создание унифицированного столбца с адресом
df_places['address_uni'] = \
(
    df_places['address']
    .str.replace('Москва, ', '', regex=False)
    .str.replace(', стр. ', 'с', regex=False)  
    .str.replace(', корп. ', 'к', regex=False)          
    .str.replace('  ', ' ', regex=False)  
    .str.replace(',', '', regex=False)
    .str.lower()
)

# создание унифицированного столбца с именем
df_places['name_uni'] = \
(
    df_places['name']
    .str.lower()
    .str.replace('  ', ' ', regex=False)
    .str.replace(',', '', regex=False)
)

# поиск дублей
df_agg = \
(
    df_places
    .groupby(['name_uni', 'address_uni'])
    .size()
    .reset_index(name='count')
    .query('count > 1')
)

# проверка на дубли
if (df_agg['count'] > 1).any():
    
    message = (
        f'Есть **{len(df_agg)}** дубликатов заведений по одному адресу.\n\n'
        f'Оставим первое вхождение дубликата для дальнейшего анализа.'
    )
    
else:
    message = (
        f'Нет дубликатов заведений по одному адресу.'
    )
    
# вывод сообщения про дубликаты 
if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# удаление дубликатов
df_places.drop_duplicates(
    subset=['address_uni', 'name_uni'], 
    keep='first',
    inplace=True
)

# удаление временных столбцов
df_places.drop(['address_uni', 'name_uni'], axis=1, inplace=True)

# числовое описание распределения серднего чека
df_places['middle_avg_bill'].describe()

count         3149.0
mean      958.053668
std      1009.732845
min              0.0
25%            375.0
50%            750.0
75%           1250.0
max          35000.0
Name: middle_avg_bill, dtype: Float64

# фильтр заведений с нулевым средним чеком
filter_places = df_places.query('middle_avg_bill == 0').index

# заполнение нулевых значений средними значениями из категории
df_places.loc[filter_places, 'middle_avg_bill'] = \
(
    df_places
    .groupby(['category'])['middle_avg_bill']
    .transform(lambda x: int(x.median()))
)

# вывод графика распределения среднего чека
plt.figure(figsize=(8, 4))
sns.boxplot(
data=df_places,
x='middle_avg_bill',
linewidth=.7
)
plt.title('Распределение величины среднего чека')
plt.ylabel('')
plt.xlabel('Средний чек')
plt.tight_layout()
plt.show()

# удаление строк со средним чеком больше или равно 10 тыс.руб.
df_places.drop(df_places.query('middle_avg_bill >= 10000').index, inplace=True)

df_places['middle_coffee_cup'].describe()

count         535.0
mean     174.721495
std       88.951103
min            60.0
25%           124.5
50%           169.0
75%           225.0
max          1568.0
Name: middle_coffee_cup, dtype: Float64

# вывод графика распределения стоимости чашки капучино
plt.figure(figsize=(8, 4))
sns.boxplot(
data=df_places,
x='middle_coffee_cup',
linewidth=.7
)
plt.title('Распределение стоимости чашки капучино')
plt.ylabel('')
plt.xlabel('Стоимость')
plt.tight_layout()
plt.show()

# исправление стоимости чашки капучино
filter_places = df_places.query('middle_coffee_cup > 1000').index
df_places.loc[filter_places, 'middle_coffee_cup'] = 260

df_places['seats'].describe()

count        4790.0
mean     108.375574
std      122.863723
min             0.0
25%            40.0
50%            75.0
75%           140.0
max          1288.0
Name: seats, dtype: Float64

# вывод графика распределения количества посадочных мест
plt.figure(figsize=(8, 4))
sns.boxplot(
data=df_places,
x='seats',
linewidth=.7
)
plt.title('Распределение количества посадочных мест')
plt.ylabel('')
plt.xlabel('Количество')
plt.tight_layout()
plt.show()

# фильтр заведений по количеству мест
filter_places = df_places['seats'] == 0

# заполнение нулевых значений средними значениями из категории
df_places.loc[filter_places, 'seats'] = \
(
    df_places
    .groupby(['category'])['seats']
    .transform(lambda x: int(x.median()))
)

# вывод информации о доле пропущенных значений
na_series = df_places.isna().sum() > 0
df_na = pd.DataFrame(df_places.isna().mean()[na_series])
df_na.style.format("{:.2%}").background_gradient('coolwarm')

# проверка наличия NA в `middle_coffee_cup` когда  `avg_bill` ∈ "Цена чашки"
count_na = len(df_places[
    df_places['avg_bill'].str.contains("Цена чашки", na=False) & 
    df_places['middle_coffee_cup'].isna()
])

# вывод возможного количества NA для заполнения
message = (
    f'Можно заполнить **{count_na}** пропущенных значений в `middle_coffee_cup`'
) if count_na > 0 else f'Нет пропусков в `middle_coffee_cup` для заполнения из `avg_bill`'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# проверка наличия NA в `avg_bill` когда `middle_coffee_cup` непустое
count_na = len(df_places[
    df_places['avg_bill'].isna() & 
    df_places['middle_coffee_cup'].notna()
])
# вывод возможного количества NA для заполнения
message = (
    f'Можно заполнить **{count_na}** пропущенных значений в `avg_bill`'
) if count_na > 0 else f'Нет пропусков в `avg_bill` для заполнения из `middle_coffee_cup`'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# проверка наличия NA в `middle_avg_bill` когда  `avg_bill` ∈ "Средний счёт"
count_na = len(df_places[
    df_places['avg_bill'].str.contains("Средний счёт", na=False) & 
    df_places['middle_avg_bill'].isna()
])

# вывод возможного количества NA для заполнения
message = (
    f'Можно заполнить **{count_na}** пропущенных значений в `middle_avg_bill`'
) if count_na > 0 else f'Нет пропусков в `middle_avg_bill` для заполнения из `avg_bill`'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# проверка наличия NA в `avg_bill` когда `middle_coffee_cup` непустое
count_na = len(df_places[
    df_places['avg_bill'].isna() & 
    df_places['middle_avg_bill'].notna()
])
# вывод возможного количества NA для заполнения
message = (
    f'Можно заполнить **{count_na}** пропущенных значений в `avg_bill`'
) if count_na > 0 else f'Нет пропусков в `avg_bill` для заполнения из `middle_avg_bill`'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# датафрейм цен чашки капучино в кофейнях
df_agg = \
(
    df_places
    .query('category == "кофейня"')
    .groupby(['category', 'price'], as_index=False)['middle_coffee_cup']
    .median()
    .dropna()
    .sort_values(by='middle_coffee_cup')
)

# функция для определения категории на основе цены чашки капучино
def price_from_cup(row, df):
    
    if row['middle_coffee_cup'] <= df['middle_coffee_cup'].min():
        return 'низкие'
    elif row['middle_coffee_cup'] > df['middle_coffee_cup'].max():
        return 'высокие'
    
    for index, row_df in df.iterrows():
        if row['middle_coffee_cup'] <= row_df['middle_coffee_cup']:
            return row_df['price']
    
    return None

# фильтр заведений с пропущенными категориями цен
filter_places = \
(
    df_places['price'].isna() & 
    df_places['middle_coffee_cup'].notna()&
    (df_places['category'] == "кофейня")
)

# заполнение пропусков категорий цен
df_places.loc[filter_places, 'price'] = df_places.loc[filter_places].apply(
    lambda row: price_from_cup(row, df_agg), axis=1
)

# добавление нового столбца через объединение
df_places = df_places.merge(df_agg, on=['category', 'price'], how='left', suffixes=('', '_df_agg'))

# фильтр заведений с пропусками в стоимости чашки кофе
filter_places = \
(
    df_places['middle_coffee_cup'].isna() & 
    df_places['price'].notna() &
    (df_places['category'] == "кофейня")
)

# заполнение пропущенных значений 'middle_coffee_cup'
df_places.loc[filter_places, 'middle_coffee_cup'] = df_places.loc[filter_places, 'middle_coffee_cup_df_agg']

# удаление промежуточного столбца
df_places.drop('middle_coffee_cup_df_agg', axis=1, inplace=True)

# датафрейм среднего чека по категориям заведений
df_agg = \
(
    df_places
    .groupby(['category', 'price'], as_index=False)['middle_avg_bill']
    .median()
    .dropna()
)
df_agg['middle_avg_bill'] = \
(
    df_agg['middle_avg_bill']
    .astype(pd.Int64Dtype())
)

# функция для определения категории на основе среднего чека
def price_from_bill(row, df_agg):
    if row['middle_avg_bill'] <= df_agg['middle_avg_bill'].min():
        return 'низкие'
    elif row['middle_avg_bill'] > df_agg['middle_avg_bill'].max():
        return 'высокие'
    
    for index, row_df_agg in df_agg.iterrows():
        if row['middle_avg_bill'] <= row_df_agg['middle_avg_bill']:
            return row_df_agg['price']
    
    return None

# фильтр заведений с пропущенными категориями цен
filter_places = df_places['price'].isna() & df_places['middle_avg_bill'].notna()

# заполнение пропусков категорий цен
df_places.loc[filter_places, 'price'] = \
(
    df_places.loc[filter_places]
    .apply(
        lambda row: price_from_bill(
            row, 
            df_agg[df_agg['category'] == row['category']].sort_values(by='middle_avg_bill')
        ), axis=1
    )
)

# фильтр заведений с пропусками в среднем чеке
filter_places = \
(
    df_places['middle_avg_bill'].isna() & 
    df_places['price'].notna()
)

# добавление нового столбца через объединение
df_places = df_places.merge(df_agg, on=['category', 'price'], how='left', suffixes=('', '_df_agg'))

# заполнение пропущенных значений 'middle_avg_bill'
df_places.loc[filter_places, 'middle_avg_bill'] = df_places.loc[filter_places, 'middle_avg_bill_df_agg']

# удаление промежуточного столбца
df_places.drop('middle_avg_bill_df_agg', axis=1, inplace=True)

# количество заведений по категориям
cat_count = df_places['category'].value_counts().reset_index()
cat_count.columns = ['Категория', 'Количество']
cat_count

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# количество заведений по категориям
cat_count = df_places['category'].value_counts().reset_index()
cat_count.columns = ['Категория', 'Количество']
cat_count

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.countplot(
    data=df_places,
    x="category", 
    edgecolor=".3",
    linewidth=.5,
    order=cat_count['Категория'],
    color='#1f77b4'
)
# общее количество заведений
total_count = len(df_places)

# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_x() + patch.get_width() / 2,  
        patch.get_height() / 2,  
        f'{round((patch.get_height() / total_count) * 100, 1)}%',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',
        fontweight='bold'
    )
plt.title('Распределение заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категория')
plt.tight_layout()
plt.show()

# вывод гистограммы
plt.figure(figsize=(12, 6))
sns.histplot(
    data = df_places,
    x="seats", 
    edgecolor=".3",
    linewidth=.5
)
plt.title('Распределение количества посадочных мест')
plt.ylabel('Количество заведений')
plt.xlabel('Количество мест')
plt.xlim(0,400)
plt.tight_layout()
plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# вывод гистограммы
plt.figure(figsize=(12, 6))
sns.histplot(
    data = df_places,
    x="seats", 
    edgecolor=".3",
    linewidth=.5
)
plt.title('Распределение количества посадочных мест')
plt.ylabel('Количество заведений')
plt.xlabel('Количество мест')
plt.xlim(0,400)
plt.tight_layout()
plt.show()

# формирование таблицы для графика
df_agg = \
(
    df_places
    .groupby('category')['seats']
    .median()
    .sort_values(ascending=False)
    .reset_index()
)

# вывод графика количества посадочных мест
plt.figure(figsize=(12, 6))
ax = sns.barplot(
    data=df_agg,
    x="category",
    y="seats",
    edgecolor=".3",
    linewidth=.5,
    color='#1f77b4',
    errorbar=None
)
# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_x() + patch.get_width() / 2,  
        patch.get_height() / 2,  
        f'{round(patch.get_height())}',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',  
        fontweight='bold'
    )
plt.title('Медианное количество посадочных мест по категориям')
plt.ylabel('Количество посадочных мест')
plt.xlabel('Категория')
plt.tight_layout()
plt.show()

# группировка по сетевому признаку
df_agg = df_places.groupby('chain', as_index=False).size()

# функция для отображения подписей
def label_pct(pct, allusers):
    absolute = round(pct / 100. * allusers.sum())
    return f'Количество: {absolute},\n доля: {pct:.0f}%'
    
# вывод круговой диаграммы 
plt.figure(figsize=(12, 6))
plt.pie(
    df_agg['size'],
    autopct=lambda pct: label_pct(pct, df_agg['size']),
    labels=[
        f'{"Несетевые заведения" if group == 0 else "Сетевые заведения"}:' 
        for group in df_agg['chain']
    ],
    startangle=90,
    colors=['#3274A1', '#E1812C'],
    textprops={'fontsize': 12},
    counterclock=False
)
plt.title('Соотношение сетевых и несетевых заведений')
plt.axis('equal')
plt.tight_layout()
plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# группировка по сетевому признаку
df_agg = df_places.groupby('chain', as_index=False).size()

# функция для отображения подписей
def label_pct(pct, allusers):
    absolute = round(pct / 100. * allusers.sum())
    return f'Количество: {absolute},\n доля: {pct:.0f}%'
    
# вывод круговой диаграммы 
plt.figure(figsize=(12, 6))
plt.pie(
    df_agg['size'],
    autopct=lambda pct: label_pct(pct, df_agg['size']),
    labels=[
        f'{"Несетевые заведения" if group == 0 else "Сетевые заведения"}:' 
        for group in df_agg['chain']
    ],
    startangle=90,
    colors=['#3274A1', '#E1812C'],
    textprops={'fontsize': 12},
    counterclock=False
)
plt.title('Соотношение сетевых и несетевых заведений')
plt.axis('equal')
plt.tight_layout()
plt.show()

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
sns.countplot(
    data=df_places,
    x="category", 
    edgecolor=".3",
    linewidth=.5,
    hue='chain'
)
plt.title('Распределение заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категория')
plt.legend(
    title='', 
    labels=[
        f'{"Несетевые заведения" if group == 0 else "Сетевые заведения"}' 
        for group in df_places['chain'].unique()
    ]
)
plt.tight_layout()
plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
sns.countplot(
    data=df_places,
    x="category", 
    edgecolor=".3",
    linewidth=.5,
    hue='chain'
)
plt.title('Распределение заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категория')
plt.legend(
    title='', 
    labels=[
        f'{"Несетевые заведения" if group == 0 else "Сетевые заведения"}' 
        for group in df_places['chain'].unique()
    ]
)
plt.tight_layout()
plt.show()

# топ-15 сетевых заведений
df_agg = \
(
    df_places
    .query('chain == 1')['name']
    .value_counts()
    .head(15)
    .reset_index()
)
df_agg.columns = ['name', 'count']

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.barplot(
    data=df_agg,
    x="count",
    y="name",
    edgecolor=".3",
    color='#1f77b4',
    linewidth=.5
)
# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_width() / 2,
        patch.get_y() + patch.get_height() / 2,  
        f'{round(patch.get_width())}',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',  
        fontweight='bold'
    )
plt.title('Топ-15 популярных сетевых заведений')
plt.ylabel('')
plt.xlabel('Количество заведений')
plt.tight_layout()
plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# топ-15 сетевых заведений
df_agg = \
(
    df_places
    .query('chain == 1')['name']
    .value_counts()
    .head(15)
    .reset_index()
)
df_agg.columns = ['name', 'count']

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.barplot(
    data=df_agg,
    x="count",
    y="name",
    edgecolor=".3",
    color='#1f77b4',
    linewidth=.5
)
# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_width() / 2,
        patch.get_y() + patch.get_height() / 2,  
        f'{round(patch.get_width())}',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',  
        fontweight='bold'
    )
plt.title('Топ-15 популярных сетевых заведений')
plt.ylabel('')
plt.xlabel('Количество заведений')
plt.tight_layout()
plt.show()

# создание датафрейма для графика
filter_places = df_agg['name']
df_filtered = df_places.query('name in @filter_places')

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.countplot(
    data=df_filtered,
    x="category", 
    edgecolor=".3",
    linewidth=.5,
    order=df_filtered['category'].value_counts().index,
    color='#1f77b4'
)
# общее количество заведений
total_count = len(df_filtered)

for patch in ax.patches:
    ax.text(
        patch.get_x() + patch.get_width() / 2,  
        patch.get_height() + 0.1, 
        f'{round((patch.get_height() / total_count) * 100, 1)}%',
        ha='center',
        va='bottom',
        color='black',
        fontsize=12
    )
plt.title('Распределение Топ-15 сетевых заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категория')
plt.ylim(0, 370)
plt.tight_layout()
plt.show()

# числовое распределение заведений по районам
distr_count = df_places['district'].value_counts().reset_index()
distr_count.columns = ['Округ', 'Заведений']
distr_count

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# числовое распределение заведений по районам
distr_count = df_places['district'].value_counts().reset_index()
distr_count.columns = ['Округ', 'Заведений']
distr_count

# группировка данных по районам и категориям
df_agg = (
    df_places
    .groupby(['district', 'category'])
    .size()
    .unstack(fill_value=0)
)
df_agg['total'] = df_agg.sum(axis=1)

# сортировка категорий
total_counts = df_agg.sum()
sorted_categories = total_counts.sort_values(ascending=False).index
df_agg = df_agg[sorted_categories]

# сортировка районов
df_agg = df_agg.sort_values(by='total', ascending=True)
df_agg.drop('total', axis=1, inplace=True)

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
with sns.color_palette():
    df_agg.plot(
        kind='barh',  
        stacked=True, 
        ax=plt.gca(), 
        edgecolor=".3", 
        linewidth=.5
    )
    
    plt.title('Распределение категорий заведений по округам Москвы')
    plt.xlabel('Количество заведений')  
    plt.ylabel('')
    plt.legend(title='Категория заведения')
    plt.tight_layout()
    plt.show()

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.barplot(
    data=df_places,
    x="category",
    y="rating",
    order=\
    (
        df_places
        .groupby('category')['rating']
        .mean()
        .sort_values(ascending=False)
        .index
    ),
    edgecolor=".3",
    linewidth=.5,
    errorbar=None,
    color='#1f77b4'
)
# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_x() + patch.get_width() / 2,  
        patch.get_height() / 2,  
        f'{round(patch.get_height(),2)}',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',  
        fontweight='bold'
    )
plt.title('Распределение среднего рейтинга по категориям')
plt.ylabel('Величина рейтинга')
plt.xlabel('Категория')
plt.tight_layout()
plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.barplot(
    data=df_places,
    x="category",
    y="rating",
    order=\
    (
        df_places
        .groupby('category')['rating']
        .mean()
        .sort_values(ascending=False)
        .index
    ),
    edgecolor=".3",
    linewidth=.5,
    errorbar=None,
    color='#1f77b4'
)
# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_x() + patch.get_width() / 2,  
        patch.get_height() / 2,  
        f'{round(patch.get_height(),2)}',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',  
        fontweight='bold'
    )
plt.title('Распределение среднего рейтинга по категориям')
plt.ylabel('Величина рейтинга')
plt.xlabel('Категория')
plt.tight_layout()
plt.show()

# чтение JSON-файла и сохранение в переменную
geo_pth = 'admin_level_geomap.geojson'

if os.path.exists(dir1):
    state_geo = dir1 + geo_pth
elif os.path.exists(dir2):
    state_geo = dir2 + geo_pth
else:
    print('Something is wrong')

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# чтение JSON-файла и сохранение в переменную
geo_pth = 'admin_level_geomap.geojson'

if os.path.exists(dir1):
    state_geo = dir1 + geo_pth
elif os.path.exists(dir2):
    state_geo = dir2 + geo_pth
else:
    print('Something is wrong')

# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# группировка данных по районам и рейтингу
df_agg = df_places.groupby('district', as_index=False)['rating'].mean()

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по округам',
).add_to(m)

# вывод карты
m

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles="Cartodb Positron")

# создание пустого кластер
marker_cluster = MarkerCluster().add_to(m)

# функция для создания маркера и добавления его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# добавление каждого заведения в кластер
df_places.apply(create_clusters, axis=1)

# выводим карту
m

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles="Cartodb Positron")

# создание пустого кластер
marker_cluster = MarkerCluster().add_to(m)

# функция для создания маркера и добавления его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# добавление каждого заведения в кластер
df_places.apply(create_clusters, axis=1)

# выводим карту
m

# группировка данных по улицам и категориям
df_agg = (
    df_places
    .groupby(['street', 'category'])
    .size()
    .unstack(fill_value=0)
)

# отбор топ-15 улиц по количеству заведений
df_agg['total'] = df_agg.sum(axis=1)
df_agg = df_agg.sort_values(by='total', ascending=False).head(15)

# сортировка категорий
total_counts = df_agg.sum()
sorted_categories = total_counts.sort_values(ascending=False).index
df_agg = df_agg[sorted_categories]

# сортировка улиц
df_agg = df_agg.sort_values(by='total', ascending=True)
df_agg.drop('total', axis=1, inplace=True)

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
with sns.color_palette():
    df_agg.plot(
        kind='barh',  
        stacked=True, 
        ax=plt.gca(), 
        edgecolor=".3", 
        linewidth=.5)
    
    plt.title('Топ-15 улиц по количеству заведений')
    plt.xlabel('Количество заведений')  
    plt.ylabel('')
    plt.legend(title='Категория заведения')
    plt.tight_layout()
    plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# группировка данных по улицам и категориям
df_agg = (
    df_places
    .groupby(['street', 'category'])
    .size()
    .unstack(fill_value=0)
)

# отбор топ-15 улиц по количеству заведений
df_agg['total'] = df_agg.sum(axis=1)
df_agg = df_agg.sort_values(by='total', ascending=False).head(15)

# сортировка категорий
total_counts = df_agg.sum()
sorted_categories = total_counts.sort_values(ascending=False).index
df_agg = df_agg[sorted_categories]

# сортировка улиц
df_agg = df_agg.sort_values(by='total', ascending=True)
df_agg.drop('total', axis=1, inplace=True)

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
with sns.color_palette():
    df_agg.plot(
        kind='barh',  
        stacked=True, 
        ax=plt.gca(), 
        edgecolor=".3", 
        linewidth=.5)
    
    plt.title('Топ-15 улиц по количеству заведений')
    plt.xlabel('Количество заведений')  
    plt.ylabel('')
    plt.legend(title='Категория заведения')
    plt.tight_layout()
    plt.show()

# исправление названия одной улицы
df_places['street'] = df_places['street'].replace("улица Шкулёва 4", "улица Шкулёва")

# группировка данных по улицам
df_agg = \
(
    df_places
    .groupby('street')
    .size()  
    .reset_index(name='count')
    .query('count == 1')
)

# вывод количества улиц
message = (
    f'В таблице **{df_agg["count"].sum()}** одноуличных заведений общепита\n\n'
    f'**{df_agg["count"].sum() / len(df_places):.2%}** от общего количества заведений'
) if df_agg['count'].sum() > 0 else f'В таблице нет улиц с одним заведением общепита'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# исправление названия одной улицы
df_places['street'] = df_places['street'].replace("улица Шкулёва 4", "улица Шкулёва")

# группировка данных по улицам
df_agg = \
(
    df_places
    .groupby('street')
    .size()  
    .reset_index(name='count')
    .query('count == 1')
)

# вывод количества улиц
message = (
    f'В таблице **{df_agg["count"].sum()}** одноуличных заведений общепита\n\n'
    f'**{df_agg["count"].sum() / len(df_places):.2%}** от общего количества заведений'
) if df_agg['count'].sum() > 0 else f'В таблице нет улиц с одним заведением общепита'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# создание датафрейма одноуличных заведений
filter_places = df_agg['street']
df_filtered = df_places.query('street in @filter_places').copy()

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.countplot(
    data=df_filtered,
    x="category", 
    edgecolor=".3",
    linewidth=.5,
    order=df_filtered['category'].value_counts().index,
    color='#1f77b4'
)
# общее количество одноуличных заведений
total_count = len(df_filtered)

# добавление подписей
for patch in ax.patches:
    ax.text(
        patch.get_x() + patch.get_width() / 2,  
        patch.get_height() / 2,  
        f'{round((patch.get_height() / total_count) * 100, 1)}%',  
        ha='center',  
        va='center',  
        fontsize=12,
        color='white',
        fontweight='bold'
    )
plt.title('Распределение одноуличных заведений по категориям')
plt.ylabel('Количество заведений')
plt.xlabel('Категория')
plt.tight_layout()
plt.show()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles="Cartodb Positron")

# подготовка данных для вывода на карту
df_agg = df_filtered.groupby('district').size().reset_index(name='count')
df_agg['count_allstreet'] = \
(
    df_agg['district']
    .apply(lambda district: df_places[df_places['district'] == district]['street'].nunique())
)
df_agg['rate'] = df_agg['count'] / df_agg['count_allstreet']

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'rate'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Доля улиц с одним заведением общепита',
).add_to(m)

# вывод карты
m

# группировка по сетевому признаку
df_agg = df_filtered.groupby('is_24_7').size().reset_index(name='count')

# функция для отображения подписей
def label_pct(pct, allusers):
    absolute = round(pct / 100. * allusers.sum())
    return f'{pct:.0f}%'
    
# вывод круговой диаграммы для`user_count` 
plt.figure(figsize=(12, 6))
plt.pie(
    df_agg['count'],
    autopct=lambda pct: label_pct(pct, df_agg['count']),
    labels=[
        f'{"Дневные заведения" if group == 0 else "Круглосуточные заведения"}:' 
        for group in df_agg['is_24_7']
    ],
    colors=['#3274A1', '#E1812C'],
    counterclock=False
)
plt.title('Соотношение дневных и круглосуточных одноуличных заведений')
plt.axis('equal')
plt.tight_layout()
plt.show()

# подготовка таблиц для графика
df_filtered.loc[:, 'type'] = 'Одноуличные заведения'
df_usual = df_places.query('street not in @filter_places').copy()
df_usual.loc[:, 'type'] = 'Обычные заведения'
df_union = pd.concat([df_filtered, df_usual])

# задание размера графика
plt.figure(figsize=(12, 6))

# вывод графика
ax = sns.barplot(
    data=df_union,
    x="category",
    y="rating",
    edgecolor=".3",
    linewidth=.5,
    hue='type',
    palette=['#1f77b4', '#ff7f0e'],
    errorbar=None
)
plt.title('Распределение среднего рейтинга по категориям')
plt.ylabel('Величина рейтинга')
plt.xlabel('Категория')
plt.legend(title='', loc='upper left')
plt.yticks(np.arange(0, 6, 1))
plt.tight_layout()
plt.show()

# задание уровня статистической значимости
alpha = 0.05

# выполнение t-теста с двусторонней альтернативной гипотезой
t_stat, p_value = st.ttest_ind(
    df_filtered['rating'], 
    df_usual['rating'], 
    alternative='two-sided'
)

# проверка гипотезы
if p_value < alpha:
    message = (
            f'p_value=**{p_value:.2e}** < {alpha:.2%}\n\n'
            f' Отвергаем нулевую гипотезу: средние рейтинги одноуличных/обычных ,\
            заведений отличаются.'
    )
else:
    message = (
            f'p_value=**{p_value:.2%}** >= {alpha:.2%}\n\n'
            f' Не удалось отвергнуть нулевую гипотезу: нет достаточных доказательств,\
            что средние рейтинги одноуличных/обычных отличаются.'
    )


# вывод резельтатов теста
if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# группировка данных по районам
df_agg = df_places.groupby('district', as_index=False)['middle_avg_bill'].median()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Размер среднего чека, руб.',
).add_to(m)

# вывод карты
m

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# группировка данных по районам
df_agg = df_places.groupby('district', as_index=False)['middle_avg_bill'].median()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Размер среднего чека, руб.',
).add_to(m)

# вывод карты
m

# создание датафрейма кофеен
df_coff = df_places.query('category == "кофейня"').copy()

# вывод количества кофеен
message = (
    f'В таблице **{len(df_coff)}** кофеен\n\n'
    f'**{len(df_coff) / len(df_places):.2%}** от общего количества заведений'
) if len(df_coff) > 0 else f'В таблице нет кофеен'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# создание датафрейма кофеен
df_coff = df_places.query('category == "кофейня"').copy()

# вывод количества кофеен
message = (
    f'В таблице **{len(df_coff)}** кофеен\n\n'
    f'**{len(df_coff) / len(df_places):.2%}** от общего количества заведений'
) if len(df_coff) > 0 else f'В таблице нет кофеен'

if flag_md == 1:
    display(Markdown(message))
else:
    print(message.replace("*", ""))

# числовое распределение кофеен по районам
coff_count = df_coff['district'].value_counts().reset_index()
coff_count.columns = ['Округ', 'Кофейни']
coff_count

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles="Cartodb Positron")

# подготовка данных для вывода на карту
df_agg = df_coff.groupby('district').size().reset_index(name='count')
df_agg['count_allstreet'] = \
(
    df_agg['district']
    .apply(lambda district: len(df_places[df_places['district'] == district]['street']))
)
df_agg['rate'] = df_agg['count'] / df_agg['count_allstreet']

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'rate'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Доля кофеен от всех заведений',
).add_to(m)

# вывод карты
m

# группировка по сетевому признаку
df_agg = df_coff.groupby('is_24_7').size().reset_index(name='count')

# функция для отображения подписей
def label_pct(pct, allusers):
    absolute = round(pct / 100. * allusers.sum())
    return f'{pct:.0f}%'
    
# вывод круговой диаграммы для`user_count` 
plt.figure(figsize=(12, 6))
plt.pie(
    df_agg['count'],
    autopct=lambda pct: label_pct(pct, df_agg['count']),
    labels=[
        f'{"Дневные кофейни" if group == 0 else "Круглосуточные кофейни"}' 
        for group in df_agg['is_24_7']
    ],
    colors=['#3274A1', '#E1812C'],
    counterclock=False
)
plt.title('Соотношение дневных и круглосуточных кофеен')
plt.axis('equal')
plt.tight_layout()
plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# группировка по сетевому признаку
df_agg = df_coff.groupby('is_24_7').size().reset_index(name='count')

# функция для отображения подписей
def label_pct(pct, allusers):
    absolute = round(pct / 100. * allusers.sum())
    return f'{pct:.0f}%'
    
# вывод круговой диаграммы для`user_count` 
plt.figure(figsize=(12, 6))
plt.pie(
    df_agg['count'],
    autopct=lambda pct: label_pct(pct, df_agg['count']),
    labels=[
        f'{"Дневные кофейни" if group == 0 else "Круглосуточные кофейни"}' 
        for group in df_agg['is_24_7']
    ],
    colors=['#3274A1', '#E1812C'],
    counterclock=False
)
plt.title('Соотношение дневных и круглосуточных кофеен')
plt.axis('equal')
plt.tight_layout()
plt.show()

# подготовка таблиц для графика
filter_places = \
(
    df_coff
    .query('chain == 1')['name']
    .value_counts()
    .head(10)
    .index
)
df_filtered = df_coff.query('name in @filter_places')

# вывод графика
plt.figure(figsize=(12, 6))
with sns.color_palette():
    sns.boxplot(
        data=df_filtered,
        x='rating',
        y='name',
        hue='name',
        linewidth=.7
    )
    plt.title('Распределение рейтингов в топ-10 сетевых кофейнях')
    plt.ylabel('')
    plt.xlabel('Величина рейтинга')
    plt.xlim(3,5)
    plt.tight_layout()
    plt.show()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# подготовка таблиц для графика
filter_places = \
(
    df_coff
    .query('chain == 1')['name']
    .value_counts()
    .head(10)
    .index
)
df_filtered = df_coff.query('name in @filter_places')

# вывод графика
plt.figure(figsize=(12, 6))
with sns.color_palette():
    sns.boxplot(
        data=df_filtered,
        x='rating',
        y='name',
        hue='name',
        linewidth=.7
    )
    plt.title('Распределение рейтингов в топ-10 сетевых кофейнях')
    plt.ylabel('')
    plt.xlabel('Величина рейтинга')
    plt.xlim(3,5)
    plt.tight_layout()
    plt.show()

# группировка данных по районам
df_agg = df_coff.groupby('district', as_index=False)['rating'].mean()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'rating'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Средний рейтинг кофеен',
).add_to(m)

# вывод карты
m

df_coff['middle_coffee_cup'].describe()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

df_coff['middle_coffee_cup'].describe()

count         711.0
mean     179.962025
std       58.640513
min            60.0
25%           139.0
50%           200.0
75%           205.0
max           375.0
Name: middle_coffee_cup, dtype: Float64

# вывод гистограммы
plt.figure(figsize=(12, 6))
sns.histplot(
    data=df_coff,
    x="middle_coffee_cup", 
    edgecolor=".3",
    linewidth=.5
)

plt.title('Распределение стоимости чашки капучино по кофейням')
plt.ylabel('Количество кофеен')
plt.xlabel('Стоимость чашки капучино')
plt.tight_layout()
plt.show()

# группировка данных по районам
df_agg = df_coff.groupby('district', as_index=False)['middle_coffee_cup'].mean()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Cредняя стоимость чашки капучино',
).add_to(m)

# вывод карты
m

# группировка данных по районам
df_agg = df_coff.groupby('district', as_index=False)['is_24_7'].mean()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'is_24_7'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Доля круглосуточных кофеен',
).add_to(m)

# вывод карты
m

# группировка данных по районам
df_agg = df_coff.groupby('district', as_index=False)['is_24_7'].mean()

# создание карты Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10, tiles='Cartodb Positron')

# создание хороплета с помощью конструктора Choropleth и добавление его на карту
Choropleth(
    geo_data=state_geo,
    data=df_agg,
    columns=['district', 'is_24_7'],
    key_on='feature.name',
    fill_color='YlGn',
    fill_opacity=0.8,
    legend_name='Доля круглосуточных кофеен',
).add_to(m)

# вывод карты
m

	name	category	address	district	hours	lat	lng	rating	price	avg_bill	middle_avg_bill	middle_coffee_cup	chain	seats
0	WoWфли	кафе	Москва, улица Дыбенко, 7/1	Северный административный округ	ежедневно, 10:00–22:00	55.878494	37.478860	5.0	NaN	NaN	NaN	NaN	0	NaN
1	Четыре комнаты	ресторан	Москва, улица Дыбенко, 36, корп. 1	Северный административный округ	ежедневно, 10:00–22:00	55.875801	37.484479	4.5	выше среднего	Средний счёт:1500–1600 ₽	1550.0	NaN	0	4.0
2	Хазри	кафе	Москва, Клязьминская улица, 15	Северный административный округ	пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00...	55.889146	37.525901	4.6	средние	Средний счёт:от 1000 ₽	1000.0	NaN	0	45.0
3	Dormouse Coffee Shop	кофейня	Москва, улица Маршала Федоренко, 12	Северный административный округ	ежедневно, 09:00–22:00	55.881608	37.488860	5.0	NaN	Цена чашки капучино:155–185 ₽	NaN	170.0	0	NaN
4	Иль Марко	пиццерия	Москва, Правобережная улица, 1Б	Северный административный округ	ежедневно, 10:00–22:00	55.881166	37.449357	5.0	средние	Средний счёт:400–600 ₽	500.0	NaN	1	148.0

Исследование рынка заведений общественного питания Москвы¶

Общая информация о данных¶

Предобработка данных¶

Изменение типа столбцов¶

Добавление столбцов¶

Проверка наличия дубликатов¶

Обработка выбросов и аномальных значений¶

Обработка пропущенных значений¶

Исследование рынка Москвы¶

Распределение заведений по категориям¶

Анализ количества посадочных мест¶

Анализ соотношения сетевых/несетевых заведений¶

Анализ категорий сетевых заведений¶

Анализ топ-15 популярных сетей в Москве¶

Анализ административных районов Москвы¶

Анализ средних рейтингов по категориям заведений¶

Фоновая картограмма рейтингов по округам¶

Кластерная карта всех заведений¶

Анализ топ-15 улиц по количеству заведений¶

Анализ улиц с одним объектом общепита¶

Распределение размера среднего чека по округам¶

Исследование для открытия кофейни¶

Количество и особенности расположения¶

Время работы кофеен¶

Рейтинги кофеен¶

Стоимость чашки капучино¶

Круглосуточные кофейни по районам¶

Итоги исследования¶

	0
hours	6.37%
price	60.56%
avg_bill	54.60%
middle_avg_bill	62.54%
middle_coffee_cup	93.63%
seats	42.96%

	Категория	Количество
0	кафе	2376
1	ресторан	2040
2	кофейня	1412
3	бар,паб	763
4	пиццерия	633
5	быстрое питание	603
6	столовая	315
7	булочная	256

	Округ	Заведений
0	Центральный административный округ	2242
1	Северный административный округ	896
2	Южный административный округ	891
3	Северо-Восточный административный округ	890
4	Западный административный округ	850
5	Восточный административный округ	797
6	Юго-Восточный административный округ	714
7	Юго-Западный административный округ	709
8	Северо-Западный административный округ	409