КОСТОМИЗИРОВАТЬ — Прогнозирование количества посещений магазина по дням (бумага)

Авторы:

Авторы 2

Авторы 2

Авторы 3

Авторы 5

Авторы 5

Авторы 6

Авторы «Авторы» Авторы 6

Авторы 7

Авторы 8

Авторы (Авторы) 9

Авторы 10

Авторы / Авторы 14

Авторы 17

Авторы 17

Авторы 19

Авторы 20

Авторы 20

Авторы 21

Авторы 22

Авторы 22

Авторы 24

Авторы 25

Авторы 25

Авторы 25

Авторы

Авторы, наряду с прогнозируемым доходом и необходимым количеством сотрудников для покрытия ежедневной рабочей силы. Авторы.

Авторы, Walmart, Starbucks и Old Navy. Из-за того, что у нас было только 2020 и 2021 данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели. Наш выбор был Хьюстон, данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели.

Авторы

данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели (данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели, данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели, данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели), данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели. данных мы хотели выбрать место, где период COVID не был чрезвычайно значительным, чтобы мы могли использовать оба года для обучения модели. Критерием успеха будет прогностическая способность модели., то есть, Критерием успеха будет прогностическая способность модели.. Критерием успеха будет прогностическая способность модели..

Критерием успеха будет прогностическая способность модели.: Критерием успеха будет прогностическая способность модели., то есть, Критерием успеха будет прогностическая способность модели.. Критерием успеха будет прогностическая способность модели., Критерием успеха будет прогностическая способность модели. (Критерием успеха будет прогностическая способность модели., Критерием успеха будет прогностическая способность модели.) Критерием успеха будет прогностическая способность модели.. Критерием успеха будет прогностическая способность модели., Критерием успеха будет прогностическая способность модели., Это приведет к увеличению очередей из-за нехватки сотрудников и даже к дефициту из-за отсутствия запасов.. Это приведет к увеличению очередей из-за нехватки сотрудников и даже к дефициту из-за отсутствия запасов., Это приведет к увеличению очередей из-за нехватки сотрудников и даже к дефициту из-за отсутствия запасов..

Это приведет к увеличению очередей из-за нехватки сотрудников и даже к дефициту из-за отсутствия запасов., у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина.

у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина, у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина: у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина. у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина, у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина, у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина, у нас не будет проблем с неправомерным использованием в связи с тем, что на нашем веб-сайте будет личный кабинет для каждого из наших клиентов со всеми личными отчетами и прогнозами, а также напоминание о том, что наши анализы будут спекулятивными и не могут быть воспринимается как абсолютная истина.

В заключение оценки стоимости мы хотели бы отметить, что наш проект в настоящее время имеет два больших ограничения.. Первый из-за происхождения данных, мы используем шаблоны данных, поступающие из приложения, которое определяет, какие магазины посещал конкретный человек. (больше об этом в Описание данных раздел). Это делает данные не такими «реальными», как нам хотелось бы, и, следовательно, наши прогнозы будут значительно хуже, чем если бы у нас были прямые «реальные» данные от наших клиентов.’ количество посещений. (Мы не можем проверить, соответствуют ли имеющиеся у нас данные реальным посещениям магазина в определенный день. ). Второе ограничение заключается в том, что мы обучили нашу модель прогнозировать посещения только на день вперед., мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом.. мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом.’ мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом..

Авторы

мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом. мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом.. мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом..

мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом. Авторы:

мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом.

мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом.. Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем..

Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем.: Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем.. Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем.: Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем.. Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем. Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем.. Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем.. Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., Наша личная цель — приблизиться к миру кодирования, с которым мы встретимся в будущем., создание возможности того, что все остальные могут одновременно кодировать и запускать сценарии на одном компьютере. В основном, гость среды работает с человеком, который ее создал, так как он/она кодирует на компьютере хозяина.

Поскольку мы делаем проект Data Science, нам нужно понимать, что эти типы проектов зависят от исходных библиотек и инструментов для анализа данных.. Благодаря тому, что мы делаем проект в команде, важно зафиксировать все зависимости в общедоступном формате, который позволяет каждому члену команды использовать одни и те же версии и создавать библиотеки. Зная это, мы будем использовать виртуальную среду для получения различных наборов пакетов Python..

Для этого, мы использовали пипенв пакет из Python, больше информации об этом в Раздел приложения.

Раздел приложения, Раздел приложения Раздел приложения. Раздел приложения Python 3.8.6, Раздел приложения:

  • Раздел приложения: Раздел приложения, Раздел приложения. Раздел приложения.
  • Раздел приложения: Раздел приложения.
  • Раздел приложения: Раздел приложения
  • Раздел приложения: Раздел приложения, то есть, Раздел приложения
  • Раздел приложения: Раздел приложения, Раздел приложения.
  • Раздел приложения: Раздел приложения.
  • Раздел приложения: Предоставляет функции для взаимодействия с операционной системой (Предоставляет функции для взаимодействия с операционной системой, Предоставляет функции для взаимодействия с операционной системой, Предоставляет функции для взаимодействия с операционной системой, Предоставляет функции для взаимодействия с операционной системой, и т.д…)..
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой.
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой .
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой. (Предоставляет функции для взаимодействия с операционной системой)
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой, Предоставляет функции для взаимодействия с операционной системой.
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой.
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой.
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой
  • Предоставляет функции для взаимодействия с операционной системой: Предоставляет функции для взаимодействия с операционной системой.

Ну наконец то, Ну наконец то 3.8.6, р Ну наконец то.

Ну наконец то, Ну наконец то, Ну наконец то, Ну наконец то. Ну наконец то Ну наконец то Ну наконец то.

Ну наконец то Ну наконец то Ну наконец то Ну наконец то Ну наконец то «Ну наконец то» Ну наконец то. Ну наконец то, Ну наконец то Ну наконец то, Ну наконец то, Ну наконец то Ну наконец то (Реагировать) Ну наконец то (Ну наконец то). Ну наконец то.

Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. (Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.) Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. (Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.) Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.. Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков..

Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков., Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков..

Авторы

Авторы

Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.. Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.:

  • Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. (Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.): Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков., адрес, категория, Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. (Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.) Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.. [https://docs.safegraph.com/v4.0/docs#section-core-places]
  • Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. (Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.): Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон. [https://docs.safegraph.com/v4.0/docs/places-schema#section-geometry]
  • Авторы (Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон): Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон: Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон. [https://docs.safegraph.com/v4.0/docs/places-schema#section-patterns]

Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон.

Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон.

Это предприятие предоставляет данные в большей совокупности, чем магазины.. Например, на штат. Отражает количество посещений в день/неделю/месяц для каждого штата или региона. (visit_panel_summary.csv, normalization_stats.csv).

Кроме, есть еще один файл, описание метаданных (release_metadata.csv).

Последний, но тем не менее важный, одна из самых больших трудностей — размер набора данных, по оценкам, закончилось 40 ГБ (как только мы отфильтровали Хьюстон 2020-2021 набор данных).

Авторы

Авторы «Авторы» Авторы

Первое, что нужно было сделать, это принять решение о том, какая франшиза/бренд нас интересует.. Мы хотели иметь большое количество POI из определенной франшизы в определенном округе.

После расследования о влиянии COVID на штаты США, мы решили отфильтровать наши данные, выбрав штат Техас, точнее округ Хьюстон, потому что этот географический район был меньше всего пострадали от ковидных ограничений на протяжении 2020 и 2021. Таким образом, мы можем обучить модель, включая 2020 Таким образом, мы можем обучить модель, включая. Таким образом, мы можем обучить модель, включая, Таким образом, мы можем обучить модель, включая Таким образом, мы можем обучить модель, включая Таким образом, мы можем обучить модель, включая 2019, 2020 и 2021.

Таким образом, мы можем обучить модель, включая Таким образом, мы можем обучить модель, включая Таким образом, мы можем обучить модель, включая. Таким образом, мы можем обучить модель, включая, Таким образом, мы можем обучить модель, включая, Таким образом, мы можем обучить модель, включая. Таким образом, мы можем обучить модель, включая, Таким образом, мы можем обучить модель, включая. Таким образом, мы можем обучить модель, включая. Таким образом, мы можем обучить модель, включая. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Таким образом, мы можем обучить модель, включая, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services.

эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services 200 эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services. эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services. эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services.

эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services 200 эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services. эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services, эти типы предприятий смогли оставаться открытыми и функционировать с Take Away Services. Мы проверили это на Google Maps. Мы проверили это на Google Maps , Мы проверили это на Google Maps 10 Мы проверили это на Google Maps. Мы проверили это на Google Maps.

Мы проверили это на Google Maps Мы проверили это на Google Maps.

Мы проверили это на Google Maps 1 Мы проверили это на Google Maps

Авторы

Мы проверили это на Google Maps, Мы проверили это на Google Maps Мы проверили это на Google Maps Мы проверили это на Google Maps. Мы проверили это на Google Maps, Мы проверили это на Google Maps. Мы проверили это на Google Maps Мы проверили это на Google Maps поместить двоичные переменные, указывающие, является ли это национальным праздником, и другую переменную, указывающую, являются ли это выходные дни. Мы считаем, что такие функции могут существенно повлиять на количество посещений магазинов быстрого питания..

После долгих поисков и безрезультатно, мы спросили на форуме Slack о наборах социально-экономических данных Техаса. Благодаря участникам Slack мы поняли, что SafeGraph имеет надлежащее набор социально-экономических данных под названием «Открытые данные переписи населения». мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., чтобы иметь все функции, ранее описанные в нашей модели, нам пришлось интегрировать наш основной набор данных под названием «Авторы» с «Открытые данные переписи населения» который имеет эту социально-экономическую информацию, например, доход за перепись. Чтобы добавить еще больше информации, мы также рассматриваем возможность ее интеграции с другой набор данных SafeGraph под названием «Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков. (ядро poi.csv)» .

Как только данные о доходах были получены и интегрированы с другими переменными, которые у нас уже были, мы хотели бы знать, как варьируется доход по каждой из переписей города Хьюстон.

Следующий график был получен благодаря следующему веб-сайту: http://proximityone.com/harriscounty_tx.htm

Видно, как области с наибольшим количеством ресурсов (больше чем 60,000) расположены на окраине города.

Мы проверили это на Google Maps 2 — Карта доходов Хьюстона

Затем, когда-то стало возможным визуализировать районы города в зависимости от их доходов, в разделе под названием «Первый подход к реальным посещениям«, будут отображаться посещения некоторых магазинов Subway, чтобы наблюдать за их развитием и, таким образом,, учитывать возникновение выбросов.

Авторы

Далее мы объясним все проблемы, с которыми мы столкнулись на этом этапе, связанные с отсутствующими значениями., выбросы и другие преобразования в каждом наборе данных.

Одна из первых проблем, с которыми мы столкнулись после фильтрации данных шаблонов., понял, что есть еще один город под названием Хьюстон. На самом деле есть 20 города в США под названием Хьюстон. Поэтому нам пришлось переделать фильтрацию, добавив регион ( город=Хьюстон и регион=Хьюстон).

Наш подход заключается в выполнении всех этих обработок данных в каждом отфильтрованном наборе данных. (Авторы, основные места, Погода, OpenCensus, Праздничный день) отдельно, прежде чем интегрировать все, чтобы получить более чистые результаты после интеграции.

в «Авторы» Набор данных, в котором мы решили удалить все пропущенные значения из наиболее важной функции.: посещений_по_дню. По мере построения набора данных шаблонов, каждое значение Visits_by_day представляет собой список 30 значения, представляющие количество посещений определенного магазина Subway по дням в определенном месяце., в конкретный год. Серьезно, то 176 выбросы, которые у нас есть, на самом деле представляют собой ежемесячные данные из конкретного магазина.

Следующее преобразование — отменить эти списки, чтобы посещения были каждый день.. Строки, которые посещают значения, где 0 были удалены, это потому, что нет смысла сохранять значения, которые либо неверны, либо неверны. (невозможно, чтобы в открытом магазине, таком как Subway, не было хотя бы одного посетителя.) или закрыты. Мы решили удалить эти данные, так как считали, что когда компания использует нашу модель, они не будут ожидать, что модель предскажет, когда магазин закроется, и, кроме того, это еще больше усложнит задачу прогнозирования..

Мы изменили набор данных шаблонов, чтобы в нем было столько строк, сколько разных дат. (от 20…) и visits_by_day для каждой упомянутой ранее даты для каждого магазина Subway в Хьюстоне.. Это преобразование необходимо, поскольку ожидаемыми входными данными для модели являются ежедневные данные.. Также нам пришлось обработать некоторые дубликаты в этой переменной..

Еще одна вещь, которую следует принять во внимание, связанные с набором данных «Шаблоны», является тот факт, что некоторые списки и словари на самом деле не были такими, иначе это были струны. Чтобы преобразовать это в настоящие списки и словари, нам нужно было использовать библиотеку json., точнее метод «загрузки».

в Исторические данные о погоде в Хьюстоне, получено с сайта wundergroud.com, у нас есть ежедневные исторические данные о погоде, указывающие количество осадков в Хьюстоне. Процесс был прост. Идея заключалась в том, чтобы получить данные с этого сайта с помощью Selenium.. Мы получили данные всего за один месяц, а затем, мы повторили сценарий, чтобы получить количество осадков за желаемый период времени. Затем, некоторые значения необходимо было преобразовать только потому, что Python не распознал их как числа. мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., нам нужно было заменить одни символы на другие, например, замена ',’ на ‘.’ (стандартная версия с плавающей запятой). Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, Значения осадков были указаны в дюймах, поэтому нам нужно было преобразовать эти значения в более общую шкалу, как мм рт.ст. (используется для обозначения количества дождя в определенном месте). Процесс изменения этого масштаба заключался в простом умножении предыдущего значения на 25.4, потому что 1 В = 25.4 мм.

Наконец, чтобы иметь возможность добавить открытые данные переписи населения, сначала нам нужно было определить, в каком CSV-файле всей системы каталогов открытых данных переписи населения находится «Средний семейный доход» (B19013e1) особенность. После итерации каждого файла csv мы обнаружили, что нам нужен файл cbg_b19.csv.. Получив эту информацию, мы создали переменную cbg_income в нашем наборе данных и заполнили ее, используя это условие, во время итерации файла cbg_b19.csv.. Условие проверяет построчно, совпадает ли код cbg из csv с кодом cbg магазина Houston Subway, и если да., мы добавляем информацию о доходах для этого переписного блока.

метро[«cbg_income»] = np.где(метро['poi_cbg'] == ул.(ряд[1][0]), ряд[1][1], метро[«cbg_income»])

Авторы (Авторы)

Этот этап оказался одним из самых сложных во время разработки второго этапа.. Трудность построения модели заключается в том, что трудно получить истинные данные о подсчете.. Мы поняли, что необработанные посещения засчитываются из данных SafeGraph должны быть нормализованы чтобы получить более надежные результаты. После долгих исследований, Самый точный подход, который мы могли бы сделать в доступное время, — это корректировка количества посещений на основе количества устройств SafeGraph и данных переписи населения США в CBG на дому для посетителей..

По сути, мы добавили Переменная Census_Population (B01001E1) из открытых данных переписи населения (в конкретном cbg_b01.csv) в наш набор данных из открытых данных переписи населения. Нам также потребовалось CBG_Number_Of_Devices переменная из home_panel_summary.csv. The формула мы использовали для этого нормализация делит построчно Популяция CBG по количеству устройств SafeGraph в этой CBG * raw_visit_counts.

Авторы

Однажды посещения переменная нормализована, как нам посоветовали некоторые ученые, работавшие с этими данными, теперь мы приступим к визуализации реальные посещения.

Было решено выполнить эту задачу, чтобы обнаружить, если есть, магазины, которые могут содержать выбросы (например, магазины, которые не посещаются в течение дня) чтобы получить лучшую модель, с более реалистичными результатами, в будущем.

Вот несколько примеров посещений некоторых метро Хьюстона.:

Прежде чем анализировать каждый скриншот/график, нам нужно объяснить ось X. Здесь мы имеем эволюцию времени. На этот раз эволюция — это количество дней в магазине.. Мы не можем предложить видение графика с конкретным днем, потому что некоторые дни будут удалены. (подробнее об этом позже).

На этом первом скриншоте, мы видим, что этот конкретный магазин (хранить с помощью PlaceKey 222-222 @ 8fc-9qf-st9) можно считать приемлемым для использования в качестве обучающих данных, поскольку они содержат реалистичные значения посещений..

Вы также можете увидеть, как значительно падают посещения в начале графика.. Это потому, что в то время (середина марта), карантин начался из-за COVID-19. В связи с этим, было решено исключить временной диапазон с декабря по март., чтобы это не влияло на прогноз реальных посещений.

Мы проверили это на Google Maps 3 — Эволюция посещений в определенном магазине

Таким образом, обратите внимание, как выглядит эволюция посещений упомянутого выше магазина, как только время диапазона до COVID будет устранено.

Мы проверили это на Google Maps 4- Эволюция посещений в определенном магазине без предварительных данных

Нам нужно не только смотреть на магазины с реалистичной посещаемостью., но и с теми, у кого есть 0 посещений в некоторых временных диапазонах, поскольку эти магазины могут привести к ложным прогнозам в окончательной модели..

Мы проверили это на Google Maps 5 Эволюция посещений в определенном магазине

Как мы видим на следующем графике, в некоторых магазинах было мало ценностей. В этом случае, этот магазин появляется только 31 раз в данных. Мы считаем, что магазин должен иметь минимальное количество дней в наборе данных.. Это число 200 дни. Это означает, что если их меньше 200 ценности в определенном магазине, это место будет удалено из данных. Например, этого магазина не будет в нашей подгруппе обучения моделей.

Мы проверили это на Google Maps 6 Эволюция посещений в определенном магазине

Некоторые посещения были выбросами, поэтому мы решили изменить эти выбросы на нормальное количество посещений каждого магазина.. Функция.clip() изменяет выбросы на другие значения. Поскольку мы не хотели терять высшую или низшую характеристику посещений, мы не меняли значения выбросов в зависимости от среднего числа посещений, мы изменили его на верхний или нижний квантиль, с 90% доверия. Это делается с помощью следующего кода:

верхний = df_per_store.visits.quantile(.95)

нижний = df_per_store.visits.quantile(.05)

df_per_store[«посещения»] = df_per_store[«посещения»].клип(верхний = верхний, ниже = ниже)

Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, мы заметили, что в эволюции наших посещений были огромные недостатки. Мы считали практически невозможным, чтобы определенный магазин мог иметь, например, 200 посещений в обычный понедельник, а затем количество посещений снижается до 20 На следующий день. Это ошибка, возникающая из-за того, как SafeGraph подсчитывает посещения. (они рассчитывают посещения с учетом количества устройств и численности населения определенной группы переписного квартала). Используя эту формулу, эволюция посещений подскочила с высокого значения до очень низкого. Нам пришлось сгладить эти визиты, чтобы улучшить модельное понимание этой тенденции.. Эта техника называется свертка.

Формула, которую мы использовали для модуляции количества посещений каждого магазина, была следующей::

мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., применение этой свертки к нашим данным, мы ушли от такой эволюции посещений:

Мы проверили это на Google Maps 7 Эволюция посещений в определенном магазине

К этому:

Мы проверили это на Google Maps 8 Смоделированная эволюция посещений в конкретном магазине

С помощью этого расчета, каждая модель улучшилась почти 10% из его оценки. Конечно, использование этого преобразования в тестовых данных было бы мошенничеством. Вот почему ценностью для прогнозирования в тестовых данных были посещения без расчета.. мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., подводить итоги, в данных поезда используются модулированные посещения, а в тестовых данных нет.

Авторы / Авторы

После первая итерация модели (объяснено в Приложениях), а простая линейная регрессия модель была выбрана. Его метрики были MSE=5456 и R²=0,6874.. Большинство наших функций практически не повлияли на модель.. Поэтому мы приступили ко второй итерации в надежде найти в основном новые важные функции, связанные со временем, которые могли бы улучшить показатели этой модели..

Для вторая итерация модели, перед добавлением какой-либо дополнительной переменной, мы решили ввести новые магазины помимо Subway, чтобы оценить нашу финальную модель в разных случаях. Добавленные франшизы были: Старбакс, Walmart и Старый флот. Мы хотели сосредоточиться не только на пищевой промышленности, но и на других секторах, таких как производство одежды., торговые центры, среди прочего.

Как только эти магазины были добавлены, мы также решили добавить еще несколько переменных, связанных со временем. Для оценки нашей модели в первой итерации мы добавили следующие:: последняя_неделя_посещения и вчера_посещения кроме месяцев и дней недели.

Затем, во второй итерации мы применили больше временных диапазонов, например: среднее_последние_3_дней, среднее_последние_7_дней, среднее_последние_14_дней, среднее_последние_21_дней, среднее_последние_30_дней, среднее_последние_60_дней. Помимо всех этих временных переменных, некоторые другие были введены для этой второй попытки. Например, разделив город Хьюстон на четыре части области (юго-запад, северо-Запад, юго-восток, к северо-востоку) Население, доход за КБГ, стоянка рядом с магазинами.

Кроме того, мы хотели реализовать больше моделей помимо линейной регрессии. По этой причине, было решено использовать некоторые популярные методы, такие как СлучайныйЛес но это регрессорная версия (Случайный лесной регрессор), регрессорная версия Машины опорных векторов (СВР), ГрадиентБостигРегрессор, XGBoost, и Укладка, который состоит из комбинации различных классификаторов. Лучшая модель, которую мы получили на данный момент с точки зрения MSE и R2, была Укладка который состоял из четырех базовых моделей (XGBoost, ЛГБМРегрессор, Случайный лес и лассо-регрессия) с xgboost в качестве нашего метарегрессора.

Чтобы еще больше увеличить возможности прогнозирования нашей модели, мы должны использовать GridSearchCV от склеарна до тонкой настройки каждой модели стекирования, однако, поскольку это не для реального клиента, мы не реализовали это из-за нехватки вычислительных мощностей. (только штабелирование у одной компании заняло почти час).

Кроме, Справедливости ради стоит сказать, что самым важным улучшением, которое мы сделали во второй итерации, стал факт применения свертка техника, как это четко объяснено в разделе «Подготовка данных». — Первый взгляд на раздел реальных посещений.

После оценки всех этих соображений, которые были прокомментированы ранее, удалось получить, что лучшая модель была со следующими переменными: день, дождь, вчера_посещения , последняя_неделя_посещения, среднее_последние_7_дней, среднее_последние_30_дней.

Следующий, результаты, полученные в каждом из магазинов, отображаются после улучшения, которые обсуждались, были сделаны:

Метро

Авторы Счет (Р²) МШЭ
Лассо-регрессия 0.8194 2606.07
Случайный лесной регрессор (100 оценщики) 0.8165 2647.44
СВМ (СВР, С=1, ядро = 'поли', степень=2) 0.6548 4981.47
ГрадиентБостигРегрессор 0.8184 2680.45
XGBoost 0.8016 2928.15
Укладка 0.8190 2556.64

Стол 1 Модель Метро

Старбакс

Авторы Счет (Р²) МШЭ
Лассо-регрессия 0.9127 7137.03
Случайный лесной регрессор (100 оценщики) ** **
СВМ (СВР, С=1, ядро = 'поли', степень=2) ** **
ГрадиентБостигРегрессор 0.9163 6585.86
XGBoost 0.9063 7377.66
Укладка 0.9200 6371.41

Стол 2- Модель Старбакса

**Мы не пробовали тренировать эти методы в связи с тем, что результаты были намного хуже, чем у других, которые представлены..

Walmart

Авторы Счет (Р²) МШЭ
Лассо-регрессия 0.9209 163281.98
Случайный лесной регрессор (100 оценщики) ** **
СВМ (СВР, С=1, ядро = 'поли', степень=2) ** **
ГрадиентБостигРегрессор 0.9163 133153.86
XGBoost 0.9063 168204.66
Штабелирование* 0.9348 126180.24

Стол 3 Модель Уолмарт

Старый флот

Авторы Счет (Р²) МШЭ
Лассо-регрессия 0.7876 3228.11
Случайный лесной регрессор (100 оценщики) ** **
СВМ (СВР, С=1, ядро = 'поли', степень=2) ** **
ГрадиентБостигРегрессор 0.7410 4243.22
XGBoost 0.6754 5319.66
Укладка 0.7339 4360.41

Стол 4 Старая модель военно-морского флота

Авторы

Авторы

Из видения будущего стартапа, нам нужно было простое программное обеспечение для визуализации, чтобы показать нашим будущим клиентам, на что мы способны.. Имея это в виду, появилась идея приборной панели. Благодаря полнофункциональной информационной панели наши потенциальные клиенты получат представление о том, как наш стартап может помочь их компаниям в презентациях или презентациях..

Использование визуализаций — отличная идея для быстрой передачи технической информации, предоставляемой моделями машинного обучения, нашим будущим клиентам, даже если они могут не знать о машинном обучении или науке о данных в целом.. Такой подход позволяет нам проявлять творческий подход., лаконичный и эффективный. Мы помним крылатую фразу «Меньше значит больше»., нам нужно было подумать, какая информация должна быть на дашборде, а какая нет.

Поскольку нашей основной задачей как стартапа было прогнозирование посещений компаний., мы решили включить несколько ключевых показателей эффективности, созданных на основе прогноза посещений, таких как предполагаемые выгоды и предполагаемая рабочая сила., это еще больше поможет им. Конечно, каждый из наших ключевых показателей эффективности будет адаптирован к потребностям каждого из наших клиентов, поэтому способ их оценки. (Прогнозировать численность персонала Walmart на основе их посещений — это не то же самое, что прогнозировать численность персонала Starbucks.)

Принимая все во внимание, мы решили, что действительно важно не только создать эту ценную информацию для наших клиентов, но и иметь возможность эффективно показать им эту информацию таким образом, чтобы они могли применить ее на практике.. Это единственный способ, с помощью которого наши потенциальные клиенты могут понять, хотят ли они воспользоваться нашими услугами..

На балансе, после объяснения всего процесса создания информационной панели, мы прилагаем несколько изображений для иллюстрации нашей работы:

Мы проверили это на Google Maps 9 Пример панели мониторинга

Мы проверили это на Google Maps 10 Пример панели мониторинга

Авторы

Дизайн приборной панели придумать было непросто.. Мы решили показать ежедневные прогнозы нашей модели в сравнении с реальными ежедневными прогнозами на графике, чтобы было действительно просто сравнить производительность нашей модели с реальным количеством посещений.. Тем не менее, для информационной панели этого было недостаточно, поэтому мы провели небольшое исследование простых KPI в таких франшизах., некоторые из них объяснены ниже:

  • Нам было интересно узнать, сколько денег клиент потратит на Метро магазин в США, после некоторых исследований мы решили посчитать, что обычно эта цена составляет около 10 баксы. Не говоря уже о том, что в магазинах быстрого питания посещение клиента приравнивается к покупке..
  • Следующий вопрос был о том, сколько сотрудников необходимо на одного клиента в магазине Subway.. Согласно большинству статей на эту тему, 4 сотрудники необходимы для обслуживания в среднем 150 клиенты.
  • Для Старбакс франшиза, мы обнаружили, что средняя покупка составляет около 4,10 долларов, а также мы предполагаем, что каждый визит клиента туда эквивалентен покупке.
  • В магазине Старбакс, соотношение работник/клиент составляет 4 сотрудники для 210 клиенты более или менее.
  • В Walmart магазинах средняя цена, которую мы рассмотрели, составляет 55 доллары, и практически нет людей, которые ходят в Walmart без цели совершить покупку. Соотношение работник/клиент составляет 200 сотрудники для 2000 клиенты
  • В Старый флот в магазинах ситуация совсем другая, как все мы испытали на себе при покупке одежды, вполне нормально прийти в магазин одежды, ничего не купив, поэтому для этой статистики мы учли, что только половина посетителей становится покупателями.. Средняя покупка составляет 100 долларов в данном случае. На каждую работу требуется пять сотрудников. 250 клиенты.

Собираем и обобщаем всю эту информацию., мы добавили несколько агрегатов каждому нашему клиенту’ Панель мониторинга как Предполагаемый доход по дням, по неделям и по месяцам среди других персонализированных агрегатов.

Функция календаря предоставляется клиентам, чтобы они могли выбрать интервал времени, в течение которого они хотят узнать значение агрегатов, например: минимальный и максимальный доход в то время, общая прибыль, минимальное и максимальное посещение, средняя статистика выходных, и т.д.

Мы также добавили Предполагаемое количество работников по дням чтобы наш клиент мог предвидеть необходимую рабочую силу.

Авторы

Чтобы завершить этот трехмесячный проект, мы собираемся пройти этапы, с которыми мы столкнулись как группа, и то, как мы решали проблемы, с которыми мы сталкивались на протяжении всего проекта..

Первым ударом была задача понять, обработка и фильтрация данных, предоставляемых SafeGraph, за которым следует сложная задача установления реалистичной цели, ограниченной доступным нам временем и знаниями..

Задача извлечения информации из данных для создания нового, полезный, и внедрение бизнес-модели было процессом, который должен был пройти множество итераций..

Однажды была определена цель прогнозирования посещений определенных магазинов в США., проект взял другой темп. Мы знали, как преобразовать данные в нашу пользу и достичь нашей цели..

На этапе построения модели, Следующей сложностью стал небольшой размер временного окна, предоставленного нам SafeGraph.: только данные из 2020 и 2021. Это ограничивало нас с точки зрения использования возможных моделей глубокого обучения с хорошей репутацией для такого типа моделирования.. (ПОСМОТРЕТЬ ЛСТМ). Выбранный подход заключался в обучении регрессионной модели, устраняющей временные зависимости и сглаживающей систематические ошибки, возникающие на основе необработанных данных из Safe Graph.. Не говоря уже о многих попытках интегрировать интересующие переменные за пределами SafeGraph, что могло бы улучшить прогнозы., единственным успешным из которых было добавление метеорологических переменных.

Последней моделью, выбранной после нескольких итераций тонкой настройки, стала Stacking., описано в модели / Раздел «Оценочная итерация».

Следующим решением было выбрать лучший носитель и способ представления результатов модели с акцентом на бизнес..

Мы решили, что в гипотетическом случае проект окажется успешным., мы были бы стартапом в сфере Data Science Consulting, у которого была бы цифровая платформа, где у каждого из наших клиентов была бы личная зона с персонализированной информационной панелью, где можно было бы размещать прогнозы. / результаты проведенных анализов.

И вот наш проект заканчивается. Начиная с очень сложных данных, получена бизнес-модель с очень вероятным будущим в сфере труда. Это повод гордиться.

Авторы

Как мы уже упоминали, вся эта работа не будет напрасной, потому что мы все думаем, что у нее есть будущее – стать успешным стартапом.. Благодаря всему прогрессу, достигнутому в течение года, мы смогли создать проект, который показывает, на что мы способны и как мы можем помочь нашим потенциальным клиентам..

Что касается данных, он не наш, так как взят из SafeGraph, поэтому не будет в публичном доступе. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, по понятным причинам мы оставим критические части кода при себе, сохраняя его в приватном режиме в нашем репозитории Github.. Мы могли бы разработать документацию, чтобы в случае, если кто-то из нас попытается использовать код в будущем, он/она может легко повторить то, что мы делали в прошлом.

Авторы

Ван Дер Уолт, Стефан, S. Крис Колберт, и Гаэль Варокво. «Массив NumPy: структура для эффективных численных вычислений.» Вычисления в науке & инженерия 13.2 (2011): 22-30.

Лютня, Рина. «Исследование рынка метро.» (2010).

каменный, Фабиан, и другие. «Scikit-обучение: Машинное обучение на Python.» Журнал исследований машинного обучения 12 (2011): 2825-2830.

Гакенхаймер, Кори. «Что такое реакция?.» Введение в React. Торопиться, Беркли, Калифорния, 2015. 1-20.

Тоси, Сандро. Matplotlib для разработчиков Python. ООО «Пакт Паблишинг», 2009.

Марр, Бернар. Ключевые показатели эффективности (КПЭ): The 75 меры, которые должен знать каждый менеджер. Пирсон Великобритания, 2012.

Чжэн, Гладить, и другие. «Развитие транзита, потребительские удобства и стоимость дома: Свидетельства из кварталов пекинского метро.» Журнал жилищной экономики 33 (2016): 22-33.

Хейни, Мэтью Роберт. Влияние Walmart на мировоззрение сообщества: Исследование двух сообществ в Техасе. Дисс. 2009.

Верберт, Екатерина, и другие. «Обучение приложениям информационной панели аналитики.» Американский учёный-бихевиорист 57.10 (2013): 1500-1509.

Эфрон, Брэдли. «Недостающие данные, вменение, и бутстрап.» Журнал Американской статистической ассоциации 89.426 (1994): 463-475.

Коричневый, Роберт Гуделл. Сглаживание, прогнозирование и предсказание дискретных временных рядов. Курьерская корпорация, 2004.

Тинг, Кай Мин, и Ян Х.. Виттен. «Укладка моделей в мешках и крючках.» (1997).

Чен, Тяньци, и другие. «Xgboost: экстремальное усиление градиента.» Версия пакета R 0.4-2 1.4 (2015).

Элсворт, Стивен, и Стефан Гюттель. «Прогнозирование временных рядов с использованием сетей LSTM: Символический подход.» Препринт arXiv:2003.05672 (2020).

Музаффар, Шахзад, и Афшин Афшари. «Краткосрочные прогнозы нагрузки с использованием сетей LSTM.» энергетическое производство 158 (2019): 2922-2927.

Авторы

Авторы

Прежде всего, мы хотели бы принять во внимание, что характер наших данных представляет собой временной ряд. Мы преобразовали его, преобразовав зависящие от времени переменные в новые модифицированные функции.. После всех этих преобразований мы получили панельные данные.. тем не мение, пытаясь выполнить перекрестную проверку, а также загрузку, мы получили плохие результаты. Это имеет смысл, поскольку наши данные по своей сути упорядочены, поэтому их нельзя выбирать случайным образом..

Мы взяли первое 70% нашего набора данных в качестве обучающего подмножества и последнего 30% в качестве тестового подмножества. Первую настройку гиперпараметров, которую мы провели, была модель Риджа с альфа=1..

Метриками, которые мы использовали для оценки модели, являются МШЭ, среднеквадратическая ошибка, который будет использоваться для оценки качества нашего предиктора. Поскольку мы предполагаем, что цена переоценки и недооценки посетителей одинакова, MSE соответствует нашим целям.

The Р², R-квадрат (р2) это статистическая мера, которая представляет собой долю дисперсии зависимой переменной, которая объясняется независимой переменной или переменными в регрессионной модели.. Тогда как корреляция объясняет силу связи между независимой и зависимой переменной., R-квадрат объясняет, в какой степени дисперсия одной переменной объясняет дисперсию второй переменной.. мы знаем, что можно было бы изменить это и сделать нашу модель способной прогнозировать более чем на один день вперед, но это было бы напрасным трудом., если Р2 модели 0.50, тогда примерно половину наблюдаемых отклонений можно объяснить входными данными модели..

Наше первое внедрение модели оказалось не таким хорошим, как мы ожидали.. Наша модель Ridge имела MSE=11000 и R²=0,27.. Эти показатели было очень легко улучшить..

Затем, мы заметили большую ошибку в обучающем подмножестве. Данные отсортированы по магазинам., не по дате. Модель должна была отразить, как каждая строка развивалась с течением времени.. После сортировки данных по дате, мы еще раз обучили модель и протестировали ее. Сейчас, показатели лучше: MSE=6500 и R²=0,63.

После, мы пробовали разные модели, такие как Lasso и Elastic Net., с разными альфами. ( Мы перебрали разные значения альфа и выбрали наиболее оптимальное, чтобы создать баланс между частотой ошибок из-за дисперсии и систематической ошибки.). Вообще говоря, альфа увеличивает эффект регуляризации..

Лассо с альфа=1 было лучшим на данный момент..

После Риджа, Лассо и ElasticNet, простая линейная модель также была обучена, чтобы попытаться увидеть, сможет ли она улучшить показатели модели Лассо.. Мы обучили его в R, просто потому, что результаты, которые дает это программное обеспечение, очень полезны для понимания модели.. Метриками были MSE=5456 и R²=0,6874..

Рисунок в приложении 1 – Выходные данные регрессии метро

Для этого первого этапа построения модели, после некоторых итераций, объясненных ранее, мы наконец решили выбрать простая линейная регрессия.

Интерпретация коэффициентов:

Прежде всего, Значения NA, которые мы видим в таблице выше, обусловлены тем, что модель автоматически обнаружила высокую корреляцию в этих переменных и исключила их из списка переменных регрессора..

Звездочки, которые мы видим в правом столбце, указывают значимость каждой переменной., чем больше звезд, тем значимее коэффициент.

Понедельник и суббота имеют положительно значимые коэффициенты., где написано, что в понедельник и субботу посещений больше, а в другие дни недели (например, Четверг) есть меньше.

На данный момент мы не можем объяснить число_устройств_проживающих коэффициент, потому что по модели, чем больше устройств находится в cbg, тем меньше посещений. На следующей итерации мы удалим эту переменную из модели..

Мы видим, что коэффициент года 2020 отрицательный, и поскольку эта переменная является фиктивной переменной, мы делаем вывод, что посещения за год 2021 увеличились по сравнению с визитами в 2020 (это имеет смысл, учитывая всю ситуацию с COVID).

Что касается месячного коэффициента, мы не можем найти никакого социально-экономического объяснения.. Мы не знаем, как их интерпретировать, потому что не имеет смысла, что все коэффициенты отрицательны., поэтому на следующем этапе мы, вероятно, откажемся от этих переменных.

Последний, но тем не менее важный, все переменные, которые мы реализовали, связаны с прошлыми посещениями (посещения на прошлой неделе и посещения в последний день) весьма важны для модели (как мы и ожидали) и заставляет нас думать что если мы добавим больше переменных, связанных с прошлыми посещениями (например среднее количество посещений за последний месяц) мы могли бы улучшить нашу модель.

Авторы

Наша методология будет «Будь проще». (МАЛЕНЬКИЙ), у нас будет три списка задач, один список состоит из задач TO-DO; у него есть задачи, которые нам нужно выполнить, но они еще не запущены. Другой список будет состоять из задач, которые мы уже начали и выполняем. (не закончен). Последний список будет касаться выполненных задач., в этом списке мы будем хранить все выполненные задачи.

Каждая задача из МАЛЕНЬКИЙ методология будет иметь своих участников и сроки. Каждая задача должна быть завершена до установленного срока.

Чтобы отслеживать наш прогресс на протяжении всего проекта, мы будем использовать Trello. Это будет полезно для управления и организации всех задач, а также для того, чтобы увидеть, кто за какую из них отвечает.. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, этот инструмент позволит нам следить МАЛЕНЬКИЙ Пример функционального дашборда для каждого из наших клиентов был сделан с использованием вышеперечисленных технологий, а также конкретных и удобных библиотек для создания графиков и графиков.. Все списки задач видны на следующей доске Trello.: (https://trello.com/b/rqu6A2U8/project2021)

Что касается динамики встречи, мы будем использовать Teams или Discord (в зависимости от качества услуги в день встречи). Мы собираемся назначать встречи каждые выходные в час, удобный для всей команды. (желательно в воскресенье).

Когда дело доходит до разработки кода, мы будем использовать Visual Studio Code Live Share, который позволяет совместно использовать код в реальном времени., поэтому все участники проекта смогут одновременно работать с одним и тем же файлом кода.. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, мы будем использовать Github для управления версиями кода, а также центральный репозиторий, где будет храниться самая последняя версия кода.

(https://github.com/angel-langdon/Project2021)

Авторы

Pipenv — удобная библиотека для управления виртуальными средами.. Контуры POI с метаданными пространственной иерархии, отображающие, когда дочерние полигоны содержатся родительскими или когда два арендатора совместно используют один и тот же полигон, мы разработали скрипт, который автоматизирует установку необходимых пакетов, а также добавляет функции глобальных утилит в PATH Python. Делая это, оказавшись в виртуальной среде, мы можем легко импортировать глобальные функции, которые используются в нескольких частях проекта.. Например, из любой папки проекта мы могли бы сделать следующее:

из utils.download.download_safe_graph_data импорта download_census_data

Скрипт создан для автоматизации установки пакетов, а процесс добавления глобальных функций в путь можно найти здесь. (скрипт был загружен два месяца назад, и его можно проверить на Github по дате последнего коммита.) :

ссылка на гитхаб

Авторы

Ссылка на гитхаб: https://github.com/angel-langdon/Project2021

Авторы

Ссылка на входные данные: https://entredatos.es/project2021-costomize

 

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *