26 отличных открытых наборов данных для ваших проектов Data Science/ML

Поиск нужных наборов данных может быть сложной задачей, особенно когда они нужны для машинного обучения (ML) и проектов по науке о данных. Мы сокращаем ваши исследовательские усилия, предоставляя окончательный список бесплатных наборов данных.

Наборы данных — это просто наборы данных. Это могут быть финансы, здоровье общества, данные фондового рынка, банковские данные, географические данные, данные исследований в области физики частиц, рейтинги продуктов на сайте электронной коммерции и т. д.

Наборы данных содержат данные, собранные с помощью стандарта научных исследований, и важны для дальнейшей визуализации, извлечения, прогнозирования и т. д. Поскольку данные являются эквивалентом сырой нефти в цифровой вселенной, наборы данных становятся коммерческими и дефицитными.

Продолжайте читать, чтобы узнать основы о наборах данных. Вы также обнаружите некоторые наборы данных с открытым исходным кодом, которые действительно бесплатны для ваших проектов машинного обучения (ML) или науки о данных.

Оглавление

Что такое наборы данных?

Наборы данных — это набор данных в структурированном и организованном контейнере. Обычно геодезисты связывают наборы данных с уникальным органом, например, с открытыми данными Всемирного банка.

Опять же, сборщики данных хранят наборы данных, относящиеся к определенной теме, такой как данные переписи населения Соединенных Штатов Америки 2020 года, опубликованные Бюро переписи населения США.

Вы найдете множество наборов данных по глобальным и локальным проблемам. Большинство наборов данных содержат взаимосвязанные точки данных. Например, население страны и то, как ожирение относится к различным классам этого населения.

Специалистам по данным может потребоваться очистить, реструктурировать и обработать такие наборы данных с помощью инструментов больших данных, чтобы прийти к ценным выводам, таким как сокращение пластиковых отходов путем анализа данных об использовании пластика, устранение проблем с рабочей силой путем анализа данных о заработной плате, обучение искусственного интеллекта (ИИ) и т. д. на.

Типы наборов данных

В зависимости от источника наборов данных они могут быть общедоступными или частными. Публичные наборы данных открыты для всех и вносят большой вклад в исследования и разработки.

Опять же, наборы данных могут быть следующих типов в зависимости от содержащейся в них информации:

  • Многомерные: такие данные содержат несколько переменных.
  • Категориальный: Он изображает многие категории людей.
  • Числовые: такие наборы данных измеряют данные в числах, таких как возраст, рост и т. д.
  • Корреляция: в этом типе точки данных взаимосвязаны.
  • На основе файлов: здесь наборы данных хранятся в файлах.
  • Двумерный: набор данных с двумя переменными и связью между ними.
  • Набор веб-данных: данные, собранные с одного или нескольких подобных интернет-порталов.
  • База данных: такие наборы данных хранят данные в таблицах, столбцах и строках.

Наборы данных с открытым исходным кодом для проектов Data Science

Бесплатные наборы данных — это топливо, которое подпитывает вашу страсть к карьере в области науки о данных. Потому что, если вы находитесь на ранних этапах своей карьеры в области науки о данных, вы можете заняться личными и некоммерческими проектами для уверенности в себе или для создания портфолио.

Во-первых, вы можете легко проверить свои новые навыки, применяя инструменты и методы для решения реальных проблем с наборами данных.

Например, есть в свободном доступе данные исследований рака, данные о Covid-19, данные о судимости ФБР, данные анализа частиц из ЦЕРН и т. д. Вы можете использовать эти данные и построить модель науки о данных для решения жизненно важных социальных, финансовых и медицинских проблем. .

Во-вторых, такие проекты работают как усилитель портфолио для вашей карьеры. Если вы можете создать успешную модель анализа данных, которая может предложить полезную информацию, вы можете продемонстрировать эти модели в Интернете, создав веб-сайты портфолио. Работодатели предпочитают проекты заявлениям о целях.

Бесплатные наборы данных для проектов машинного обучения

Как и специалист по науке о данных, специалист по машинному обучению также должен работать над самоуправляемыми проектами, чтобы проверить свои навыки. Если проект станет успешным, он также станет идеальным компонентом для вашего онлайн- или офлайн-портфолио проектов машинного обучения.

Таким образом, теперь вы можете понять, что рост науки о данных и машинного обучения зависит от структурированных наборов данных. Если бы такие наборы данных были слишком коммерциализированы, исследования и разработки в области науки о данных стали бы полностью корпоративно-ориентированными.

Чтобы сделать исследования в области машинного обучения доступными для всех, следующие агентства, учреждения и платформы предлагают бесплатные наборы данных:

Данные.gov

Вы найдете все открытые данные, собранные и обработанные правительством США. на Data.gov. Платформа также предлагает ресурсы и инструменты для проведения исследований, проектирования визуализации данных, разработки мобильных/веб-приложений и т. д.

Его известные наборы данных включают данные об устойчивом землепользовании, данные о сельском жилье, внутренние электронные навигационные карты и т. Д.

Открытые наборы данных: Kaggle

Kaggle предлагает океан общедоступных данных и компьютерных кодов для проектов по науке о данных. Вы можете выбрать Наборы данных для необработанных данных и Код для кодов программирования. Популярные наборы данных на Kaggle — это данные AMEX, Simpsons Viewership, данные обучения чат-ботов и т. д.

Наборы данных сегментов: YouTube 8-M

Сегментированные наборы данных YouTube 8-M предлагают сегментные аннотации, проверенные людьми-аудиторами. Вы также можете получить доступ к набору данных YouTube-8M с того же портала. Набор данных содержит 6,1 миллиона идентификаторов видео, 350 000 часов видео, 2,6 миллиарда аудио/визуальных функций, 3863 класса видео и в среднем 3,0 метки на видео.

Реестр открытых данных на AWS

ROD на AWS помогает специалистам по обработке и анализу данных совместно использовать и находить наборы данных, размещенные на ресурсах AWS. Некоторые интересные наборы данных, которые вы можете найти здесь, включают Атлас генома рака, наборы данных Foldingathome COVID-19, Common Crawl и т. д.

Репозиторий машинного обучения: UCI

Репозиторий машинного обучения UCI в настоящее время поддерживает 622 набора данных, подходящих для специалистов по данным и инженеров машинного обучения для обучения своих моделей ИИ. Кроме того, есть поисковый интерфейс для исследования баз данных. Популярными достопримечательностями являются набор данных Accelerometer, набор данных Synchronous Machine, Wikipedia Math Essentials, набор данных Turkish Headlines и т. д.

Общедоступные наборы данных BigQuery: Google Cloud

Многие общедоступные наборы данных хранятся в BigQuery. Google делает набор данных доступным бесплатно в рамках программы общедоступных наборов данных Google Cloud. Однако бесплатный запрос имеет ограничение в 1 ТБ в месяц. Вы можете выполнять стандартные SQL-запросы и устаревшие SQL-запросы.

Потрясающие общедоступные наборы данных: GitHub

Awesome Public Datasets — это набор данных с открытым исходным кодом, который содержит общедоступные данные по темам. Собранный и отсортированный из различных блогов, ответов и отзывов пользователей, он объединяет бесплатные и платные наборы данных по физике, спорту, программному обеспечению, естественному языку и машинному обучению.

Данные Всемирного банка

Открытые данные Всемирного банка — это платформа, на которой вы получаете бесплатный доступ к глобальным данным о развитии. Он также предлагает другие ценные ресурсы, такие как предварительно отформатированные таблицы и отчеты. Вы можете легко просматривать данные по странам или показателям, чтобы получить необходимый набор данных.

FiveThirtyEight: Данные

FiveThirtyEight — американский веб-сайт, посвященный анализу опросов общественного мнения, политике, экономике и спорту. Вы можете получить доступ к этим опросам и прогнозам через наборы данных с его платформы. Вы можете скачать наборы данных в один клик.

Имиджнет

ImageNet — это база данных изображений, из которой исследователи со всего мира могут получать наборы данных с открытым исходным кодом для своих некоммерческих проектов. Здесь изображения организованы на основе иерархии WordNet. Проект играет жизненно важную роль в исследованиях глубокого обучения продвинутого уровня.

Архивы наборов данных: ДАННЫЕ ЮНИСЕФ

Используя Архивы наборов данных, вы можете получить наборы данных, собранные ЮНИСЕФ по всему миру. Данные о миграции, перемещении, питании, подключении, образовании, здоровье, обучении, смертности, насилии, развитии детства, детских браках, детском труде и различные статистические данные доступны здесь.

Найти открытые данные: правительство. Великобритании

Если вашему проекту нужны данные, опубликованные местными органами власти и центральным правительством Великобритании, вам следует посетить портал Find Open Data. Он охватывает государственные расходы, бизнес, здравоохранение, образование, оборону и другие наборы данных.

Данные: Бюро переписи населения США.

Вам нужны данные переписи населения США для соответствующего проекта? Вы можете воспользоваться помощью USCB Data. Здесь вы можете изучить данные переписи 2020 года, таблицы, карты и профили данных, визуализируя данные и используя инструменты данных.

Данные и статистика: CDC

Центры по контролю и профилактике заболеваний федерального агентства США также бесплатно предоставляют общественности наборы данных для доступа к данным и статистике с этого портала. Темы набора данных: здоровье окружающей среды, хронические заболевания, рождаемость и рождаемость, смертность и смертность, ожидаемая продолжительность жизни, травмы и насилие, репродуктивное здоровье, заболевания, подлежащие регистрации в национальном масштабе, и т. д.

Наборы данных: Массачусетский технологический институт

Этот набор данных фокусируется на данных о вибрации, вызываемой вихрем. В Центре океанографической инженерии Массачусетского технологического института размещены некоторые общедоступные наборы данных для сравнительного анализа компьютерного кода. Наборы данных открыты для всех, чтобы предлагать новые теории на основе данных и синхронизировать исследователей, работающих в одной области.

Каталог данных Всемирного банка

Каталог данных собирает бесплатные наборы данных, которые упрощают доступ к данным Всемирного банка, связанным с развитием. Использование его в различных проектах очень просто, так как вы можете легко найти и загрузить нужную информацию. Он содержит более 5000 наборов данных, охватывающих микроданные, финансы и энергетические платформы Всемирного банка.

Данные космической науки НАСА

НАСА предлагает доступ к своим архивным данным в Координированном архиве космических научных данных. Эта платформа является большим подспорьем для широкой публики, особенно для людей, работающих в сфере образования и космических исследований. Он имеет 400 ТБ цифровых данных, содержащих информацию о 550 космических науках.

Получить данные: внутри Airbnb

Airbnb — всемирно известная онлайн-площадка для проживания в семье и аренды на время отпуска. Он также предлагает сбор данных по различным городам мира из Get the Data. Вы можете просмотреть город, чтобы быстро получить данные. Кроме того, вы можете запросить необходимые данные и прочитать предположения о данных на этом портале.

Веб-данные: обзоры Amazon

Те, кто заинтересован в исследованиях рынка и обзорах продуктов, должны использовать наборы данных, предоставленные Snap Web Data. Он содержит более 34 миллионов отзывов пользователей на Amazon с июня 1995 года по март 2013 года. Набор данных содержит простой текст, информацию о продукте, имя пользователя, рейтинги и обзор.

Данные МВФ

Портал данных МВФ полезен для всех типов экономических и финансовых данных. Независимо от того, ищете ли вы финансовые данные МВФ, статистику внешнего сектора, основные публикации или данные по микроэкономике, вы можете найти их здесь. Кроме того, вы можете использовать фильтр для получения данных по странам.

Google Книги Ngrams

Если вы работаете над частями речи и языком, Google Книги Ngrams могут вам существенно помочь. Этот набор данных с открытым исходным кодом дает вам представление об использовании определенного слова и фразы на протяжении всей истории или определенного периода времени. Источником этого набора данных являются цифровые документы, проиндексированные Google.

Рыночные данные: The Financial Times

Если вы хотите получить надежные и точные данные о глобальных и региональных рынках акций, Markets Data от The Financial Times поможет вам. Это позволяет вам работать с рыночными данными из Америки, Азиатско-Тихоокеанского региона, Европы, Африки и мирового рынка.

Данные о Земле: НАСА

НАСА предоставляет полный и открытый доступ к своим научным данным через программу Earth Data, которая помогает вам понять нашу родную планету и выполнять проекты с ней. Вы можете найти бесплатные наборы данных об атмосфере, биосфере, криосфере, человеческом измерении, поверхности земли, океане, твердой земле, взаимодействии Солнца и Земли и земной гидросфере.

Поиск набора данных: Google

Если вы студент, исследователь или специалист по данным, ищущий наборы данных для поддержки своего проекта, вы можете воспользоваться помощью портала поиска наборов данных. Вы можете назвать его поисковой системой для наборов данных, поскольку он позволяет вам находить наборы данных, размещенные в различных отчетах в Интернете, с помощью поиска по ключевым словам.

Открытые данные: ЦЕРН

Европейская исследовательская организация CERN имеет портал открытых данных, который вы можете использовать для доступа к данным, полученным в ходе исследований в CERN. Этот портал набора данных содержит два петабайта данных, связанных с физикой элементарных частиц. Кроме того, он поставляется с приложениями и документацией, необходимыми для анализа данных.

Исследователь криминальных данных: ФБР

Crime Data Explorer (CDE) — это набор данных с открытым исходным кодом от ФБР, цель которого — упростить доступ к криминальным, некриминальным и правоохранительным данным. Помимо возможности находить необходимые данные с помощью визуализации и фильтрации по категориям, эта платформа позволяет загружать данные в формате CSV.

Заключительные слова

До сих пор вы прошли действительно исчерпывающий список высококачественных наборов данных. В статье представлены данные из различных ниш, таких как физика, медицинские записи, космические исследования, судимости, рейтинги продуктов и т. д.

В зависимости от проекта по науке о данных или машинному обучению, которым вы занимаетесь, вы можете сделать свой выбор. Почти все наборы данных также имеют надлежащие инструкции, которые помогут вам в вашем проекте.

Вам также могут быть интересны эти ресурсы для изучения науки о данных и машинного обучения.