панди

Pandas read_csv Урок

Pandas read_csv Урок

Панди .read_csv

Вече обсъдих някои от историята и употребите на пандите на библиотеката на Python.  pandas е проектиран от необходимостта от ефективен библиотечен анализ и манипулация на библиотека данни за Python.  За да заредите данни за анализ и манипулация, pandas предлага два метода, DataReader и read_csv.  Тук покрих първото.  Последното е предмет на този урок.

.read_csv

Има голям брой безплатни хранилища за данни онлайн, които включват информация за различни полета.  Включих някои от тези ресурси в раздела за справки по-долу.  Тъй като демонстрирах вградените API за ефективно изтегляне на финансови данни тук, ще използвам друг източник на данни в този урок.

Данни.gov предлага огромен избор от безплатни данни за всичко, от климатичните промени до U.С. производствена статистика.  Изтеглих два набора от данни за използване в този урок.  Първата е средната дневна максимална температура за окръг Бей, Флорида. Тези данни са изтеглени от U.С. Инструментариум за устойчивост на климата за периода от 1950 г. до сега.

Второто е изследването на стоковите потоци, което измерва режима и обема на вноса в страната за период от 5 години.

И двете връзки за тези набори от данни са предоставени в раздела за препратки по-долу.  The .read_csv методът, както става ясно от името, ще зареди тази информация от CSV файл и ще създаде екземпляр на a DataFrame извън този набор от данни.

Употреба

Всеки път, когато използвате външна библиотека, трябва да кажете на Python, че трябва да бъде импортирана.  По-долу е редът с код, който импортира библиотеката на пандите.

импортирайте панди като pd

Основното използване на .read_csv метод е по-долу.  Това създава инстанции и попълва a DataFrame df с информацията в CSV файла.

df = pd.read_csv ('12005-year-hist-obs-tasmax.csv ')

Като добавим още няколко реда, можем да проверим първия и последния 5 реда от новосъздадения DataFrame.

df = pd.read_csv ('12005-year-hist-obs-tasmax.csv ')
печат (df.глава (5))
печат (df.опашка (5))

Кодът е заредил колона за година, средната дневна температура в Целзий (tasmax) и е изградил 1-базирана схема за индексиране, която нараства за всеки ред данни.    Също така е важно да се отбележи, че заглавията се попълват от файла.  При основното използване на метода, представен по-горе, се прави изводът, че заглавията са в първия ред на CSV файла.  Това може да бъде променено чрез предаване на различен набор от параметри на метода.

Параметри 

Предоставих връзката към пандите .read_csv документация в препратките по-долу.  Има няколко параметъра, които могат да се използват за промяна на начина на четене и форматиране на данните в DataFrame.

Има справедлив брой параметри за .read_csv метод.  Повечето не са необходими, защото повечето от наборите от данни, които изтегляте, ще имат стандартен формат.  Това са колони на първия ред и разделител със запетая.

Има няколко параметъра, които ще подчертая в урока, защото те могат да бъдат полезни.  По-подробно проучване може да се вземе от страницата с документация.

index_col

index_col е параметър, който може да се използва за обозначаване на колоната, която съдържа индекса.  Някои файлове могат да съдържат индекс, а други не.  В първия ни набор от данни оставих python да създаде индекс.  Това е стандартът .read_csv поведение.

Във втория ни набор от данни е включен индекс. Кодът по-долу зарежда DataFrame с данните в CSV файла, но вместо да създава инкрементен индекс, базиран на цяло число, той използва колоната SHPMT_ID, включена в набора от данни.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ')
печат (df.глава (5))
печат (df.опашка (5))

Докато този набор от данни използва същата схема за индекса, други набори от данни може да имат по-полезен индекс.

nrows, skiprows, usecols

При големи набори от данни може да искате да заредите само секции от данните.  The nrows, skiprows, и usecols параметрите ще ви позволят да нарязвате данните, включени във файла.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ', nrows = 50)
печат (df.глава (5))
печат (df.опашка (5))

Чрез добавяне на nrows параметър с целочислена стойност 50, .tail call сега връща редове до 50.  Останалите данни във файла не се импортират.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', skiprows = 1000)
печат (df.глава (5))
печат (df.опашка (5))

Чрез добавяне на skiprows параметър, нашия .глава col не показва начален индекс от 1001 в данните.  Тъй като пропуснахме заглавния ред, новите данни загубиха заглавката и индекса въз основа на данните от файла.  В някои случаи може да е по-добре да нарязвате данните си в DataFrame а не преди зареждане на данните.

The usecols е полезен параметър, който ви позволява да импортирате само подмножество от данни по колона.  Може да му бъде предаден нулев индекс или списък с низове с имената на колоните.  Използвах кода по-долу, за да импортирам първите четири колони в новата ни DataFrame.

df = pd.read_csv ('cfs_2012_pumf_csv.текст',
index_col = 'SHIPMT_ID',
nrows = 50, usecols = [0,1,2,3])
печат (df.глава (5))
печат (df.опашка (5))

От нашия нов .глава обадете се, нашите DataFrame сега съдържа само първите четири колони от набора от данни.

двигател

Последният параметър, който според мен би бил полезен в някои набори от данни, е двигател параметър.  Можете да използвате или базиран на C двигател, или базиран на Python код.  Двигателят C естествено ще бъде по-бърз.  Това е важно, ако импортирате големи масиви от данни.  Предимствата на разбора на Python са по-богат набор от функции.  Тази полза може да означава по-малко, ако зареждате големи данни в паметта.

df = pd.read_csv ('cfs_2012_pumf_csv.текст',
index_col = 'SHIPMT_ID', двигател = 'c')
печат (df.глава (5))
печат (df.опашка (5))

Проследяване

Има няколко други параметъра, които могат да разширят поведението по подразбиране на .read_csv метод.  Те могат да бъдат намерени на страницата с документи, която посочих по-долу.  .read_csv е полезен метод за зареждане на набори от данни в панди за анализ на данни.  Тъй като много от безплатните набори от данни в интернет нямат приложни програмни интерфейси (API), това ще се окаже най-полезно за приложения извън финансовите данни, където са налице стабилни приложни програмни интерфейси за импортиране на данни в панди.

Препратки

https: // панди.пидата.org / pandas-docs / stable / generated / pandas.read_csv.html
https: // www.данни.правителство /
https: // набор от инструменти.климат.gov / # изследовател на климата
https: // www.преброяване.gov / econ / cfs / pums.html

Как да инсталирате и играете Doom на Linux
Въведение в Doom Серията Doom възниква през 90-те години след пускането на оригиналния Doom. Това беше незабавен хит и от този момент нататък серията ...
Vulkan за потребители на Linux
С всяко ново поколение графични карти виждаме, че разработчиците на игри преместват границите на графичната вярност и се приближават една крачка до фо...
OpenTTD срещу Simutrans
Създаването на собствена транспортна симулация може да бъде забавно, релаксиращо и изключително примамливо. Ето защо трябва да сте сигурни, че изпробв...