CSV Fingerprint – инструмент для проверки файлов, содержащих данные

Пример результата проверки файла с данными с помощью CSV Fingerprint
Пример результата проверки файла с данными с помощью CSV Fingerprint
С помо­щью CSV Fingerprint мож­но быст­ро про­смот­реть CSV-файл с дан­ны­ми на пред­мет оши­бок, некор­рект­ных дан­ных или неза­пол­нен­ных яче­ек в визу­аль­ном фор­ма­те без боль­шо­го коли­че­ства отвле­ка­ю­щих дета­лей.

CSV явля­ет­ся про­стым и рас­про­стра­нен­ным фор­ма­том для таб­лич­ных дан­ных, кото­рый исполь­зу­ет запя­тые для раз­де­ле­ния строк и столб­цов. Почти все элек­трон­ные таб­ли­цы и про­грам­мы баз дан­ных поз­во­ля­ет поль­зо­ва­те­лям импор­ти­ро­вать и экс­пор­ти­ро­вать в CSV. Но часто про­грам­мы по-раз­но­му вос­при­ни­ма­ли нестан­дарт­ные слу­чаи, напри­мер, когда запя­тая есть в самих дан­ных.

Лег­ко сде­лать ошиб­ку, когда необ­хо­ди­мо сде­лать так, что­бы CSV-файл соот­вет­ство­вал кон­крет­но­му фор­ма­ту. Инстру­мент CSV Fingerprint поз­во­ля­ет про­смот­реть файл с дан­ны­ми в визу­аль­ном фор­ма­те без боль­шо­го коли­че­ства отвле­ка­ю­щих дета­лей. Цве­та соот­вет­ству­ют типам дан­ных. Для про­смот­ра отдель­ных эле­мен­тов мож­но нажать на ячей­ки. При этом появ­ля­ет­ся уве­ли­чи­тель­ное стек­ло, кото­рое поз­во­лит посмот­реть дан­ные в кон­крет­ной ячей­ке.

Пример

Для это­го ана­ли­за был исполь­зо­ван файл CSV с дан­ны­ми, собран­ны­ми в Кали­фор­ний­ском депар­та­мен­те вод­но­го хозяй­ства. Бла­го­да­ря тако­му ана­ли­зу мож­но уви­деть, что вто­рой стол­бец «lake» име­ет несколь­ко пустых яче­ек, кото­рые отоб­ра­жа­ют­ся тем­но-серым цве­том. Так­же мож­но уви­деть, что все зна­че­ния в столб­це «capacities» явля­ют­ся чис­ла­ми и окра­ше­ны в синий цвет.

Про­ве­сти ана­лиз сво­е­го фай­ла CSV. Для это­го необ­хо­ди­мо сохра­нить дан­ные в фор­ма­те CSV и открыть в любом тек­сто­вом редак­то­ре. После чего нуж­но ско­пи­ро­вать и вста­вить дан­ные в поле инстру­мен­та.

Инстру­мент CSV Fingerprint име­ет откры­тый исход­ный код, кото­рый мож­но най­ти на github.