csv-metadata-quality/csv_metadata_quality/app.py

import csv_metadata_quality.check as check
import csv_metadata_quality.fix as fix
import pandas as pd

def run():
    # Read all fields as strings so dates don't get converted from 1998 to 1998.0
    #df = pd.read_csv('/home/aorth/Downloads/2019-07-26-Bioversity-Migration.csv', dtype=str)
    #df = pd.read_csv('/tmp/quality.csv', dtype=str)
    df = pd.read_csv('data/test.csv', dtype=str)

    # Fix whitespace in all columns
    for column in df.columns.values.tolist():
        print(f'DEBUG: {column}')

        # Run whitespace fix on all columns
        df[column] = df[column].apply(fix.whitespace)

        # Run invalid multi-value separator check on all columns
        df[column] = df[column].apply(check.separators)

        if column == 'dc.identifier.issn':
            df[column] = df[column].apply(check.issn)

        if column == 'dc.identifier.isbn':
            df[column] = df[column].apply(check.isbn)

    # Write
    df.to_csv('/tmp/test.fixed.csv', index=False)
Add ISSN and ISBN checks using python-stdnum 2019-07-26 22:14:10 +02:00			`import csv_metadata_quality.check as check`
Refactor as package with subpackages This makes it cleaner for introducing checks, fixes, tests, docs, and tests in the future. Currently can be run like this: python -m csv_metadata_quality CSV input and output paths are still hard coded. See: https://dev.to/codemouse92/dead-simple-python-project-structure-and-imports-38c6 2019-07-26 21:11:10 +02:00			`import csv_metadata_quality.fix as fix`
			`import pandas as pd`

			`def run():`
			`# Read all fields as strings so dates don't get converted from 1998 to 1998.0`
			`#df = pd.read_csv('/home/aorth/Downloads/2019-07-26-Bioversity-Migration.csv', dtype=str)`
			`#df = pd.read_csv('/tmp/quality.csv', dtype=str)`
csv_metadata_quality/app.py: Fix path to test.csv 2019-07-26 23:25:30 +02:00			`df = pd.read_csv('data/test.csv', dtype=str)`
Refactor as package with subpackages This makes it cleaner for introducing checks, fixes, tests, docs, and tests in the future. Currently can be run like this: python -m csv_metadata_quality CSV input and output paths are still hard coded. See: https://dev.to/codemouse92/dead-simple-python-project-structure-and-imports-38c6 2019-07-26 21:11:10 +02:00
			`# Fix whitespace in all columns`
			`for column in df.columns.values.tolist():`
			`print(f'DEBUG: {column}')`

csv_metadata_quality/app.py: Add comment 2019-07-26 22:49:13 +02:00			`# Run whitespace fix on all columns`
Refactor as package with subpackages This makes it cleaner for introducing checks, fixes, tests, docs, and tests in the future. Currently can be run like this: python -m csv_metadata_quality CSV input and output paths are still hard coded. See: https://dev.to/codemouse92/dead-simple-python-project-structure-and-imports-38c6 2019-07-26 21:11:10 +02:00			`df[column] = df[column].apply(fix.whitespace)`

Add check for invalid multi-value separators 2019-07-26 22:48:24 +02:00			`# Run invalid multi-value separator check on all columns`
			`df[column] = df[column].apply(check.separators)`

Add ISSN and ISBN checks using python-stdnum 2019-07-26 22:14:10 +02:00			`if column == 'dc.identifier.issn':`
			`df[column] = df[column].apply(check.issn)`

			`if column == 'dc.identifier.isbn':`
			`df[column] = df[column].apply(check.isbn)`

Refactor as package with subpackages This makes it cleaner for introducing checks, fixes, tests, docs, and tests in the future. Currently can be run like this: python -m csv_metadata_quality CSV input and output paths are still hard coded. See: https://dev.to/codemouse92/dead-simple-python-project-structure-and-imports-38c6 2019-07-26 21:11:10 +02:00			`# Write`
Bring test.csv into project 2019-07-26 22:14:37 +02:00			`df.to_csv('/tmp/test.fixed.csv', index=False)`