Python での Recordsdata Validation: Pandera と大きな期待への視線 Posted on April 11, 2023 By 📢 Julian Assange Recordsdata 検証は、ファイルがダウンストリーム処理 (分析、視覚化、機械学習など) に適した状態にあることを検証するアプローチです。 下流の利用者が自信を持って使用できるように、ファイルがその期待に応える必要があります。Pandera およびSizable Expectations は、ファイルの検証を実行するための最新の Python ライブラリです。 このウェブログの投稿では、各ライブラリの側面の膨大な概要を提示し、それらを使用していくつかの慣習的な検証テストを提示する方法を提示し、どれを黙って使用する必要があるかについていくつかの解決策を提示することができます.レコードデータの検証 – 従来の事務の啓蒙 私たちが探求しようとしている事務の啓蒙の流行は 1 つです。これらのライブラリが設計されている知識処理の世界 (つまり、ファイルの科学と工学) で慣習的な人。 合計すると、次のようになります。知識、愛の分析と視覚化に関する貴重な問題を引き起こす前に、輝かしい懸念を持ついくつかの生ファイルを取り込んだ可能性もあります。それをテストすることをお勧めします。次のボート販売ファイルを撤回し、this からの編集された抜粋Kaggle データセット 、次の 7 つの列を含む: ‘Identity’、’Model’、’Forex’、’Boat Form’、’12 months Constructed’、’Length’、’最後の 7 日間の訪問のシーケンス’. 身元モデル 外国為替 ボートフォーム 12ヶ月の構築 長さ最後の7日間のビューのシーケンス 03337スイスフランモーターヨット20174.0226 1 3490 ユーロ センターコンソールボート 2020 4.075 23770スイスフランスポーツボート0 3.69 124325900DKKスポーツボート20203.0 64現時点でのデバイスからソリューションへのいくつかの検証ソリューション:「ID」列の値は、互いに確認したい 「モデル」列の値は int「Forex」と「Boat Form」はカテゴリ変数であるため、これらの列は、定義されたアイテムの値と同様に完全にサイレントにする必要があります 列の 1 つに欠落ファイルがあるとは限りませんこれらは、ファイルをテストするために使用する検証ソリューションの最も価値のあるスタイルです。 . 場合によっては、 に相当する、もう少し洗練されたソリューションを規定するために急いで行くこともできます。 ’12 ヶ月の構築’、’長さ’、’Sequence of behold の数値最後の 7 日間の列は、列ごとにいくつかの実際的な変化の中で静かに落ちるはずです慣習的なレベルでは、検証ソリューションを規定するためのプロットを持っている必要があります (つまり、知識への期待) – 説明されているものを愛し、根拠に反してファイルを検証し、ツールにチェックリストを作成して、検証が行われなくなったケースについて確認してください。 基本的に検証の出力に完全に基づいて、必要な手段で失敗したケースを処理するために急いでいきます。 仮定でもわかるように、ask の下にある 2 つの機能は、それよりも少し余分に発生する可能性があります。 Pandera から始まるブログ投稿Pandera熟練した文書から: Aファイルおそらく PyPI から Pandera をダウンロードできます。 これを実行すると、合計 12 個の関数がマシンにインストールされました。 Pandera は DataFrameSchema を提供しています。 のようなもので、検証の状況を規定する簡単な手段を提供します テストファイルの列とは反対です。 スキーマ オブジェクトを作成したら、それを使用して、ファイルの本文フォームとは対照的に検証します。 ライブラリは、複数のサプライヤー、代わりに、パンダ を見てみましょう。 DataFrame このブログではボート販売ファイルの検証の実施前述の最も価値のある検証ソリューションを Pandera スキーマ内に適用しましょう。schema=DataFrameSchema( { "ID": 列(int), "モデル": 列(int), "外国為替" : Column(waft, Evaluate.isin()), "Boat Form": Column(str, Evaluate.isin(boat_types)), "12 months Constructed": Column(int, Evaluate.in_range(1950, 2022), coerce=Fair correct), "長さ": Column (waft, Evaluate.in_range(0.5, 110.0)), "最終 7 日間のビューのシーケンス": Column(int, Evaluate(lambda x: 0 <=x <3500)), }, odd=["Id"], ) 上記のコードは、知識検証テストの提案をキャプチャします𝚆𝚊𝚝𝚌𝚑 𝙽𝙾𝚆 📺 anti-Mastodon, Ask HN, Auto-Generate, Billionaires, Blockchain, coding, computer science, CRYPTO, Python, Show HN, Technology, TOP HN, Validation Tags:Blockchain, Python, Validation