cluster.data package¶
Submodules¶
cluster.data.data_node module¶
cluster.data.data_node_frame module¶
-
class
cluster.data.data_node_frame.
DataNodeFrame
[source]¶ Bases:
cluster.data.data_node.DataNode
DataNode Configuration NULL처리가 중요한데 Category “” Continuous 0.0
-
check_eval_node_for_wdnn
(_conf_data)[source]¶ - Eval Data의 Category 데이터를 가져오기 위해서 필요
- WDNN이면 data_conf_node_id를 반환
- Args:
- params:
- _conf_data : nnid의 wf정보
- Returns:
- data_conf_node_id DataConf의 ID반환
-
create_example_pandas
(row, CONTINUOUS_COLUMNS, CATEGORICAL_COLUMNS, label, label_type)[source]¶ - Converting tfrecord example from pandas
- Pandas Dataframe을 tfrecord로 변경하는 함수(WDNN용)
- Args:
- params:
- row : Dataframe row
- CONTINUOUS_COLUMNS
- CATEGORICAL_COLUMNS
- label
- label_type
- Returns:
- tfrecord example
Raises:
-
create_tfrecords_file
(output_file, skip_header, df_csv_read, label, label_type)[source]¶ Creates a TFRecords file for the given input data and example transofmration function
-
dataconf_eval_time_check
(_wf_data_conf_node, _node_name)[source]¶ data conf가 있어도, eval이면 unique값만 추가한다. :param data_dfconf_list (nn00001_1_dataconf_node) :return True:
-
dataconf_first_time_check
(_wf_data_conf_node, _node_name)[source]¶ data_conf가 비어있거나, DataNode일때만 업데이트 하도록 한다. :param data_dfconf_list (nn00001_1_dataconf_node) :return True:
-
get_eval_node_file_list
(conf_data)[source]¶ - Eval Data Node 찾고, 경로를 찾아서 CSV를 읽음
- self.data_conf에 cell_feature에 넣음
- Args:
- params:
- _conf_data : nnid의 wf정보
- Returns:
- None
-
make_column_types
(df, node_id, data_dfconf_list)[source]¶ csv를 읽고 column type을 계산하여 data_conf에 저장(data_conf가 비어있을때 ) :param df: :param conf_data:
-
make_continuous_category_list
(cell_feature)[source]¶ Example 을 위한 Continuous 랑 Categorical을 구분하기 위한 list
-
make_drop_duplicate
(_df_csv_read_ori, _drop_duplicate, _label)[source]¶ Label을 제외한 나머지 값중에 중복이 있으면 Row 전체를 제거한다. Args:
- params:
- _preprocessing_type: [‘scale’, ‘minmax_scale’, ‘robust_scale’, ‘normalize’, ‘maxabs_scale’]
- _df_csv_read_ori : pandas dataframe
- _label
- Returns:
- Preprocessing Dataframe
-
make_label_values
(_data_dfconf_list, _df_csv_read)[source]¶ label의 Unique Value를 DataConf에 넣어줌 Args:
- params:
- _data_dfconf_list : nnid의 wf정보
- _df_csv_read : Dataframe(train, eval)
- Returns:
- _label : label 항목 값 _labe_type : label type
-
make_preprocessing_pandas
(_df_csv_read_ori, _preprocessing_type, _label)[source]¶ - SKLearn을 사용해서 Pandas를 Proprocessing
- label은 Preprocessing 하면 안됨
- Args:
- params:
- _preprocessing_type: [‘scale’, ‘minmax_scale’, ‘robust_scale’, ‘normalize’, ‘maxabs_scale’]
- _df_csv_read_ori : pandas dataframe
- _label
- Returns:
- Preprocessing DataFrame
-
make_unique_value_each_column
(df, node_id)[source]¶ - Dataframe중 범주형 데이터를 찾아서 유일한 값의 갯수를 반환한다
- Unique Value return in Dataframe
- Args:
- params:
- df : dataframe
- node_id: nnid
- Returns:
- json
Raises:
-
save_tfrecord
(csv_data_file, store_path, skip_header, df_csv_read, label, label_type)[source]¶ Creates a TFRecords file for the given input data and example transofmration function
-
set_dataconf_for_checktype
(df, node_id, data_dfconf_list)[source]¶ csv를 읽고 column type을 계산하여 data_conf에 저장(data_conf가 비어있을때 ) 카테고리 컬럼은 Unique 한 값을 구해서 cell_feature_unique에 넣어줌(Keras용)
Parameters: - df, nnid, ver, node (wf_data_config,) –
- conf_data –
-
set_dataconf_for_labels
(df, label)[source]¶ csv를 읽고 label의 distict 값을 가져옴 Extract distinct label values :param wf_data_config, df, nnid, ver, node: :param conf_data:
-
set_default_dataconf_from_csv
(wf_data_config, node_id, data_conf)[source]¶ Parameters: - df, nnid, ver, node (wf_data_config,) –
- conf_data –
tfrecord 때문에 항상 타입을 체크하고 필요할때만 저장
-
src_local_handler
(conf_data)[source]¶ - Converting csv to h5 and Tf Record
Data Node for Data_frame 1) Wdnn인 경우
Pandas를 파싱하면서 Categorical 인지 Continuous인지 구별하여 DataConf에 입력(eval data할때는 안함. DataNode 기준 ) Category일경우 Unique값을 Dataconf에 입력 Label type이 Categorical이면 Label의 Unique값을 DataConf입력 _preprocess_type에 따라 Pandas 전처리- _multi_node_flag 가 True일 경우 TfRecord까지 생성
- Wdnn이 아닌경우 H5만 생성
- Args:
- params:
- conf_data : nn_info
- Returns:
- None
Raises:
-
cluster.data.data_node_iob module¶
-
class
cluster.data.data_node_iob.
DataNodeIob
[source]¶ Bases:
cluster.data.data_node.DataNode
,cluster.common.neural_common_bilismcrf.BiLstmCommon