Lib/model accessor #1

du-phan · 2020-12-30T11:46:55Z

No description provided.

HenriChabert

Seems great! Some minor changes but nothing really important.

Could you also update the Makefile by adding your package please?

HenriChabert · 2021-01-12T14:15:17Z

dkulib/dku_model_accessor/README.md

+
+
+```python
+from dku_model_accessor import get_model_handler, ModelAccessor


Suggested change

from dku_model_accessor import get_model_handler, ModelAccessor

import dataiku

from dku_model_accessor import get_model_handler, ModelAccessor

HenriChabert · 2021-01-12T14:15:58Z

dkulib/dku_model_accessor/README.md

+```python
+from dku_model_accessor import get_model_handler, ModelAccessor
+
+model_id = 'XQyU0TO0'


Suggested change

model_id = 'XQyU0TO0'

model_id = 'YOUR_MODEL_ID'

Maybe use a more explicit ID

HenriChabert · 2021-01-12T14:17:06Z

dkulib/dku_model_accessor/constants.py

+class DkuModelAccessorConstants(object):
+    MODEL_ID = 'model_id'
+    VERSION_ID = 'version_id'
+    REGRRSSION_TYPE = 'REGRESSION'


Suggested change

REGRRSSION_TYPE = 'REGRESSION'

REGRESSION_TYPE = 'REGRESSION'

typo

HenriChabert · 2021-01-12T14:22:08Z

dkulib/dku_model_accessor/model_accessor.py

+    def get_original_test_df(self, limit=DkuModelAccessorConstants.MAX_NUM_ROW):
+        try:
+            full_test_df = self.model_handler.get_test_df()[0]
+            test_df = full_test_df[:limit]
+            logger.info('Loading {}/{} rows of the original test set'.format(len(test_df), len(full_test_df)))
+            return test_df
+        except Exception as e:
+            logger.warning('Can not retrieve original test set: {}. The plugin will take the whole original dataset.'.format(e))
+            full_test_df = self.model_handler.get_full_df()[0]
+            test_df = full_test_df[:limit]
+            logger.info('Loading {}/{} rows of the whole original test set'.format(len(test_df), len(full_test_df)))
+            return test_df


Suggested change

def get_original_test_df(self, limit=DkuModelAccessorConstants.MAX_NUM_ROW):

try:

full_test_df = self.model_handler.get_test_df()[0]

test_df = full_test_df[:limit]

logger.info('Loading {}/{} rows of the original test set'.format(len(test_df), len(full_test_df)))

return test_df

except Exception as e:

logger.warning('Can not retrieve original test set: {}. The plugin will take the whole original dataset.'.format(e))

full_test_df = self.model_handler.get_full_df()[0]

test_df = full_test_df[:limit]

logger.info('Loading {}/{} rows of the whole original test set'.format(len(test_df), len(full_test_df)))

return test_df

def get_original_test_df(self, limit=DkuModelAccessorConstants.MAX_NUM_ROW):

try:

full_test_df = self.model_handler.get_test_df()[0]

except Exception as e:

logger.warning('Can not retrieve original test set: {}. The plugin will take the whole original dataset.'.format(e))

full_test_df = self.model_handler.get_full_df()[0]

test_df = full_test_df[:limit]

logger.info('Loading {}/{} rows of the original test set'.format(len(test_df), len(full_test_df)))

return test_df

Code repeated, I would only try...catch on what can really raise an exception.

HenriChabert · 2021-01-12T14:25:01Z

dkulib/dku_model_accessor/model_accessor.py

+            logger.info('Fitting surrogate model ...')
+            surrogate_model = SurrogateModel(self.get_prediction_type())
+            original_test_df = self.get_original_test_df()
+            predictions_on_original_test_df = self.get_predictor().predict(original_test_df)
+            surrogate_df = original_test_df[self.get_selected_features()]
+            surrogate_df[DkuModelAccessorConstants.SURROGATE_TARGET] = predictions_on_original_test_df['prediction']
+            surrogate_model.fit(surrogate_df, DkuModelAccessorConstants.SURROGATE_TARGET)
+            feature_names = surrogate_model.get_features()
+            feature_importances = surrogate_model.clf.feature_importances_


Maybe it would be better to wrap into a new method fit_surrogate_model()

HenriChabert · 2021-01-12T14:27:10Z

dkulib/dku_model_accessor/model_accessor.py

+    def get_selected_features(self):
+        """
+        Return only features used in the model
+        """
+        selected_features = []
+        for feat, feat_info in self.get_per_feature().items():
+            if feat_info.get('role') == 'INPUT':
+                selected_features.append(feat)
+        return selected_features
+
+    def get_selected_and_rejected_features(self):
+        """
+        Return all features in the input dataset except the target
+        """
+        selected_features = []
+        for feat, feat_info in self.get_per_feature().items():
+            if feat_info.get('role') in ['INPUT', 'REJECT']:
+                selected_features.append(feat)
+        return selected_features


Suggested change

def get_selected_features(self):

"""

Return only features used in the model

"""

selected_features = []

for feat, feat_info in self.get_per_feature().items():

if feat_info.get('role') == 'INPUT':

selected_features.append(feat)

return selected_features

def get_selected_and_rejected_features(self):

"""

Return all features in the input dataset except the target

"""

selected_features = []

for feat, feat_info in self.get_per_feature().items():

if feat_info.get('role') in ['INPUT', 'REJECT']:

selected_features.append(feat)

return selected_features

def get_features_by_status(self, status):

return [feat for feat, feat_info in self.get_per_feature().items() if feat_info.get('role') in status]

def get_selected_features(self):

"""

Return only features used in the model

"""

return self.get_features_by_status(['INPUT'])

def get_selected_and_rejected_features(self):

"""

Return all features in the input dataset except the target

"""

return self.get_features_by_status(['INPUT', 'REJECT'])

DRY

HenriChabert · 2021-01-12T14:28:15Z

dkulib/dku_model_accessor/model_accessor.py

+        for algorithm in ALGORITHMS_WITH_VARIABLE_IMPORTANCE:
+            if isinstance(algo, algorithm):
+                return True
+            elif predictor.params.modeling_params.get('algorithm') in [DkuModelAccessorConstants.DKU_XGBOOST_CLASSIF, DkuModelAccessorConstants.DKU_XGBOOST_REGRESSION]:


I would place this array in a new var tree_based_algo = [DkuModelAccessorConstants.DKU_XGBOOST_CLASSIF, DkuModelAccessorConstants.DKU_XGBOOST_REGRESSION] for PEP8 and ease of addition

Du Phan added 4 commits December 30, 2020 12:22

add dku_model_accessor

f5af1ce

add .idea to .gitingore

fba767f

add requirements

7a00fbe

add readme

6b97942

du-phan requested a review from HenriChabert January 11, 2021 13:29

HenriChabert reviewed Jan 12, 2021

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Lib/model accessor #1

Lib/model accessor #1

du-phan commented Dec 30, 2020

HenriChabert left a comment

HenriChabert Jan 12, 2021

HenriChabert Jan 12, 2021

HenriChabert Jan 12, 2021

HenriChabert Jan 12, 2021

HenriChabert Jan 12, 2021

HenriChabert Jan 12, 2021

HenriChabert Jan 12, 2021



		```python
		from dku_model_accessor import get_model_handler, ModelAccessor

	from dku_model_accessor import get_model_handler, ModelAccessor
	import dataiku
	from dku_model_accessor import get_model_handler, ModelAccessor

	REGRRSSION_TYPE = 'REGRESSION'
	REGRESSION_TYPE = 'REGRESSION'

Lib/model accessor #1

Are you sure you want to change the base?

Lib/model accessor #1

Conversation

du-phan commented Dec 30, 2020

HenriChabert left a comment

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment

HenriChabert Jan 12, 2021

Choose a reason for hiding this comment