Overview
Cleaning variable’s names
What an ideal table would look like?
What parameters of the allometric equations I would like to replace by constants?
A side note on tidy data

Overview

The goal of this document is to explore the data base of allometric equations from temperate forests. This is in preparation to a meeting with Erika Gonzalez (GonzalezEB@si.edu). Here I focus mainly on wrangling issues.

library(tidyverse)
library(allodb)

Cleaning variable’s names

glimpse(allodb::allo_temperate)

Observations: 415
Variables: 25
$ Site                                                        <chr> "Lilly Dic...
$ Family                                                      <chr> "Anacardia...
$ Species                                                     <chr> "Rhus typh...
$ `Species code1`                                             <chr> "899", "36...
$ `Growth form`                                               <chr> "Shrub", "...
$ `Wood specific gravity`                                     <chr> "0.5", "0....
$ a                                                           <chr> "-2.48", "...
$ b                                                           <dbl> 2.48, 2.48...
$ c                                                           <dbl> NA, NA, NA...
$ d                                                           <dbl> NA, NA, NA...
$ MinDBH                                                      <chr> "2.5", "2....
$ MaxDHB                                                      <chr> "56", "56"...
$ `DBH Units`                                                 <chr> "cm", "cm"...
$ `Biomass Units`                                             <chr> "kg", "kg"...
$ `AGB equation`                                              <chr> "biomass=e...
$ `Corrected for bias`                                        <chr> "yes", "ye...
$ `Bias correction (CF)`                                      <chr> "0.36", "0...
$ `Biomass componet`                                          <chr> "Total abo...
$ Taxa                                                        <chr> "Mixed har...
$ `Development species`                                       <chr> NA, NA, NA...
$ Region2                                                     <chr> "North Ame...
$ `Biomass equation source`                                   <chr> "Jenkins e...
$ `wsg source`                                                <chr> "Jenkins e...
$ `Notes on diameter, others`                                 <chr> NA, NA, NA...
$ `Reference SERC (original metionned in Jenkins et al.2004)` <chr> NA, NA, NA...

I’ll tweak the variable’s names to make it easier to remember them and to handle the data set.

tmp <- allodb::allo_temperate %>%
  set_names(tolower) %>% 
  # replacing with underscore (white space, comma, and period)
  set_names(~str_replace_all(., " |,|\\.", "_")) %>%
  set_names(~str_replace_all(., "__", "_")) %>%
  # remove brackets to make names valid (avoid backtics)
  set_names(~str_replace_all(., "\\(|\\)", ""))
head(names(tmp))

[1] "site"                  "family"                "species"              
[4] "species_code1"         "growth_form"           "wood_specific_gravity"

What an ideal table would look like?

Right now, the code I drafted works with a data set formatted this way:

bmss::toy_default_eqn

It’d be great if we can express the allometric equations only as a function of dbh – which means that all other parameters would need to be replaced by an appropriate corresponding constant. (If this is not possible, then I need to see exactly why so I can adjust the code to take a different input.)

What parameters of the allometric equations I would like to replace by constants?

This is a (likely incomplete) list of parameters that appear in the allometric equations. These parameters I would like to replace by appropriate constants.

eq <- unique(tmp$agb_equation)
to_split <- "\\+|\\(|\\)|\\=|\\*|\\[|\\]|-|\\^|x|\\/| |ln|log10|,"
to_discard <- "^biomass$|^DBH$|^dbh$|^[0-9]+[\\.]*[0-9]*$|^pi$|^$"
eq %>% 
  str_split(to_split) %>% 
  map(str_trim) %>% 
  map(unique) %>% 
  map(~discard(., ~is.na(.))) %>% 
  map(~discard(., ~grepl(to_discard, .))) %>% 
  reduce(c) %>% 
  unique()

 [1] "e"                      "p"                      "a"                     
 [4] "b"                      "dia"                    "c"                     
 [7] "d"                      "aDBH"                   "aD1"                   
[10] "BA_at_5cm_above_ground" "cm"                     "b×"                    
[13] "WD"                     "Bk"                     "dba"                   
[16] "BAE"                    "DBA"                    "BAT"                   
[19] "BFT"                    "BBL"                    "BST"                   
[22] "BSW"                    "BSB"                    "diameter"

A side note on tidy data

Tidy datasets are easy to manipulate, model and visualize, and have a specific structure: each variable is a column, each observation is a row, and each type of observational unit is a table. This framework makes it easy to tidy messy datasets because only a small set of tools are needed to deal with a wide range of un-tidy datasets.

– Tidy Data, by Hadley Wickham (https://www.jstatsoft.org/article/view/v059i10)

As a side note, one idea that usually helps me decide how to structure my data is that of “tidy data”. The idea of tidy data is then implemented in this free book: http://r4ds.had.co.nz/ – which explains the most common tools for wranging data (and for data science in general).

LS0tDQp0aXRsZTogIkV4cGxvcmUgYWxsb190ZW1wZXJhdGUiDQpzdWJ0aXRsZTogIklkZW50aWZ5aW5nIHdyYW5naW5nIGlzc3VlcyB0byBkaWNzdXNzIHdpdGggRXJpa2EiDQphdXRob3I6ICJtYXVyb2xlcG9yZUBnbWFpbC5jb20iDQpkYXRlOiAnMjAxNy0xMi0wNCcNCm91dHB1dDoNCiAgaHRtbF9ub3RlYm9vazoNCiAgICB0aGVtZTogdW5pdGVkDQogICAgdG9jOiB5ZXMNCiAgICB0b2NfZGVwdGg6IDYNCi0tLQ0KDQpgYGB7ciBzZXR1cCwgaW5jbHVkZT1GQUxTRX0NCnNldC5zZWVkKDEwMTQpDQpvcHRpb25zKGRpZ2l0cyA9IDMpDQoNCmtuaXRyOjpvcHRzX2NodW5rJHNldCgNCiAgZWNobyA9IFRSVUUsDQogIGNvbW1lbnQgPSAiIz4iLA0KICBjb2xsYXBzZSA9IFRSVUUsDQogIGNhY2hlID0gVFJVRSwNCiAgb3V0LndpZHRoID0gIjcwJSIsDQogIGZpZy5hbGlnbiA9ICJjZW50ZXIiLA0KICBmaWcud2lkdGggPSA2LA0KICBmaWcuYXNwID0gMC42MTgsICAjIDEgLyBwaGkNCiAgZmlnLnNob3cgPSAiaG9sZCIsDQogIHJvd3MucHJpbnQgPSAzICAjIHttaW5lfQ0KKQ0KYGBgDQoNCiMgT3ZlcnZpZXcNCg0KVGhlIGdvYWwgb2YgdGhpcyBkb2N1bWVudCBpcyB0byBleHBsb3JlIHRoZSBkYXRhIGJhc2Ugb2YgYWxsb21ldHJpYyBlcXVhdGlvbnMgZnJvbSB0ZW1wZXJhdGUgZm9yZXN0cy4gVGhpcyBpcyBpbiBwcmVwYXJhdGlvbiB0byBhIG1lZXRpbmcgd2l0aCBFcmlrYSBHb256YWxleiAoR29uemFsZXpFQlxAc2kuZWR1KS4gSGVyZSBJIGZvY3VzIG1haW5seSBvbiB3cmFuZ2xpbmcgaXNzdWVzLg0KDQpgYGB7cn0NCmxpYnJhcnkodGlkeXZlcnNlKQ0KbGlicmFyeShhbGxvZGIpDQpgYGANCg0KIyBDbGVhbmluZyB2YXJpYWJsZSdzIG5hbWVzDQoNCmBgYHtyfQ0KZ2xpbXBzZShhbGxvZGI6OmFsbG9fdGVtcGVyYXRlKQ0KYGBgDQoNCkknbGwgdHdlYWsgdGhlIHZhcmlhYmxlJ3MgbmFtZXMgdG8gbWFrZSBpdCBlYXNpZXIgdG8gcmVtZW1iZXIgdGhlbSBhbmQgdG8gaGFuZGxlIHRoZSBkYXRhIHNldC4NCg0KYGBge3J9DQp0bXAgPC0gYWxsb2RiOjphbGxvX3RlbXBlcmF0ZSAlPiUNCiAgc2V0X25hbWVzKHRvbG93ZXIpICU+JSANCiAgIyByZXBsYWNpbmcgd2l0aCB1bmRlcnNjb3JlICh3aGl0ZSBzcGFjZSwgY29tbWEsIGFuZCBwZXJpb2QpDQogIHNldF9uYW1lcyh+c3RyX3JlcGxhY2VfYWxsKC4sICIgfCx8XFwuIiwgIl8iKSkgJT4lDQogIHNldF9uYW1lcyh+c3RyX3JlcGxhY2VfYWxsKC4sICJfXyIsICJfIikpICU+JQ0KICAjIHJlbW92ZSBicmFja2V0cyB0byBtYWtlIG5hbWVzIHZhbGlkIChhdm9pZCBiYWNrdGljcykNCiAgc2V0X25hbWVzKH5zdHJfcmVwbGFjZV9hbGwoLiwgIlxcKHxcXCkiLCAiIikpDQpoZWFkKG5hbWVzKHRtcCkpDQpgYGANCg0KIyBXaGF0IGFuIGlkZWFsIHRhYmxlIHdvdWxkIGxvb2sgbGlrZT8NCg0KUmlnaHQgbm93LCB0aGUgY29kZSBJIGRyYWZ0ZWQgd29ya3Mgd2l0aCBhIGRhdGEgc2V0IGZvcm1hdHRlZCB0aGlzIHdheToNCg0KYGBge3J9DQpibXNzOjp0b3lfZGVmYXVsdF9lcW4NCmBgYA0KDQpJdCdkIGJlIGdyZWF0IGlmIHdlIGNhbiBleHByZXNzIHRoZSBhbGxvbWV0cmljIGVxdWF0aW9ucyBvbmx5IGFzIGEgZnVuY3Rpb24gb2YgZGJoIC0tIHdoaWNoIG1lYW5zIHRoYXQgYWxsIG90aGVyIHBhcmFtZXRlcnMgd291bGQgbmVlZCB0byBiZSByZXBsYWNlZCBieSBhbiBhcHByb3ByaWF0ZSBjb3JyZXNwb25kaW5nIGNvbnN0YW50LiAoSWYgdGhpcyBpcyBub3QgcG9zc2libGUsIHRoZW4gSSBuZWVkIHRvIHNlZSBleGFjdGx5IHdoeSBzbyBJIGNhbiBhZGp1c3QgdGhlIGNvZGUgdG8gdGFrZSBhIGRpZmZlcmVudCBpbnB1dC4pDQoNCiMgV2hhdCBwYXJhbWV0ZXJzIG9mIHRoZSBhbGxvbWV0cmljIGVxdWF0aW9ucyBJIHdvdWxkIGxpa2UgdG8gcmVwbGFjZSBieSBjb25zdGFudHM/DQoNClRoaXMgaXMgYSAobGlrZWx5IGluY29tcGxldGUpIGxpc3Qgb2YgcGFyYW1ldGVycyB0aGF0IGFwcGVhciBpbiB0aGUgYWxsb21ldHJpYyBlcXVhdGlvbnMuIFRoZXNlIHBhcmFtZXRlcnMgSSB3b3VsZCBsaWtlIHRvIHJlcGxhY2UgYnkgYXBwcm9wcmlhdGUgY29uc3RhbnRzLg0KDQpgYGB7cn0NCmVxIDwtIHVuaXF1ZSh0bXAkYWdiX2VxdWF0aW9uKQ0KDQp0b19zcGxpdCA8LSAiXFwrfFxcKHxcXCl8XFw9fFxcKnxcXFt8XFxdfC18XFxefHh8XFwvfCB8bG58bG9nMTB8LCINCnRvX2Rpc2NhcmQgPC0gIl5iaW9tYXNzJHxeREJIJHxeZGJoJHxeWzAtOV0rW1xcLl0qWzAtOV0qJHxecGkkfF4kIg0KZXEgJT4lIA0KICBzdHJfc3BsaXQodG9fc3BsaXQpICU+JSANCiAgbWFwKHN0cl90cmltKSAlPiUgDQogIG1hcCh1bmlxdWUpICU+JSANCiAgbWFwKH5kaXNjYXJkKC4sIH5pcy5uYSguKSkpICU+JSANCiAgbWFwKH5kaXNjYXJkKC4sIH5ncmVwbCh0b19kaXNjYXJkLCAuKSkpICU+JSANCiAgcmVkdWNlKGMpICU+JSANCiAgdW5pcXVlKCkNCmBgYA0KDQojIEEgc2lkZSBub3RlIG9uIHRpZHkgZGF0YQ0KDQo+IFRpZHkgZGF0YXNldHMgYXJlIGVhc3kgdG8gbWFuaXB1bGF0ZSwgbW9kZWwgYW5kIHZpc3VhbGl6ZSwgYW5kIGhhdmUgYSBzcGVjaWZpYyBzdHJ1Y3R1cmU6IGVhY2ggdmFyaWFibGUgaXMgYSBjb2x1bW4sIGVhY2ggb2JzZXJ2YXRpb24gaXMgYSByb3csIGFuZCBlYWNoIHR5cGUgb2Ygb2JzZXJ2YXRpb25hbCB1bml0IGlzIGEgdGFibGUuIFRoaXMgZnJhbWV3b3JrIG1ha2VzIGl0IGVhc3kgdG8gdGlkeSBtZXNzeSBkYXRhc2V0cyBiZWNhdXNlIG9ubHkgYSBzbWFsbCBzZXQgb2YgdG9vbHMgYXJlIG5lZWRlZCB0byBkZWFsIHdpdGggYSB3aWRlIHJhbmdlIG9mIHVuLXRpZHkgZGF0YXNldHMuDQoNCi0tIFRpZHkgRGF0YSwgYnkgSGFkbGV5IFdpY2toYW0gKGh0dHBzOi8vd3d3LmpzdGF0c29mdC5vcmcvYXJ0aWNsZS92aWV3L3YwNTlpMTApDQoNCkFzIGEgc2lkZSBub3RlLCBvbmUgaWRlYSB0aGF0IHVzdWFsbHkgaGVscHMgbWUgZGVjaWRlIGhvdyB0byBzdHJ1Y3R1cmUgbXkgZGF0YSBpcyB0aGF0IG9mICJ0aWR5IGRhdGEiLiBUaGUgaWRlYSBvZiB0aWR5IGRhdGEgaXMgdGhlbiBpbXBsZW1lbnRlZCBpbiB0aGlzIGZyZWUgYm9vazogaHR0cDovL3I0ZHMuaGFkLmNvLm56LyAtLSB3aGljaCBleHBsYWlucyB0aGUgbW9zdCBjb21tb24gdG9vbHMgZm9yIHdyYW5naW5nIGRhdGEgKGFuZCBmb3IgZGF0YSBzY2llbmNlIGluIGdlbmVyYWwpLg0K

Explore allo_temperate

Identifying wranging issues to dicsuss with Erika

maurolepore@gmail.com

2017-12-04

Overview

Cleaning variable’s names

What an ideal table would look like?

What parameters of the allometric equations I would like to replace by constants?

A side note on tidy data