[toc]
因部门每次加特征,都需要修改protobuf
,添加对应protobuf
获取的代码。重复性开发是真滴多。因此重构获取特征的版本,通过反射+配置动态获取。每次只需升级pb,就可以获取到对应的特征。
1.1 Message
Message
类继承于 MessageLite 类,业务一般自定义的 refactor_reqs
类继承于Message
类。是自定义的pb类型,继承自Message. MessageLite作为Message基类,更加轻量级一些。
一般使用通过Message
的两个接口GetDescriptor/GetReflection,可以获取该类型对应的Descriptor/Reflection。
因为我们的特征都是包含在一个大的Message
里头,所以使用FindMessageTypeByName获取Descriptor
const google::protobuf::Reflection* pReflection = pMessage->GetReflection();
const google::protobuf::Descriptor* pDescriptor = pMessage->GetDescriptor();
const ::google::protobuf::Descriptor* pDescriptor =
google::protobuf::DescriptorPool::generated_pool()->FindMessageTypeByName(msg_name);
1.2 Descriptor
Descriptor
是对message类型定义的描述,包括message的名字、所有字段的描述、原始的proto文件内容等。
在类Descriptor
中,可以通过如下方法获取类 FieldDescriptor:
const FieldDescriptor* field(int index) const; // 根据定义顺序索引获取,即从0开始到最大定义的条目
const FieldDescriptor* FindFieldByNumber(int number) const; // 根据定义的message里面的顺序值获取(option string name=3,3即为number)
const FieldDescriptor* FindFieldByName(const string& name) const; // 根据field name获取
const FieldDescriptor* Descriptor::FindFieldByLowercaseName(const std::string & lowercase_name)const; // 根据小写的field name获取
const FieldDescriptor* Descriptor::FindFieldByCamelcaseName(const std::string & camelcase_name) const; // 根据驼峰的field name获取
1.2 FieldDescriptor
FieldDescriptor描述message中的单个字段,例如字段名,字段属性(optional/required/repeated)等。
对于proto定义里的每种类型,都有一种对应的C++类型
const std::string & name() const; // Name of this field within the message.
CppType cpp_type() const; //C++ type of this field.
bool is_required() const; // 判断字段是否是必填
bool is_optional() const; // 判断字段是否是选填
bool is_repeated() const; // 判断字段是否是重复值
int number() const; // Declared tag number.
int index() const; //Index of this field within the message's field array, or the file or extension scope's extensions array.
1.2 Reflection
Reflection主要提供了动态读写pb字段的接口,对pb对象的自动读写主要通过该类完成
读操作和嵌套的message:
virtual int32 GetInt32 (const Message& message,
const FieldDescriptor* field) const = 0;
virtual int64 GetInt64 (const Message& message,
const FieldDescriptor* field) const = 0;
// See MutableMessage() for the meaning of the "factory" parameter.
virtual const Message& GetMessage(const Message& message,
const FieldDescriptor* field,
MessageFactory* factory = NULL) const = 0;
对于写操作也是类似的接口,例如SetInt32/SetInt64/SetEnum等。
void SetInt32(Message * message, const FieldDescriptor * field, int32 value) const
读repeated类型字段:
int32 GetRepeatedInt32(const Message & message, const FieldDescriptor * field, int index) const
std::string GetRepeatedString(const Message & message, const FieldDescriptor * field, int index) const
const Message & GetRepeatedMessage(const Message & message, const FieldDescriptor * field, int index) const
写repeated类型字段:
void SetRepeatedInt32(Message * message, const FieldDescriptor * field, int index, int32 value) const
void SetRepeatedString(Message * message, const FieldDescriptor * field, int index, std::string value) const
void SetRepeatedEnumValue(Message * message, const FieldDescriptor * field, int index, int value) const // Set an enum field's value with an integer rather than EnumValueDescriptor. more..
新增重复字段
void AddInt32(Message * message, const FieldDescriptor * field, int32 value) const
void AddString(Message * message, const FieldDescriptor * field, std::string value) const
2.1 特征工程如何使用
有了上面的知识,我们如何使用到自己的工程中呢。
首先我们定义一个proto
文件test_refactor.proto
syntax = "proto3";
package test.refactor;
option cc_generic_services = true;
message item_info { // item 信息
int32 source = 1;
repeated int32 newsTypes = 2;
string name = 3;
};
message user_info { // 用户信息
int32 type = 1;
repeated int32 sex = 2;
string imei = 3;
};
message item_req {
item_info item = 1;
user_info user = 2;
};
message refactor_reqs {
item_req req = 1;
}
- 业务场景是所有的特征都包括在message的
refactor_reqs
中,利用这个message我们可以获取到对应的Descriptor
const ::google::protobuf::Descriptor* descriptor =
google::protobuf::DescriptorPool::generated_pool()->FindMessageTypeByName("test.refactor.refactor_reqs");
- 在获取对应
field name
获取对应需要获取的FieldDescriptor
,如获取item信息的数据,写为req.item
field_descriptor = descriptor->FindFieldByName("item");
- 最终每次获取的时候,我们获取的数据都是填充到test::refactor::refactor_reqs refactor_reqs中。
最终可以得到如下:
3.1 初始化获取FiledDescriptor信息
std::vector<const ::google::protobuf::FieldDescriptor*> GenerateDescriptorSegments(
const std::string& msg_name, const std::string& pb_path) {
std::vector<const ::google::protobuf::FieldDescriptor*> descriptor_segments;
const ::google::protobuf::Descriptor* descriptor =
google::protobuf::DescriptorPool::generated_pool()->FindMessageTypeByName(msg_name);
if (descriptor == nullptr) {
LOG(ERROR) << "get descriptor failed";
}
std::vector<std::string> segments;
boost::split(segments, pb_path, boost::is_any_of("."));
if (segments.empty()) {
LOG(ERROR) << "parse pb_path segment empty:" << pb_path;
}
// 校验解析数据
const ::google::protobuf::FieldDescriptor* field_descriptor = NULL;
for (const auto& segment : segments) {
if (descriptor == nullptr) {
LOG(ERROR) << "segment:" << segment << ", descriptor null";
break;
}
// // 根据field name获取
field_descriptor = descriptor->FindFieldByName(segment);
if (field_descriptor == nullptr) {
LOG(ERROR) << "find segment:" << segment << ", descriptor null";
break;
}
// repeate字段暂不支持
if (field_descriptor->is_repeated()) {
LOG(ERROR) << " is repeated";
break;
}
descriptor_segments.emplace_back(field_descriptor);
LOG(INFO) << "cpp_type:" << field_descriptor->cpp_type();
if (field_descriptor->cpp_type() == ::google::protobuf::FieldDescriptor::CPPTYPE_MESSAGE) {
descriptor = field_descriptor->message_type();
} else {
descriptor = nullptr;
}
}
if (field_descriptor == nullptr) {
// descriptor_segments.clear();
LOG(ERROR) << "field descriptor null";
}
return std::move(descriptor_segments);
}
-
msg_name
我们传入test.refactor.refactor_reqs, -
pb_path
解析对应的req.item数据 - 最终我们可以获取到每个filed对应的
FieldDescriptor
3.2 实时获取对应的特征数据
bool ParseFromString(::google::protobuf::Message* last_message,
std::vector<const ::google::protobuf::FieldDescriptor*> desc_seg,
const std::string& data) {
auto t1 = butil::gettimeofday_us();
for (auto& seg : desc_seg) {
// 处理每一个字段
auto reflection = last_message->GetReflection();
// const google::protobuf::Message& submessage = reflection->GetMessage(message, field);
last_message = reflection->MutableMessage(last_message, seg);
if (!last_message) {
LOG(ERROR) << "get message failed, param:";
break;
}
}
if (!last_message) {
LOG(ERROR) << "get message failed, key:";
return false;
}
auto suc = last_message->ParseFromString(data);
LOG(INFO) << "parse suc:" << suc << " feature:" << last_message->Utf8DebugString();
return suc;
}
- 将获取到的
FieldDescriptor
,通过GetReflection逐步初始化。获取到最终数据需要解析的message
- 最后调用msg->ParseFromString实例化得到最终想要的特征数据
3.3 代码验证
void main() {
// 构造item特征
test::refactor::item_info reqs_item;
reqs_item.set_source(2);
reqs_item.add_newstypes(3);
reqs_item.add_newstypes(4);
reqs_item.set_name("dandyhuang");
// 构造用户特征
test::refactor::user_info reqs_user;
reqs_user.set_imei("dsfdsderw");
reqs_user.add_sex(3);
reqs_user.add_sex(4);
reqs_user.set_type(6666);
// 从redis获取的item和user特征
std::string item_data_str = reqs_item.SerializeAsString();
std::string user_data_str = reqs_user.SerializeAsString();
// 初始化对应需要获取的数据
auto item_des_seg = GenerateDescriptorSegments("test.refactor.refactor_reqs", "req.item");
auto user_des_seg = GenerateDescriptorSegments("test.refactor.refactor_reqs", "req.user");
auto t1 = butil::gettimeofday_us();
// 大proto,获取里头的特征数据
test::refactor::refactor_reqs refactor_reqs;
// 解析对应数据
ParseFromString(&refactor_reqs, item_des_seg, item_data_str);
LOG(INFO) << "refactor_reqs item:" << refactor_reqs.Utf8DebugString()
<< "name:" << refactor_reqs.req().item().name();
// 解析对应数据
ParseFromString(&refactor_reqs, user_des_seg, user_data_str);
LOG(INFO) << "refactor_reqs user+item:" << refactor_reqs.Utf8DebugString()
<< "imei:" << refactor_reqs.req().user().imei();
auto t2 = butil::gettimeofday_us();
// 业务直接解析
test::refactor::refactor_reqs origin_reqs;
origin_reqs.mutable_req()->mutable_item()->ParseFromString(item_data_str);
VLOG(INFO) << "origin_reqs item:" << origin_reqs.Utf8DebugString();
origin_reqs.mutable_req()->mutable_user()->ParseFromString(user_data_str);
VLOG(INFO) << "origin_reqs user+item:" << origin_reqs.Utf8DebugString();
auto t3 = butil::gettimeofday_us();
VLOG_APP(INFO) << "parse cost1: " << t2 - t1 << " cost2:" << t3 - t2;
}
4.1 和业务直接解析对比耗时
我们看到,反射还是比较耗时的,但耗时阶段其实是在构建反射第一次的时候。后续解析pb_path
对应的数据时,耗时和直接业务解析是一致的。
当数据量很大,filed_name字段很多的时候,初始化可以另外启动一个线程去初始化。初始化完毕后,在去做特征反射
4.2 每次反射解析ParseFromString
的耗时
大家可以添加我的wx一起交流
我是dandyhuang_,码字不易,有不清楚的可以加w一起交流。