c++ - 调用从程序集中返回 std::string 的 C++ 函数
问题描述
我目前正在运行外部 C++ 函数来进行简单的字符串输入。我的总体目标是连接两个用户输入字符串,但由于某种原因,我在第二次返回 inputString 函数时遇到了读取访问冲突。
我怀疑在调查后我的函数正在同一地址返回这两个返回字符串。我也认为我可能不正确地管理堆栈。
extern inputString : proto C
extern outputStringLen : proto C
.data
.CODE
asm_main PROC
sub rsp, 20h ; creating shadow space
call inputString
mov rcx, rax
call outputStringLen
mov r12, rax
call inputString
mov rcx, rax
call outputStringLen
mov r13, rax
add rsp, 20h ; deleting created space
ret ; ret to stack
asm_main ENDP
END
C++ 代码:
extern "C" string inputString() {
string strInput;
cout << "Enter string input: ";
cin >> strInput;
return strInput;
}
extern "C" int outputStringLen(string strInput) {
int strLength = 0;
for (int i = 0; i < strInput.length(); i++) {
strLength++;
}
return strLength;
}
解决方案
您没有传递指向 std::string 返回值对象的指针以供 inputString 存储其结果。它通常是 32 字节对象,不适合 RAX。像大多数调用约定一样,Windows x64 通过让调用者将指针作为第一个参数传递来处理大型结构/类返回(和不可复制的对象)。 https://docs.microsoft.com/en-us/cpp/build/x64-calling-convention?view=msvc-160
使用调试器查看哪些指令出错。(可能是其中之一inputString
,使用之前踩过的 RCX。)
可能在第一次调用你的asm_main
, RCX 时仍然碰巧持有char **argv
或其他一些指向可写内存的有效指针。当您第一次调用inputString
时,您将 this 作为指向返回值对象的指针传递。但是outputStringLen
可能已经踩到了 RCX 本身,所以第二次调用传递了一个无效的指针。
即第一次调用只是碰巧有效,并且会因不同的调用者而失败asm_main
。
这似乎是用汇编语言弄湿你的脚的一种非常复杂的方法!
std::string
不是可简单复制的类型;它具有复制构造函数和析构函数,实际上是一个容器,可以直接保存数据或指向动态分配的存储。
MSVC 甚至警告extern "C"
在返回 std::string 的函数上使用:
<source>(4): warning C4190: 'inputString' has C-linkage specified, but returns UDT 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>' which is incompatible with C
C:/data/msvc/14.28.29914/include\xstring(4648): note: see declaration of 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>'
使用缓冲区,例如sub rsp, 88
在堆栈上保留 88 个字节,并使用带有 arg 的 C++ 函数,char *
在 asm 中会更简单。
说到这一点,要在进入 16 时将 RSP 重新对齐asm_main
,您应该将 RSP 调整为16*n + 8
。所以至少sub rsp, 28h
,因为你push
什么都没有。
像 C++ 这样std::string
的容器很难在 asm 中使用
您的总体目标相当复杂,特别是考虑到 C++ 实现使用短字符串优化(将数据保存在std::string
对象本身内),但对于较长的字符串,使用相同的空间来存储 3 个指针,如std::vector
.
或者你想调用一个使用的 C++ 函数std::string::operator+
?这会更容易,但std::string
如果您只返回连接的字符串对象,您仍然会泄漏两个返回值对象的内存。(如果你用 C++ 编写调用者,它将有两个std::string
本地变量,并会在退出时运行它们的析构函数。)我猜operator+=
这意味着你只需要处理其中一个,因为它会附加到现有的std::string
对象,如果你通过引用传递它。
请注意,在 asm 中,int outputStringLen(string strInput)
看起来与int outputStringLen(const string &strInput)
. 两者都带一个指针(因为std::string
太大而无法传入一个寄存器,所以 Windows x64 调用约定要求调用者创建一个临时对象并将指针传递给它,以实现按值调用)。所以这只是调用者是否创建一个 tmp 对象,或者你是否传递一个指向现有对象的指针的问题。
您应该查看调用其他 C++ 函数* 的 C++ 函数的编译器输出,以了解编译器会做什么。如何从 GCC/clang 程序集输出中去除“噪音”?适用 - 包括将代码放在 Godbolt 编译器资源管理器上的建议 -
#include <string>
#include <cstdlib>
extern "C" std::string inputString();
extern "C" size_t outputStringLen(const std::string &strInput);
//extern "C" size_t outputStringLen(std::string strInput); // *much* more code to pass a copy by value
int sink; // to show the output definitely going somewhere, not just staying in RAX
void asm_main(void) {
std::string a = inputString();
size_t len = outputStringLen(a);
sink = len;
}
使用 MSVC 编译-O2 -GS-
:https ://godbolt.org/z/4YdG1bf4o 。(优化消除了大量的存储/重新加载并将其归结为必须发生的工作。消除 -GS-
了缓冲区溢出检查。)
a$ = 32
void asm_main(void) PROC ; asm_main, COMDAT
$LN36:
sub rsp, 72 ; 00000048H
lea rcx, QWORD PTR a$[rsp] ;;; output pointer
call inputString
lea rcx, QWORD PTR a$[rsp] ;;; same pointer arg
call outputStringLen
mov rdx, QWORD PTR a$[rsp+24]
mov DWORD PTR int sink, eax ; sink
cmp rdx, 16 ;;; check for short-string => no delete
jb SHORT $LN16@asm_main
mov rcx, QWORD PTR a$[rsp]
inc rdx
mov rax, rcx
cmp rdx, 4096 ; 00001000H
jb SHORT $LN26@asm_main
mov rcx, QWORD PTR [rcx-8]
add rdx, 39 ; 00000027H
sub rax, rcx
add rax, -8
cmp rax, 31 ;; some kind of invalid / corrupt std::string check?
ja SHORT $LN34@asm_main
$LN26@asm_main:
call void operator delete(void *,unsigned __int64) ; operator delete
$LN16@asm_main:
add rsp, 72 ; 00000048H
ret 0
$LN34@asm_main:
call _invalid_parameter_noinfo_noreturn
int 3
$LN32@asm_main:
void asm_main(void) ENDP ; asm_main
我不知道为什么它需要检查任何东西并有条件地调用_invalid_parameter_noinfo_noreturn
;该部分可能在正常执行期间永远不会到达,因此基本上可以认为是噪音。
传递给的指针inputString
显示了您应该做的事情:
a$ = 32
...
sub rsp, 72 ; shadow space + sizeof(std::string) + alignment padding
lea rcx, QWORD PTR a$[rsp] ;;; Pointer to return-value object
call inputString
lea rcx, QWORD PTR a$[rsp]
call outputStringLen
...
mov DWORD PTR int sink, eax ; sink
(我认为在 Windows x64 中,通过隐藏输出指针返回大对象的函数也必须在 RAX 中返回该指针,所以你mov rcx, rax
也是安全的。)
另请注意对 的条件调用operator delete
,具体取决于 std::string 的大小(检测短字符串优化以查看是否有任何动态分配的存储空间可供释放)。
请记住,这是简单的版本;通过 const 引用传递,而不是通过必须复制构造另一个std::string
对象的值。
ABIstd::string
由 C++ 头文件中的实现细节决定。 与 asm 进行互操作并不是一件特别容易的事情。我部分地向您展示了一些细节,以警告您不要尝试这样做,同时为您提供指针以找到您需要手写与 C++ 交互的正确 asm 所需的信息std::string
。通常你想把它留给编译器。
一个好的经验法则是,您想从 asm 调用的函数实际上应该可以从 C 调用,除非您想编写了解 C++ 编译器的 C++ ABI(例如布局和其他内部细节std::string
)的 asm。获取或返回 astd::string
不符合条件:您不能教 C 编译器正确处理 a std::string
,因为它具有构造函数和析构函数,以及重载的运算符。这就是为什么 MSVC 抱怨在extern "C"
函数中按值返回一个。
尝试asm_main
用实际的 C 而不是 C++ 编写,看看你遇到了什么问题。
你outputStringLen
的过于复杂了。 std::string
是一个显式长度的字符串,即它知道它自己的长度,所以你可以要求它。 return str.length()
. 循环for (i=0, j=0 ; i<n ; i++){ j++; }
是一种非常低效的编写方式i = j = n;
。
也许您正在考虑char*
带有0
终止符的 C 字符串,您必须在其中循环(或调用 strlen)才能找到长度。
推荐阅读
- angular - Angular 9 动画不适用于动态数据
- node.js - 如何使用 NodeJS 在 CSV 中删除列和重命名列
- javascript - 使用 router.push - next.js 后 csrf 令牌无效
- android - Android RecyclerView Width 比 Screen 宽
- css - Bootstrap Dropdown 在单击 Mobile 后关闭折叠菜单(不显示下拉菜单)
- sql - SQL获取有序数据的排名
- html - 允许图像溢出父 div 但需要将内容向下推送
- react-native - 如何在 React Native 中选择正确的 gradle 版本
- monaco-editor - 如何在评论中为“待办事项”创建规则
- python - Python中的动态数据框转换